写在前面
字符集是对特定语言中所有可读或可显示字符的称呼。例如英语、汉语、日语等都是不同的字符集。字符集决定了可以展示和表示的字符范围。在字符集中,需要使用编码字符集来实现字符的编码和转码。编码字符集使用编码值来表示字符在字库表中的位置。字库表是一个包含了所有可读或可显示字符的数据库,它决定了字符集能够展示的所有字符的范围。字符编码定义了编码字符集和实际存储数值之间的转换关系。常见的字符编码方式包括ASCII、ISO 8859-1、GB2312、GBK等。常情况下,一个字符集对应一个编码方式,比如ASCII、ISO 8859-1、GB2312、GBK等都是针对特定字符集的编码方式。
然而,一个字符集也可以有多种编码方式。例如,UCS字符集(也是Unicode使用的字符集)上有UTF-8、UTF-16、UTF-32等编码方式。
- UTF8:又分为带签名和不带签名两种,Windows代码页为65001,VS中应该选择【UTF8-带签名】的格式
- GBK/GB2312:Windows代码页为936
- GB18030: Windows代码页为54936
具体实现小demo
iconv
代码语言:c复制#include <iostream>
#include <string>
#include <string.h>
#include <stdlib.h>
using namespace std;
#ifdef _WIN32
#include <windows.h>
string GbkToUtf8(const char *src_str)
{
int len = MultiByteToWideChar(CP_ACP, 0, src_str, -1, NULL, 0);
wchar_t* wstr = new wchar_t[len 1];
memset(wstr, 0, len 1);
MultiByteToWideChar(CP_ACP, 0, src_str, -1, wstr, len);
len = WideCharToMultiByte(CP_UTF8, 0, wstr, -1, NULL, 0, NULL, NULL);
char* str = new char[len 1];
memset(str, 0, len 1);
WideCharToMultiByte(CP_UTF8, 0, wstr, -1, str, len, NULL, NULL);
string strTemp = str;
if (wstr) delete[] wstr;
if (str) delete[] str;
return strTemp;
}
string Utf8ToGbk(const char *src_str)
{
int len = MultiByteToWideChar(CP_UTF8, 0, src_str, -1, NULL, 0);
wchar_t* wszGBK = new wchar_t[len 1];
memset(wszGBK, 0, len * 2 2);
MultiByteToWideChar(CP_UTF8, 0, src_str, -1, wszGBK, len);
len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
char* szGBK = new char[len 1];
memset(szGBK, 0, len 1);
WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, szGBK, len, NULL, NULL);
string strTemp(szGBK);
if (wszGBK) delete[] wszGBK;
if (szGBK) delete[] szGBK;
return strTemp;
}
int GbkToUtf8(char *str_str, size_t src_len, char *dst_str, size_t dst_len)
{
iconv_t cd;
char **pin = &str_str;
char **pout = &dst_str;
cd = iconv_open("utf8", "gbk");
if (cd == 0)
return -1;
memset(dst_str, 0, dst_len);
if (iconv(cd, pin, &src_len, pout, &dst_len) == -1)
return -1;
iconv_close(cd);
*pout = '