字符集
字符集是一系列字符的集合,将每个收录的字符和数字进行映射。最早的字符集是ASCII,使用一个字节进行存储字符,8位一共可以表示256个字符,而ASCII只使用了其中的128位,即0~127位,这128位里面包括了常用的英文字符以及标点符号。
一部分不使用英文的字符可以用后面的128位来表示,即128~256位,后面的128位也被称为扩展字符集。但是它表示的字符有限,对于汉字来说,用单字节无法表示完整,因此国标码采用了双字节来表示汉字(即GBK等编码)。
由于不同国家的语言编码不同,互相之间如何通过ASCII进行交流?于是就有了万国码Unicode。Unicode是一个几乎包括了世上所有字符的字符集,每个字符都有一个对应的独一无二的Unicode码,比如聊天时使用的emoji表情字符,GitHub上也可以通过 :grin: 这种写法来输出emoji字符,这个对应的是