一.文档
#字符
import unicodeata
lookup()——接受不区分大小写的标准名称,返回一个
Unicode
字符
name()——接受一个
Unicode
字符,返回大写形式的名称
unicodeata.name('A')
snowman.encode('utf-8')
#指定字符编码
#验证ASCII
def unicode_test(value):
-
import unicodedata
name = unicodedata.name(value)
value2 = unicodedata.lookup(name)
-
print('value="%s", name="%s", value2="%s"'
%
(value, name, value2))
unicode_test('A')
unicode_test('u2603')
#雪人
unicodedata.name('u00e9')
#用编码值查询字符名称
unicodedata.lookup('LATIN SMALL LETTER E WITH ACUTE')
#根据字符查询编码值,要去掉逗号,后变前
但当需要与外界进行数据交互时则
1.将字符串编码为字节
2.将字节解码为字符串
二.编码方式
#变成utf-8编码方式
name.encode('utf-8')
name.encode('utf-8','ignore')
#去掉无法解析的字符
replace #无法解析的换成?
backslashreplace #创建一个和 unicode-escape 类似的 Unicode 字符串
xmlcharrefreplace #于创建网页中使用的字符实体串
#编码和解码
place =
'cafu00e9'
type(place)
place_bytes = place.encode('utf-8')
#以格式编码
type(place_bytes)
place2 = place_bytes.decode('utf-8')
#转换为unicode字符