python之chardet库

2019-07-02 10:45:46 浏览数 (2)

chardet库是python的字符编码检测器,能够检测出各种编码的类型,例如:

代码语言:javascript复制
1 import chardet
2 import urllib.request
3 
4 testdata = urllib.request.urlopen('http://m2.cn.bing.com/').read()
5 print(chardet.detect(testdata))

运行结果:

代码语言:javascript复制
{'confidence': 0.99, 'encoding': 'utf-8'}

翻译一下就是:

代码语言:javascript复制
{'精准度': 99%, 'encoding(编码形式)': 'utf-8'}

没见识到这个库之前所有编码纯属自己的记忆:

代码语言:javascript复制
# unicode_escape
u4e2du56fd
# gbk或者utf-8
xd6xd0xb9xfa
中国
# urlencode
中国
# Gb2312
�й�

这些编码纯属需要眼睛辨认再去网上查找编码

现在发现了chardet这个库后方便了很多  

0 人点赞