一、得到html编码方式,一般有:utf-8,GBK,GB2312
方法一:查看标签meta中属性charset的值
方法二:chardet查看
1. 安装chardet:$ pip install chardet
2. 代码:chardet.detect(string)
二、转换:GBK,GB2312转utf-8
代码语言:javascript复制gbkContent = response.body.decode(chardet.detect(response.body)['encoding'])
utf8Content = gbkContent.encode('utf-8')
print utf8Content