Scrapy中文乱码解决

2021-01-13 11:30:16 浏览数 (1)

一、得到html编码方式,一般有:utf-8,GBK,GB2312

方法一:查看标签meta中属性charset的值

方法二:chardet查看

1. 安装chardet:$ pip install chardet

2. 代码:chardet.detect(string)

二、转换:GBK,GB2312转utf-8

代码语言:javascript复制
gbkContent = response.body.decode(chardet.detect(response.body)['encoding'])
utf8Content = gbkContent.encode('utf-8')
print utf8Content

0 人点赞