python 提取网页 charset

2020-01-06 11:17:16 浏览数 (1)

经过十几万网页采集测试,有效率99.99%

代码语言:javascript复制
def pick_charset(html):
    """
    从文本中提取 meta charset
    :param html:
    :return:
    """
    charset = None
    m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?([a-zA-Z0-9_-] )"?', re.I).search(html)
    if m and m.lastindex == 2:
        charset = m.group(2).lower()
    return charset

注意引入 re,如果有更好的方法欢迎联系 coconets@163.com

0 人点赞