获取网页中所有的文字

2023-02-24 14:46:41 浏览数 (7)

代码语言：javascript复制

# encoding=utf8

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import re
import requests
from bs4 import BeautifulSoup


html = requests.get('https://mp.weixin.qq.com/s?src=11×tamp=1533887718&ver=1051&signature=Xszdx5nmmHyebcH0MXxyHi7-jDwGoNDUDXCHJzPVic68tXGRSTiM3CStUDfSR*aALaC3nK3Ez4e33uLR5ir1pLgy3vEvWXWOvVXgAbsXMn5fB-HWboOW26GH*KMRVhgX&new=1')
soup = BeautifulSoup(html.text, "html5lib")
data = soup.findAll(text=True)


def visible(element):
    if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
        return False
    elif re.match('', str(element.encode('utf-8'))):
        return False
    return True


result = filter(visible, data)

with open('res.txt', "w ") as p:
    for i in result:
        print(str(i))
        p.write(str(i))


print list(result)

* 网站名称：obaby@mars * 网址：https://h4ck.org.cn/ * 本文标题：《获取网页中所有的文字》 * 本文链接：https://h4ck.org.cn/2018/08/获取网页中所有的文字/ * 转载文章请标明文章来源，原文标题以及原文链接。请遵从《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。

分享文章：

BeautifulSoup抓取js变量
基于ffmpeg的m3u8下载[调整key替换逻辑，更新解析逻辑]
missdica.com爬虫【美女图片爬虫】
iOS iap receipt 服务器校验
Qingdao Gov Facial Mask Appointment
CommentView Plugin for IDAPro7.0
韩国美女模特爬虫
QQ音乐导出
.mht文件图片解析工具
UnGzip Data(PyQt4) By obaby

爬虫腾讯云开发者社区 https 网络安全

0 人点赞

获取网页中所有的文字

相关文章: