爬虫的原理
远程请求网站内容,提取数据,持久化,提供检索
go解析html的方式
golang.org/x/net/html原生的html解析成DOM树
正则匹配
selenium直接操作浏览器
go的chromedp库
css选择器goquery
xpath路径包表达式解析网页
json解析
app端工具
- charles
- mitmproxy
持久化存储
- mongodb
- redis
- mysql
远程请求网站内容,提取数据,持久化,提供检索
golang.org/x/net/html原生的html解析成DOM树
正则匹配
selenium直接操作浏览器
go的chromedp库
css选择器goquery
xpath路径包表达式解析网页
json解析
app端工具
持久化存储