每天坚持20分钟网络爬虫

2022-07-07 22:40:23 浏览数 (2)

爬虫的原理

远程请求网站内容,提取数据,持久化,提供检索

go解析html的方式

golang.org/x/net/html原生的html解析成DOM树

正则匹配

selenium直接操作浏览器

go的chromedp库

css选择器goquery

xpath路径包表达式解析网页

json解析

app端工具

  • charles
  • mitmproxy

持久化存储

  • mongodb
  • redis
  • mysql

0 人点赞