python数据分析实例:利用爬虫获取数据

2023-03-29 13:42:41 浏览数 (3)

我们在工作中用到网络上发布的各种信息,如果用搜索引擎查找并整理,需要花费大量时间,现在python能够帮助我们,使用爬虫技术,提高数据查找和整理的效率。

第一步:分析网页第一步:分析网页要爬取一个网页,首先分析网页结构。现在很多网站都用Ajax(异步加载)的技术,打开网页,先给你看上面一部分东西,然后剩下的东西再慢慢加载。所以你可以看到很多网页,都是慢慢的刷出来的,或者有些网站随着你的移动,很多信息才慢慢加载出来。这样的网页有个好处,就是网页加载速度特别快。但这个技术是不利于爬虫的爬取的,我们可以借助chrome浏览器的小工具进行分析。

第二步,网址构造在“Headers”中,看到网页地址。

第三步,编写爬虫脚本写代码需要说明的是因为这个网页的格式是用的json,那么我们可以用json格式很好的读出内容。这里我们切换成到preview下,然后点content——positionResult——result,可以发现出先一个列表,再点开就可以看到每个职位的内容。为什么要从这里看?有个好处就是知道这个json文件的层级结构,方便等下编码。

0 人点赞