爬虫入门--了解相关工具

1.爬虫与python

首先我们要知道，爬虫一定要用Python么? 非也~ 用Java也行, C也可以，请各位记住，编程语言只是工具，抓到数据是你的目的，用什么工具去达到你的目的都是可以的，和吃饭一样, 可以用叉子也可以用筷子, 最终的结果都是你能吃到饭，那为什么大多数人喜欢用Python呢? 答案: 因为Python写爬虫简单，不理解? 问: 为什么吃米饭不用刀叉? 用筷子? 因为简单! 好用!

而Python是众多编程语言中, 小白上手最快, 语法最简单，而且如果要成为一名python全栈工程师，爬虫这项技能是有必要掌握的，而python有非常多的关于爬虫能用到的第三方支持库. 说直白点儿. 就是你用筷子吃饭, 我还附送你一个佣人. 帮你吃! 这样吃的是不是更爽了. 更容易了~

2.第一个爬虫

爬虫就是我们通过我们写的程序去抓取互联网上的数据资源. 比如, 此时我需要百度的资源. 在不考虑爬虫的情况下, 我们肯定是打开浏览器, 然后输入百度的网址, 紧接着, 我们就能在浏览器上看到百度的内容了. 那换成爬虫呢? 其实道理是一样的. 只不过, 我们需要用代码来模拟一个浏览器, 然后同样的输入百度的网址. 那么我们的程序应该也能拿到百度的内容. 对吧~

在python中, 我们可以直接用urllib模块来完成对浏览器的模拟工作~, 直接上代码

代码语言：javascript复制

from urllib.request import urlopen

resp = urlopen("http://www.baidu.com")  # 打开 百度
print(resp.read().decode("utf-8"))  # 打印 抓取到的内容

我们可以把抓取到的html内容全部写入到文件中, 然后和原版的百度进行对比, 看看是否一致

代码语言：javascript复制

from urllib.request import urlopen

resp = urlopen("http://www.baidu.com")  # 打开 百度

# print(resp.read().decode("utf-8"))  # 打印 抓取到的内容

with open("baidu.html", mode="w", encoding="utf-8") as f:  # 创建文件
    f.write(resp.read().decode("utf-8"))  # 保存在文件中

3.web请求的全过程

大家可以去补充一些前端的知识，学习爬虫我们要求的不多，只要能过看懂就可以，话不多说，直接上图~

接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么?

爬虫工具浏览器入门数据

0 人点赞