文章目录
- 一、数据的来源
- 1. 企业产生的用户数据
- 2. 数据平台购买数据:
- 3. 政府、机构公开的数据:
- 4. 数据管理咨询公司:埃森哲,麦肯锡
- 5. 爬虫爬取
- 二、爬虫所需要的库:
- 1. urllib 标准库,无需安装,直接 import 使用
- 2. requests 库,需要安装
- 3. selenium 库,需要安装
- 4. phantomJS ,官网下载
- 5. re #正则,标准库,不需要安装
- 6. BeautifulSoup,html/xml 解析库,需要安装
- 7. pyquery(可选)解析库,语法与 JQuery 类似
- 8. pymysql,MySQL 数据库驱动,需要安装
一、数据的来源
1. 企业产生的用户数据
https://tbi.tencent.com/ 腾讯指数 http://index.baidu.com/#/ 百度指数
2. 数据平台购买数据:
数据堂:http://www.datatang.com/index.html 国云数据市场: http://www.moojnn.com/data-market/
3. 政府、机构公开的数据:
国家统计局数据: http://www.moojnn.com/data-market/ 世界银行公开数据: https://data.worldbank.org.cn/
4. 数据管理咨询公司:埃森哲,麦肯锡
5. 爬虫爬取
二、爬虫所需要的库:
1. urllib 标准库,无需安装,直接 import 使用
2. requests 库,需要安装
代码语言:javascript复制pip install requests
3. selenium 库,需要安装
代码语言:javascript复制pip install selenium
a) selenium 想要驱动 chrome 的话,需要专门的 chromedriver,下载地址: http://npm.taobao.org/mirrors/chromedriver/ b) 需要注意的是,chromedriver 的版本必须要与自 己机器上的 chrome 版本相对应才可以 c) 将下载的驱动加压缩后(一个 exe 文件)放到 python 的安装目录下(比如 scripts 中),或者 新建一个文件夹专门存放这个 exe,但是要把这 个新建文件夹的路径添加到 path 中。 d) 如果要驱动其他浏览器,比如 IE 或者 Firefox, 也需要去下载对应的驱动
4. phantomJS ,官网下载
http://phantomjs.org/download.html
5. re #正则,标准库,不需要安装
6. BeautifulSoup,html/xml 解析库,需要安装
代码语言:javascript复制pip install beatifulsoup4
7. pyquery(可选)解析库,语法与 JQuery 类似
代码语言:javascript复制pip install pyquery
8. pymysql,MySQL 数据库驱动,需要安装
代码语言:javascript复制pip install pymysql