背景
最近小编出于工作需要,准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告。通过相关的条件检索,发现其相关数据有近百条。由于Wind金融数据终端目前并不支持批量下载公司公告(只能逐个点击链接后下载pdf格式的公告)。因此,如果手动点击鼠标逐条下载公告的话,花费几个小时是非常耗时的,特别是如果检索的公告有上千条的话,那小编是绝对会拒绝点击鼠标的。
解决方案
小编在这里将介绍利用Python网络爬虫这一利器,来解决Wind数据库中批量下载公告的问题。
批量下载的思路是:Wind金融数据库仅仅提供以Excel/CSV格式保存的url链接(见下图,数据),因此本文将通过解析url链接去获取上市企业的公告文本(pdf格式)。
少说多做,show me the code,全部码源如下:
代码语言:javascript复制# 导入所需的第三方模块
import requests
from bs4 import BeautifulSoup
import os
import pandas as pd
# 读取链接
urls = pd.read_excel(r'test123.xls').url123
# 构造用户代理,防止反爬虫
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'}
# 创建目录
stockCode = "00"
path = stockCode
isExists = os.path.exists(stockCode)
if not isExists:
os.makedirs(path)
print(path ' 创建成功')
else:
# 如果目录存在则不创建,并提示目录已存在
print(path ' 目录已存在')
# 循环每一个链接
for url in urls:
content = requests.get(url, headers = headers).text
soup = BeautifulSoup(content, 'html.parser')
# 返回文件地址和名称
fileUrl = "http://snap.windin.com/ns/" soup.find(name = 'a', attrs = {'class':'big'})['href']
fileName = soup.find(name = 'a', attrs = {'class':'big'})['title']
file = requests.get(fileUrl, headers = headers) # 下载文件
# 保存文件
with open( stockCode "/" fileName, "wb") as baogao:
baogao.write(file.content)
baogao.close()
提示
在大批量的下载过程中,很可能会出现部分pdf下载为空的情况。此时,循环语句将会中断,因此可以对该条链接手动下载后,将其在excel表格中的链接删除。在此基础上,重新运行代码,程序将继续执行批量下载剩余的公告pdf。(亲测批量下载900个pdf也就大约需要不到8分钟时间,这绝对节约了生命)。
致谢
感谢赵博士能够在百忙之中抽空写文并投稿至我公众号,并将他在工作中碰到的难题,以及解决方案分享给大家。