本文全面解析了新闻抓取的个中门道,包括新闻抓取的好处和用例,以及如何使用Python创建新闻报道抓取工具。
什么是新闻抓取?
新闻抓取其实也属于网页抓取,只不过主要针对的是公共新闻网站。它指的是自动从新闻报道和网站中提取最新资讯和发布的内容,同时也涉及从搜索引擎结果页(SERP)的新闻结果标签或专门的新闻聚合平台中提取公共新闻数据。
相较而言,网页抓取或网页数据提取是指从任何网站自动检索数据。
从商业角度来看,新闻网站包含大量的重要公共数据,例如对新发布产品的评论、对公司财务业绩的报道和其他重要公告等等。这些网站还涵盖多个主题和行业,包括技术、金融、时尚、科学、健康、政治等。
新闻抓取的好处
● 识别和缓解风险
● 提供最新、可靠、经过验证的信息来源
● 帮助改善运营
● 帮助提高合规性
✔ 识别和缓解风险
麦肯锡近期发布的一篇文章讨论了风险和适应力,其中提议使用数字技术整合多个来源的实时数据(包括天气预报),从而运行各种场景来得出最有效地解决问题的方案。这篇文章表明,将新闻抓取作为实时公共数据的来源,有助于公司识别和缓解未来可能遇到的风险。
抓取公共新闻网站可以让公司更准确、更快速地预测、预报和观察威胁。
✔ 提供最新、可靠、经过验证的信息来源
新闻网站主要是通过报道最新资讯来保持可信度。他们通常有事实核查部门和资料库,可据此核实新闻报道的某些方面。就此而言,公共新闻抓取就是公司获得最新、准确和可靠信息的途径。
✔ 帮助改善运营
任何公司都不是在“真空”中运营的,而是很容易受到外部因素的影响。因此,公共新闻网站抓取是一个重要手段,可以确保公司紧跟最新趋势,从而以趋利避害的策略改善运营情况。
✔ 帮助提高合规性
新闻网站涵盖的主题非常广泛,其中就包括已通过或待颁布的法规。此外,在某些情况下,新闻报道的作者甚至会讨论这些法律对整个行业的潜在影响,并采访专家进行深入剖析。
因此,公司通过抓取公共新闻报道并收集有关拟议法规或新颁法规的新闻,可以对这些法规的潜在影响做好更周全的准备,从而提高合规性。
新闻抓取的用例
新闻抓取提供了就若干问题和主题获取实时动态的途径,可以通过以下方式使用:
● 声誉检测
● 获取竞争情报
● 发现行业趋势
● 发掘新想法
● 改进内容策略
✔声誉监测
根据万博宣伟2020年的一项研究,声誉良好的公司在以下方面更有优势:客户忠诚度、竞争优势、与合作伙伴和供应商的关系、对高素质人才的吸引力、员工保留率、新市场机会、股票价格等等。更具体地说,公司市值的76%取决于公司声誉。
媒体报道可能是正面的,也可能是负面的。虽然有“只要是宣传都是好事”的说法,但负面宣传毕竟很容易损害人们对公司的看法,对公司声誉非常不利,由此可能导致公司市值大跌。此外,87%的公司认为,对于公司声誉最重要的就是客户的看法,所以关键在于将问题扼杀在摇篮里。线上声誉管理和评论监测被视为每个公司运营的关键流程。
新闻抓取使公司能够监测每一篇新发布的公共新闻报道,并由此监测公司声誉。
✔ 获取竞争情报
竞争可以说是商界的代名词。因此,收集亟需的竞争情报的途径就显得尤为重要。
关于产品发布、品牌重塑举措、并购、财务业绩等主题,可能存在很多新闻报道。如果能对涵盖此类业务导向主题的新闻网站进行抓取,就能获得关于竞争对手的深刻见解。这无异于一条获得竞争情报的捷径。
✔发现行业趋势
可能影响公司运营的重要因素和事件有很多,因此企业必须建立一套机制,以便监测趋势和新问题。
对此,公共新闻报道是一个极好的切入点,因为其中包含的信息凸显出了特定行业的发展方向。以总结市场研究报告的新闻报道为例,其中就深入剖析了行业现状以及可能在整个预测期内促进增长的因素。通过对包含此类信息的所有公共新闻报道进行网页抓取,公司可以发现新的行业趋势,进而提高竞争力。
此外,公司还可以对包含关于竞争对手的新闻数据的报道进行网页抓取,这样很容易确定运营方面的相似性,也就自然指明了行业趋势。
✔发掘新想法
新闻网站会发布颇具见解的报道,其中包含行业专家的意见,或是由相应领域的知名人士撰写。对于公司来说,可以从这些报道中汲取有关新机会的灵感,也可以获得关于如何利用这些机会的启发。这样的报道对于公司的思路拓展大有帮助。
抓取公共新闻网站提供了一种可靠的方式来自动获取这些重要资源,并由此发掘出新想法。
✔ 改进内容策略
新闻网站并不局限于传统媒体,还包括新闻专线网站和公共关系(PR)网站,这些网站会发布新闻稿,并定期提供客户公司的报道。
这样一来,公司可以深入了解如何利用新闻抓取来改善沟通和内容策略。简而言之,这个过程凸显了最佳的行业实践,以及能让公司的公关脱颖而出的举措。
如何抓取新闻数据?
就公共新闻抓取而言,Python提供的入门方法堪称最简单的之一,尤其是考虑到它是一种面向对象语言。抓取公共新闻数据基本分为两个步骤——下载网页和解析HTML。
最受欢迎的网页下载库之一是Requests。该库可以在Windows系统上使用 pip 命令进行安装。而在Mac和Linux系统上,建议使用 pip3 命令,以确保使用的是Python3。为此,应打开终端并运行以下命令:
代码语言:javascript复制pip3 install requests
新建一个Python文件并输入以下代码:
代码语言:javascript复制import requests
response=requests.get(https://quotes.toscrape.com')
print(response.status_code)
运行这段代码将输出HTTP状态代码。如果网页下载成功,状态代码将是200。要访问网页的HTML,请访问 response 对象的 text 属性。
代码语言:javascript复制print(response.text) # Prints the entire HTML of the webpage.
由response.text 返回的HTML是一个字符串。它需要被解析成一个Python对象,该对象可以针对特定数据进行查询。支持Python的解析库有很多。本例使用的是lxml和Beautiful Soup库。Beautiful Soup用作解析器的一个封装器,这样可以提高从HTML中提取数据的效率。
要安装这些库,请使用 pip 命令。应打开终端并运行以下命令:
代码语言:javascript复制pip3 install lxml beautifulsoup4
在代码文件中,导入Beautiful Soup并创建一个对象,如下所示:
代码语言:javascript复制from bs4 import BeautifulSoup
response=requests.get('https://quotes.toscrape.com')
soup = BeautifulSoup(response.text, 'lxml')
在本例中,我们处理的是一个带引语的网站。如果你要处理的是任何其他网站,这个方法仍然有效。唯一的变数在于如何定位元素。要定位某个HTML元素,可以使用 find() 方法。此方法读取 tag 名称并返回第一个匹配项。
代码语言:javascript复制title = soup.find('title')
此tag内的文本可以用 get_text() 方法提取。
代码语言:javascript复制print(title.get_text()) # Prints page title.
要进一步微调,也可以使用class、id等其他属性。
代码语言:javascript复制soup.find('small',itemprop="author")
请注意,要使用 class 属性,应该使用 class_,因为 class 是Python中的保留关键字。
代码语言:javascript复制soup.find('small',class_="author")
类似地,要获取多个元素,可以使用 find_all() 方法。如果将这些引语视为新闻标题,只需使用以下语句即可获取标题中的所有元素:
代码语言:javascript复制headlines = soup.find_all(itemprop="text")
请注意,对象 headlines 是一个标签列表。要从这些标签中提取文本,可使用下面的 for 循环:
代码语言:javascript复制for headline in headlines:
print(headline.get_text())
值得一提的是,抓取公共新闻数据并不是很难。但在收集大量公共数据时,可能会面临IP屏蔽或验证码等问题。国际新闻网站也会根据面向的不同国家/地区提供不同的内容。在这种情况下,应考虑使用住宅代理或数据中心代理。
抓取新闻网站是否合法?
要获取大量最新公共新闻报道和监测多个新闻网站,网页抓取是最省时的方法之一。而事实上,很多网站都会设置反抓取措施来阻止网页抓取,但随着新闻报道抓取工具的日益成熟,要绕过这些措施也变得更加容易。
然而,即便新闻抓取(或广义上的网页抓取)能带来无可比拟的便利,也不能否认,这种做法确实存在一些法律问题。那么,抓取新闻网站是否合法?或者说,网页抓取是否合法?
正如Oxylabs的法务团队所说,这要视情况而定。网页抓取本身并不违法,但完全取决于这种做法背后的意图。只要对新闻网站进行网页抓取不违反任何法律,也不侵犯任何知识产权,那么对你打算抓取的数据或源目标来说,就应该视为一种合法活动。因此,在从事任何抓取活动之前,请根据你的具体情况寻求适当的专业法律意见。
总结
新闻抓取为公司提供了一条方便快捷的途径,可用来提取有关竞争对手、天气、经济环境等领域的实时、可靠和准确的数据。
要创建新闻报道抓取工具,理想的编程语言是Python,因为它不仅抓取便捷,还有其他许多好处(例如丰富的库等)。而且只要使用得当且目的正当,新闻抓取就是合法合规的,公司可以安心享受这种合理做法带来的好处,同时利用它来监测公司声誉、收集竞争情报、发掘新想法等等。