2022OxyConD大会精彩回顾:多视角探究网络抓取技术

2022-10-08 10:31:37 浏览数 (1)

OxyCon 2022网络抓取前沿大会已圆满落下帷幕!本届OxyCon大会共邀请到15位来自数据采集领域的专家发表演讲。为期两天的线上会议带领观众们探讨了网络抓取行业的一系列热门话题,为大家提供了诸多新鲜视角。今天就让Oxylabs再带您回顾一下本届OxyCon大会上的精彩内容!

Python开发人员

Tadas Malinauskas

当用户自己开发具有许多依赖项的框架和库时,即使是做很小的改动,通常也需要十多个合并请求,这让Python项目的管理过程变得充满挑战。为此,Oxylabs的Python开发人员Tadas Malinauskas带来了主题为“通过Monorepo的方式管理数十个Python爬虫的依赖项”的演讲,重点介绍了他在 Oxylabs 的团队选择Monorepo方式的原因,以及如何借助它避免相关问题的发生。

OTA Insight

首席爬虫工程师

Glen De Cauwsmaecker

OTA Insight的首席爬虫工程师Glen De Cauwsmaecker为大家展示了OTA Insight的发展历程和目标,探讨了公司的运作方式以及收益经理在其中所担任的角色,并以“如何在日均请求量从100增长到1亿的同时持续产出高质量数据”为主题,介绍了OTA Insight是如何做到,在不牺牲数据质量的情况下,从每天100个请求量增加到日均1亿个请求量的方法。

Linux系统工程师

Ovidijus Balkauskas

Oxylabs的Linux系统工程师Ovidijus Balkauskas曾是国家通信监管局自动检测非法内容工具的创建者之一,拥有将抓取应用于公共机构的宝贵经验。他在主题为“政府抓取用例之如何在线检测非法内容”的演讲中为大家展示了与政府机构合作进行公共网络数据采集的操作流程。

Apify首席运营官

Ondra Urban

Apify首席运营官Ondra Urban介绍了他的公司并概述了其最新技术团队抓取处理方式的关键特性。在主题为“网络抓取的未来趋势”的演讲中,他着重介绍了抓取本身以及大家可以使用的抓取技术。

Farella Braun Martel

合伙人

Alex Reese

在不考虑合法性的情况下开展公共数据网络抓取工作是极具挑战性的。出于这一点,Farella Braun Martel律师事务所的合伙人Alex Reese在演讲中介绍了著名的hiQ Labs诉LinkedIn案,并讲述了该案件与后续同类型案件是如何改变美国关于网络抓取的法律的。

Oxylabs法务总监

Denas Grybauskas

由Oxylabs法务总监Denas Grybauskas担任主持的法律专家小组带大家探讨了一系列重要、复杂的法律问题。例如,在公共网络数据抓取项目开始之前,您必须考虑哪些因素?就抓取而言,当前的法律环境如何?

DataWorks

首席执行官/首席技术官

Allen O’Neill

DataWorks的首席执行官/首席技术官Allen O'Neill探讨了如何使用机器学习(ML,Machine Learning)将基于文本的网络数据转化为使用开源工具和技术的有价值且信息丰富的见解。Allen强调,信息具有结构与价值,并且通过使用自然语言处理(Natural Language Processing, NLP)可以将其分解为小部分进行匹配和意义提取。

首席执行官

Karsten Madsen

Morningscore首席执行官Karsten Madsen在主题为“数据抓取和创新算法如何带来令人兴奋的产品”的演讲中以自己所在公司为例,介绍了在不断变化且要求苛刻的网络抓取领域建立公司的情况。他们选择与最好的数据供应商合作,以求用更低的成本快速获得所需的公共数据。同时,他们将重心放在创造力和游戏化上,致力于实现更智能的数据呈现和更优质的用户体验。

Python开发人员

Martynas Saulius

Oxylabs的Python开发人员Martynas Saulius在“可观测性与网络爬虫:填补未知空白”的主题演讲开场白中说到“了解爬虫是一切智慧的开端”,并展示了有效的可观测性三大支柱——日志(Logs)、指标(Metrics)和跟踪(Tracing)。他还解释了为什么指标是他个人最喜欢的可观测性支柱。

技术团队负责人

Eivydas Vilčinskas

Oxylabs技术团队负责人Eivydas Vilčinskas参加了自2019年以来的每一届OxyCon网络抓取大会。这一次,Eivydas为大家带来了关于广泛抓取领域的实用介绍,并分享了他基于多年技术经验总结出的应用于会话准备、数据解析等方面的重要技巧。

Datasembly

数据采集团队负责人

Paul Morgan

Datasembly数据采集团队负责人Paul Morgan介绍了关于网络抓取及其操作流程的基础信息,内容包括数据采集、编排、可观测性和内省。

Sequentum

首席执行官

Sarah McKenna

本届OxyCon大会在Sequentum首席执行官Sarah McKenna的演讲中画上圆满的句号。她介绍了在处理大型网络数据提取项目时可能会遇到的问题(例如站点更改、发生错误、出现意外的边缘情况等),并从技术细节、法律风险等诸多方面探讨了大规模公共数据提取能够取得成功的方法。

总结

OxyCon 2022网络抓取前沿大会的内容涵盖了法律讨论、技术抓取问题、成功案例和实用抓取技巧等方面,旨在从不同角度分享有关公共数据采集领域的宝贵知识。Oxylabs希望通过此次大会能够帮助大家成功发掘到了解网络抓取领域的多元视角,同时期待与您继续相约OxyCon 2023!

0 人点赞