王树义
读完需要
14
分钟
速读仅需5分钟
用第一性原理,破解科研数据获取难题。
1
标注
自从开始了解机器学习以后,想必你已经发现,数据分析领域,标注(annotation)是很重要的。
请你再次回顾一下这张图。
我多次外出讲座时,这张图总能让与会者感到眼前一亮。
图片的原作者是华盛顿大学的 Pedro Domingos 教授。但是因为许多著名的机器学习课程争相引用,因此现在这张图已经传遍全网。
注意这里的机器学习,实际上是特指“监督式”(supervised)。关于非监督式机器学习,你可以参考《如何用Python从海量文本抽取主题?》一文的介绍。
这幅图里面,下方的“Output”实际上是指标记的(annotated)输出结果(labels)。监督式机器学习,实际上就是要以输入数据和标记,来自动构造程序,从而可以被用来处理更多的新数据。
所以你看,机器模型能够学到规律,靠的就是标注。
咱们介绍过的计算机视觉分类,便需要有人来标注物体名称。例如猫还是狗,哆啦A梦还是瓦力。
再比如 IMDB 影片评论数据,也需要先搞清楚究竟是正向情感,还是负向情感。
当然,上面这个 IMDB 评论可以看做是特例。回顾你在豆瓣或者淘宝打分的经验。是不是要写一条评论的同时,还得提交一个分数?
你的评论,就是文本输入。
你的打分,就是标记(Annotation)。
对,你已经帮助系统做了标注。平台就不需要再找人单独做标注了。
但是,大部分的数据标注,可没有那么简易。
你可能需要面对无标注的原始输入,一一手工做出标记。
这种工作一般很枯燥,但是并不太复杂。
例如猫狗识别,或者给车辆勾勒边缘(用于物体识别,object detection)之类的简单标记工作,都已经被外包到了低工资水平地区。
因为这种标记要求的是常识,并不需要特殊的专业知识背景。
许多研究者为了节省资金,甚至会选择众包方式。
最典型的,是亚马逊 Mechanical Turk 。
因为工资水平太低,还专门有学者撰写论文,探讨这种标注是否合乎伦理。
2
问题
然而,有些标注数据,即便可以获得,价格也不菲。
例如说,在文献分析领域,引用目的标注,就被公认是一种昂贵的数据。
每一篇论文,都会有或多或少的参考文献。
研究者们很感兴趣的一个问题是,作者为什么引用了某一篇文献?
引用某些论文,为的是作为工作基础加以扩展;
有的引用,是为了佐证观点;
有的,却是为了作为靶子驳斥。
关于被当做靶子的论文,最著名的是薛兆丰教授津津乐道的科斯(Ronald Harry Coase)那一篇,叫做“The Problem of Social Cost”。
科斯关于产权的新观点一经提出,就因为离经叛道被许多人骂。
这其中,不乏主流经济学家。
新晋的学者阅读文献,总能在许多大师经典的文末“参考文献”,看到科斯的这篇文献。
于是他们都会感兴趣,找来阅读一看究竟。
看过之后,大多数人都觉得科斯的观点令人无法接受,自然也是撰文大加鞭挞。
可问题是,新写出来的文章末尾,还是要把科斯的这篇论文当做引文。
这篇文章,读过的人越来越多,科斯的名气也就越来越大。
文章影响力大了,就会逐渐出现支持的声音,虽然很微弱。
而主流共识发生了迁移后,科斯一下子就成了挑战学术界的孤胆英雄,直到获得诺贝尔奖这样的荣誉。
咱们先不要考虑这个例子中双方学术观点的对错,只观察一个有趣的现象——许多人之所以会阅读到科斯的文章,其实是没有搞清楚他人引用科斯文章的目的。
科学共同体的评价,有点儿像大众点评。一般来说,一个人人打低分的餐馆,会门可罗雀,直到关门大吉的。
科斯这一篇,越被贬低越红,其实是研究史上的特例。
也许你不会觉得这是特例,因为你听过不少类似的例子。
但是想想看,只有这样的例子,才有戏剧性,会被记录了下来,并且广为宣传。
我们更常观察到的现象,其实是:一个观点被许多人当成谬误,最后也被证实为谬误。
例如永动机。
因此,正确区分引用目的,其实在绝大多数情况下都是有价值的。
要辨别引用目的,也需要找人做标注。
以往人们的做法,是高薪雇佣学术界的专业人员,逐条分析文献,以及回顾阅读引用位置附近的上下文,最终来确定文献引用目的。
回忆一下你自己阅读学术论文的速度,这种工作的效率便可想而知。
标注工作做了几年,也就是完成了百十来篇文献的分析,包含几千条引文的目的标注。成本已经高到令人咂舌了。
这显然不是个好办法。
3
创新
Joint Conference on Digital Libraries (JCDL) 2019 大会上,我结识了一位青年学者。他提供了另外的一种解决途径。
我们是在大会第一天的 Tutorial 环节认识的。当时的主题是提升研究的可重复性(Reproducibility),我们都是听众。
我在讨论环节分享了自己授课过程中使用 Google Colab 的经验,他听了觉得很有价值,会后专门跑过来找我聊。
我开始还以为他是个博士生。后来看他跟几位大咖交流带博士生的经验,才知道以貌取人真是错的离谱。
言归正传。他只用了不到一个月的时间,就收集到了与他人几年工作结果等量的引用目的标注数据。标注质量非常高,而且几乎没有花钱。
他就是 Petr Knoth ,英国开放大学(Open University)的研究员。 JCDL 2019 “Vannevar Bush 最佳论文奖”得主。
顺便提一下,Vannevar Bush 就是撰写图情领域经典文献《诚如所思》(As We May Think)那位。
下面我们来说说 Petr 的标注数据获取方法。
4
追问
这是一个典型的“跳出思维约束”的故事。
他追问了几个问题:
第一个问题是:为什么标注成本高?
答案是,必须要雇佣专业人员。他们受过严格的训练,才有能力在读论文的时候,正确识别引用目的。试想你让一个学古典文学的人,去标注化学文献,光是那些术语,就能让他不知所措。
第二个问题是:我们真的就只能付费找这些专业人员吗?
初看起来,结果当然是没错。
不过,人们似乎忽略了另外一群专业人士,甚至在这个话题上更有发言权的人——论文的作者们。
文献是谁引用的?
作者啊。
我们传统智慧里,有一句“解铃还须系铃人”,没错吧?
既然文献是他引用的,那该如何标记引用目的,他想必更清楚。而且作者亲自做这个工作,效率一定会更高。
第三个问题是:为什么别人不去找作者们标注?
人们想当然认为,作者们都是富有研究经验的学者,因此时间更加宝贵。不太可能回应这种需求。
他们要是收费的话,会比目前的标注人员更高。标注需求一方的科研经费更加无法支撑。
这个假设,看似正确。但有一个重要的默认假设,即标注是一件非常麻烦的事情。
没人愿意做非常麻烦的事儿,特别是免费地做。
于是,Petr 提出了最重要的一个追问——标注是不是一定要如此麻烦呢?
他和研究团队一直在致力于推动文献开放和提升科学学(Science of Science)研究数据的可得性。他们的项目叫做 CORE 。
截止本文撰写的时候,他们的系统已经采集了 135,539,113 篇论文的全文信息。你甚至可以直接利用他们提供的 API 进行文本挖掘。
在这个过程中,他们经常和 pdf 文件打交道,觉得在网页和正文之间跳转非常的繁琐。于是他们找到了一种第三方开源工具,可以方便地提取 pdf 的内容,直接以网页格式来显示,以便和他们的 Web 系统紧密整合。
Petr 于是就想,如果我可以让作者在网页上方便地一站式看到上下文、文献记录和引用目的选项,那这项标注工作的繁琐程度是不是就大大减低了呢?
5
尝试
他和团队里的一个小伙子用了不到2个星期的时间,把这个简单的系统开发了出来。
有了这个系统之后,他们随机选择了数千篇论文,自动抓取了第一作者的联系邮箱,然后把请求和对应论文标注页面的链接发送了过去。
信发出后,他们发现,近年发表论文的作者,更愿意回应他们的请求,并且更快速提交结果。
这很好理解,至少因为记忆犹新,作者的标注成本更低嘛。
短短两周时间,他们就获得了数百份回复,积累了5000多条引用目的标注数据。
他们几乎一分钱都没花。
更有意思的是,有的作者不但快速完成标注,之后还给他们写信表示感谢。
来信里,作者们纷纷表示这个标注过程,让他们重新梳理了引用的逻辑和思路。相当于快速地给研究的脉络做了个备忘,对未来新项目的开展大有好处。
这,就是一种典型的共赢(win-win)吧?
不仅如此。这一套方法,相对于传统的雇佣专业人员标记,还具有显著的可扩展性(Scalability)。
从前多标记一条引文,就需要多花一份成本。
而现在,只要扩大文献选择范围,系统就可以自动向更多作者发送标注请求。
边际成本,几乎是零。
6
反思
Poster 展示环节,Petr 就着他的展板,给我介绍了整个儿流程。讲解的时候手舞足蹈,幽默风趣。
我听完,真有醍醐灌顶之感。
我们大多数时候,都生活在一个平凡的世界里,喜欢套用约定俗成的观念,来理解和认识它。
因为这样,比较省脑力。
但是科研过程不一样。它不应该是萧规曹随的。
许多约定俗成的假设和共识,用隐含的方式根植于我们思维模型的底层。但它们却未必正确。
这就需要我们不断反复追问,并且调用第一性原理来重新梳理假设的关系链条。
大胆假设,小心求证,才是科研的正途。
希望你也能早日做出这样既有用又有趣的研究。