新智元报道
来源:arXiv
编辑:LRS
【新智元导读】存在中立的媒体吗?MIT 最近研究了100家顶级媒体,超三百万篇新闻发现,各个媒体都存在左右倾向,不同倾向的媒体在用词上存在很大的差别,有时为了吸引流量,还会引发读者大战!
同一句话换种方式表达,可能就表达了说话人的倾向。
我们平时接触最多的就是各类媒体的新闻报道,他们向读者或观众传输他们的想法,而各个媒体都有他们自己的立场,根据他们自己的偏见,从而对同一件事的报道可能有不同的措辞,从而对观众的想法产生影响。
最近麻省理工学院的一项研究也许能够帮你还原媒体的真实面目!
研究人员使用机器学习技术,通过对美国及其他地区大约100家最大和最有影响力的新闻媒体的偏见用语的识别,能够自动化地对媒体内容进行分析。这项研究工作可以自动对出版物的政治特征进行分类,并让读者更深入地了解媒体在他们可能热衷的话题上的道德和政治立场。
https://arxiv.org/pdf/2109.00024.pdf
这项工作主要研究在处理某个特定主体情况下,各个媒体使用的措辞方式有何不同,例如媒体使用的词是无证移民(undocumented immigrant)还是非法移民(illegal immigrant),胎儿(fetus)还是未出生的婴儿(unborn baby),示威者(demonstrators)还是无政府主义者(anarchists)。
研究人员使用自然语言处理(NLP)技术,从大约100个新闻媒体的超过300万篇文章中抽取这些带有偏见的charged语言词,并分类为左倾和右倾的偏见(中性的术语也代表政治立场)。
文章的作者是MIT 物理系的学生 Samantha D'Alonzo 和 Max Tegmark,他们观察到太多了「fake news」,并且看到了一些所谓帮助检查事实(fact checking)的媒体实际上也是受到利益驱动,提供一种虚伪的揭穿谎言的服务后,就萌生了一种寻找中立新闻的想法,旨在提供一种数据驱动的方法来研究偏见,和偏见如何影响语言的使用。
例如虽然一些词是表达相同意思,但在新闻中使用,不同措辞可以表达作者的左右倾向。
该研究的源数据来自开源的Newspaper3K数据库,包括来自100个媒体新闻来源(包括83家报纸媒体)的3,078,624篇文章。报纸的选择是根据其影响范围选择的,基本都是影响力最大的报纸,而在线媒体来源还包括来自军事新闻分析网站Defense One和Science的文章。
下载的文本经过「最低限度」的预处理,因为该研究只对记者选择的语言感兴趣,所以文章内的直接引用都被删除掉了,尽管引用选择也能代表作者的一定选择倾向。
预处理还包括英式拼写改为美式拼写,用来对数据中的词进行标准化,删除所有标点符号,除序数外的所有拼写也删除。句子开头的第一个字母从大写转换为小写,但句子中其他所有大写字母保留不变。
找到出现频率最高的100,000个最常见的短语,然后进行排序、清除后合并到短语列表中。如果短语中存在冗余(例如share the article和article republished),基本相同的短语(如big tech和Big Tech、cybersecurity和cyber security)之间的变化被标准化之后也同样被删掉。
研究人员首先测试了有关Black Lives Matter (BLM) 相关的新闻,BLM始于2013年,意为「黑人的命也是命」,是一场国际维权运动,起源于非裔美国人社区,抗议针对黑人的暴力和系统性歧视。BLM 抗议通常在发生警察击杀黑人事件后,同时这项运动也反对如种族归纳、暴力执法和美国刑事司法系统中的种族不平等等更为广泛的问题。
对同一新闻的各个出版社的道德立场也不同,所以在用词上也大有不同。社会对于BLM运动的反应各不相同,不同种族的美国民众对于运动的看法迥异,后来又逐渐发展为All Lives Matter, Blue Lives Matter。
各个媒体对参与参与BLM民事行动(civil action)的人从字面上和比喻上从左到右被描述为示威者demonstrators、无政府主义者anarchists,而在最右端则被称为暴徒rioters。
随着媒体政治立场的不同,描述抗议者protestors从无政府主义者anarchists转变为暴徒rioters,但该论文指出,NLP的提取和分析立场受到一些媒体胡乱用词(nutpicking)的干扰,也就是媒体会为了取悦、区分自己的观众,而特意使用一些非中立的、极端的词来切割受众,并且很显然会激发读者的负面情绪。
例如在BLM 活动中有一个标语是「撤销警察资助」(defund the police),明眼人一下就能看出来这个标语是多么有意义,但又多么傻,并可能带来更多的危险,但如果你是一个自由主义者,又有什么理由拒绝这个标语?
这项研究还揭示了堕胎、技术审查、美国移民和枪支管制等热门话题的类似结论。
虽然不同媒体都存在不同政治倾向,但他们在某些方面也有可能看法相同,例如在军费开支的话题上,左倾媒体CNN和右倾媒体Nation Review和福克斯新闻表达了相同的看法。
一般来说,政治立场可以由其他短语决定,例如一个媒体如果更喜欢用军事工业综合体military-industrial complex而不是国防工业defense industy,那就一定程度上可以说明他是左倾的。
研究结果也表明,军事工业综合体经常被Canary和American Conservative等机构关键媒体使用,而后者更常被Fox和CNN使用。
该研究也承认,无论是在语言层面,还是出于各种其他动机,媒体有时会摆脱他们的基本政治立场。例如,成立于 1828 年的右翼英国出版物《旁观者》(The Spectator)经常突出地展示左翼思想作品,这些作品与其内容的一般政治立场背道而驰。
作者猜想这样做有可能是出于公正报道的感觉,也有可能是为了定期从其核心读者群体收割评论和流量,当然,这仅仅只是猜想。
不过该项目发布的数据目前只展示了单词短语的频率计数,但似乎是匿名的,因此很难清楚地了解所研究的出版物中的媒体偏见,这样只能根据论文中介绍的选定示例来看到各个媒体的实验结果。
而且他们只考虑了媒体对某个主题的措辞,但还需要考虑该主题是否被提及,那么这种性质的后期研究可能会更有用,因为「沉默说明了一切」,如果媒体对这件事没有发声,本身就具有了明显的政治特征,而不仅仅只是预算限制或其他可能影响新闻选择的因素。
尽管如此,MIT的研究似乎还是迄今为止同类研究中规模最大的一项,并且可以形成未来分类系统的框架,甚至可以形成诸如浏览器插件之类的技术,这些技术可能会提醒普通读者注意他们目前正在阅读的出版物的政治色彩。
此外,还必须考虑这样的系统是否会进一步加剧算法推荐系统最具争议的方面之一,即将观众引导到他们从未看到过的、具有颠覆性观点的环境中的趋势,并进一步缩减读者在核心问题上的立场。
这样的内容泡沫是否是安全环境、智力增长的障碍,或对部分宣传的保护,或是一种价值判断,这是一个哲学问题,从机器学习系统的机械、统计角度很难解决。
此外,尽管MIT的研究煞费苦心地让数据来定义结果,但对短语的政治价值的分类不可避免地也是一种价值判断,并且没有能力处理新创造出来的短语。
如果这种系统真的被纳入了审查系统,那么主流媒体和人工智能之间注定有一场大战,作者会不断想出新的短语来绕过识别,尽管Bert模型在特定任务的效果超越了人类,但人对语言、语义的理解还不是机器能够匹敌的。
参考资料:
https://arxiv.org/pdf/2109.00024.pdf