政府真的能听见人民的声音吗?一直以来,民众对政策、经济的批评似乎也只在社群好友圈里发酵,要将愤怒传进政府的高墙是件不容易的事。但是,现在你在社群网站上的抱怨发言,也许会被听见,甚至影响政府决策。
2009年开始,联合国启动全球脉动计划(UN Global Pulse),目标在利用大数据来协助人类发展以及预测行为,在美国纽约、印尼雅加达以及非洲坎帕拉等三地设立了专门实验室,利用新闻媒体、社群媒体、小众社群所搜集来的大数据,进行实时的分析,帮助当地政府了解民众需求以及社会发展状况。实际参与全球脉动计划,在美国、爱尔兰及印尼等地分析工作的SAS北亚区信息管理及分析产品经理Jason Loh解释,例如用社群媒体、新闻网站以及论坛的数据找出影响失业率的关键因子,供当地政府参考。“联合国全球脉动计划就是要利用大数据分析达成数位治国的目标。”他说。联合国藉着各国政府所提供的数据以及数据分析公司,来进行重要公共议题的民意监控,达到实时且反映真实的结果。
举例来说,Jason Loh进一步解释,联合国搜集了美国及爱尔兰地区民众在新闻媒体与社群上的讨论,从讨论主题中找出了三个,可以用来预测失业略的关键前导指标(Leading indicators):人们开始将大车换小车、消费能力降低以及搭乘大众运输工具的比例增加,就可以预测到几个月内失业率提升。
失业率提升后,就会出现落后型的指标(Lagging indicators),象是失屋率的讨论度提升、减少医疗保健的支出以及减少出游渡假,意即奢侈消费减少的讨论声浪,这都是失业人口大增后才会浮现的讨论主题。
一般政府传统的决策分析作法,多半是进行事后统计结果,往往是发现失业率已经确定上升了,才开始分析和决策。“这种作法的速度太慢,无法真正解决问题。”Jason Loh表示,第一时间直接监测社群媒体,当前导指标的讨论度提升时,就代表着失业率的提升。“将这些从社群媒体上听到的声音,提供给政府,就可以提前采取对策。”
失业率上升前,社群媒体上关于换车、购物降低以及搭大众运输工具的讨论都会提升。失业率上升后,则是会出现失屋率、医疗保健支出的减少以及取消度假等言论。 图片来源:SAS
除此之外,也因为每个国家国情不同、经济富裕状况不一,分析的结果也不尽相同。例如,爱尔兰在失业率提升后8个月,失屋率的讨论度才上升,美国则是2个月后就出现失屋率的讨论了。
不过,每个国家用来辅助施政的指标也很不一样,美国跟爱尔兰地区重视失业率分析,而印尼政府则担心贫穷人家没钱去买日常用品、医疗用品。因此,当数据显现出印尼人民无法维系基本的生活水平时,政府就应该制定一些项目给贫穷家庭。所以,Jason在印尼进行社群分析时,“主要是看:辣椒、米价、油价这三大重点KPI。”
社群媒体语意分析大挑战:各地方言
分析全球各地的社群媒体内容,最大挑战就是得理解自然语言的使用方式,以及各地的方言。“以中文为例,中国大陆、中国台湾、新加坡等地虽然都讲中文,但所用的中文截然不同。”全球第二多人使用的西班牙语,也会因区域而不同的使用习性。因此,“这类跨国性的社群分析行动,得结合当地文化情境和所用语言,大型企业要锁定全球规模市场时也需如此,能精确支援各国家和地区的语言是非常重要的关键。”
Jason解释,SAS在进行社群的语意分析时,第一步就先用当地的大型语料库进行扫描,透过机器来进行断词断句,将一句话自动分类。要支援中国台湾的正体中文语系,不只是将简体版翻成繁体就好,还要有一个大型的语料库做为参照基础,所以,SAS也跟中国台湾中研院合作,结合了中国台湾中研院的平衡语料库。
此外,各个领域都有不同的专业术语,医疗、法律、科技等各类专有名词,此时就需要一个产业数据库 (Business Domain Knowledge),进行专有名词的扫描。
为了达到更加精准的分析语意,Jason表示,光靠机器判读绝对不可能,“因为没有绝对的机器判读跟不变的规则模型,混合的方式才会最接近真正的语意结果。”机器判读后,一定要在佐以人工修改与确认模型 (Pattern)。当新的语意出现,就要人工进行辨识,调整,然后再交给机器继续进行大量的分析工作,“通常人工是进行确认的工作。”Jason说,机器与人工两者结合,才是对多元内容分析的最佳方式。