美国“存储Twitter”,中国也要给博文“建档”

2019-05-07 11:09:12 浏览数 (1)

4月19日,“国家图书馆互联网信息战略保存项目”在北京启动。

这个项目的名字有些让人费解,国家图书馆与互联网信息怎么会联系在一起,还要战略保存呢?这要从图书馆的变迁说起。

图书馆存储公共数字资源

查一下国家图书馆的百度百科就能知道所以然。

国家图书馆是世界最大、最先进的国家图书馆之一,也是亚洲最大图书馆。互联网时代,随着信息创造、传播和存储的数字化,国家图书馆与时俱进,1995年就按照数字化、网络化建设的思路,制定了《国家图书馆网络建设发展规划(1997-2000)》。2001年11月,国家图书馆二期工程暨国家数字图书馆工程正式立项。截至2017年12月,馆藏数字资源总量达1323.35TB,包括电子图书、期刊、报纸、特藏专藏和视听文献。

换言之,图书馆早已不是人们印象中的一个存满纸质图书的物理空间,而是一个以各种载体储存人类创作信息的地方,图书馆的本质就是信息存储空间。在软件工程里面,library也有“信息库”的意思,它包含构建应用所需的一切,如源代码、资源文件等等。我大学读的是软件工程,一个室友留校在图书馆工作,当初以为他放弃了本业,现在看来,我误会他了,图书馆数字化的大趋势下,计算机、信息化、数字化都变得越来越重要。

互联网公司有海量信息存储在自己的数据库,就像人人家里都有藏书一样,但在社会中扮演书籍收藏和公共文化服务的则是图书馆,这样再来看“国家图书馆互联网信息战略保存项目”就更容易理解。

按照官方说法:

“国家图书馆互联网信息战略保存项目”是一个旨在“建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,通过与国内重点数字文化生产和保存机构的合作,推动互联网信息的社会化保存与服务,构建国家互联网信息资源战略保障体系。”

翻译一下,就是国家图书馆启动一个项目,希望可以采集和存储有价值的中文互联网信息,再将这些信息用于社会,比如政策决策和学术研究等非商业用途。

用国家图书馆官方公布的话术来说就是:

“互联网信息成为人类文明和社会记忆的新载体,客观反映着一定时期内政治、经济、文化和社会等方面的变迁。易逝性和不可再生性,使互联网信息的采集和保存尤为迫切,而随着移动互联网和物联网的普及,互联网信息的规模爆炸式增长,调动社会力量参与也成为互联网信息采集和保存的趋势。”

现已成为阿里副总裁的涂子沛在《大数据》一书也曾分享,美国政府运转的底层基础其实就是数据,“社会计算是大数据时代最大的亮点。”这本书拿到了国家图书馆文津图书奖,想必对国家图书馆管理层也有所启发。

国家图书馆从2003年开始尝试对互联网资源进行采集和保存,2009年成立互联网信息保存保护中心,对国内外政治、经济、文化、科技等领域重要网站和重大专题资源进行采集保存,截至2018年,全国各级公共图书馆累计采集网站23000余个。“推进数字资源建设与保存工作”是国家图书馆“十三五”规划的重要工作之一。在这样的整体规划下,国家图书馆启动了互联网信息战略保存项目。

首家互联网信息战略保存基地同日在新浪挂牌,由国家图书馆与新浪共建。国家图书馆相关负责人透露:

“在中国境内开展互联网业务、并在相关领域处于领先地位的企业机构,均可申请成为互联网信息战略保存基地共建主体。共建主体需确保其提供的信息数据完整、有效、安全,并拥有合法所有权、知识产权或已获得相应授权。”

换言之,大多数互联网公司都可加入这一项目,这是国家图书馆牵头的一次社会化数据共享、存储和应用实验。

美国国会图书馆存储Twitter

美国图书馆行业一直走在世界前列,一方面,图书馆历史久、数量多、规格高,比如每个大城市都有历史古老且富丽堂皇的公共图书馆,很多城市图书馆已成为旅游者打卡地。另一方面,受益于发达的IT产业,图书馆拥抱数字化技术较为积极。

美国国会图书馆是美国四个官方国家图书馆之一,是美国历史最悠久的联邦文化机构,已经成为世界上最大的知识宝库。2010年,它就与Twitter达成一项合作协议,后者向前者提供所有公开的推文,已被删除和屏蔽的除外,其认为,Twitter上简短的信息可以将“国家故事”中微小、但却非常重要的部分反映出来。

美国国会图书馆与Twitter的“Twitter保存项目”通过总部位于科罗拉多州博尔德市的社交媒体聚合网站Gnip落地,Gnip发现要做好这件看似简单的“信息存储”的事并不容易。

首先,数据高速膨胀。项目启动三年后,2013年Gnip终于实现了对1700亿条推文的存储,当时已需要每天存储用户创造的4亿条内容,这对存储空间的消耗十分惊人。移动互联网时代,随着越来越多人使用Twitter,每天产生的内容高速膨胀,而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题。

其次,数据峰值问题。Gnip直言,这一项目真正的挑战来自高峰时期对tweets 的收集,比如2011年3月日本海啸期等事件的爆发,当时,每秒钟产生的tweet信息数量有好几千。

再次,数据利用问题。碎片化的数据多且杂,要利用它们就需要大数据挖掘等技术。美国国会图书馆的想法是,先把数据存下来再说,怎么用来不及考虑,甚至连归类都来不及做,到现在,这些数据也仅仅是存储下来而已。

最后,数据开放问题。既然是公共图书馆,最大价值就是对全社会开放,数字内容也不例外。在美国国会图书馆启动“Twitter保存项目”后,全世界研究人员都很感兴趣,他们很快收到来自世界各地研究人员的约400个查询请求,查询的主题涉及文化、政治、医疗、经济等诸多方面,然而数据量太大,技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。

美国国会图书馆在2013年公布的白皮书中写到:

“让研究人员获得这些数据的技术水平要明显落后于这些数据的产生和传播的技术水平。现在技术不足,而开发这些技术的成本非常高。”

当时,美国政府开始推行财政紧缩政策,国会图书馆经费紧张,此前其在数据收集上已花费一大笔资金,没有更多资金投入到数据的挖掘、利用和开放上。2018年,这一项目再次遇到困难,Twitter信息爆炸式增长,服务器不堪重负,美国国会图书馆表示将不再收集Twitter上所有公开推文,而是保存他们认为重要的(比如特朗普的?),到现在为止,这一项目也仅限于数据存储,依然未能实现对数据的挖掘、利用和开放,当然我们不用怀疑这样做的价值:数据就是资产,未来终可挖掘。

不只是美国,澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略,相对而言,中国“国家图书馆互联网信息战略保存项目”虽然来得较晚,却有望基于当下更加成熟的技术和更加独特的模式,实现互联网信息存储、利用和开放的多赢。

国家图书馆凭什么存储整个互联网?

或许是看到了美国国会图书馆与Twitter合作遇到的困难,“国家图书馆互联网信息战略保存项目”采取了截然不同的模式。

与美国国会图书馆将Twitter内容存储到合作方的服务器不同,“国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制,国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求,互联网公司负责内容存储,这样可以避免数据的重复存储。

将所有互联网数据进行二次存储本身就不现实。互联网内容十分多元,比如首家参与到这一项目的微博,覆盖的数据类型比Twitter更多样,不只是有短文字,还有短视频、图片和文章等大杂烩内容,财报显示,2018年12月微博月活已达4.62亿,12月日均活跃用户数突破2亿关口,微博上的存量内容,截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动,每天博文增量超过1亿,数据量巨大。如此海量数据,再转存到单独服务器即不可能,亦无必要。

正是基于社会化存储的模式,“国家图书馆互联网信息战略保存项目”不像美国国会图书馆只与Twitter一样“点对点”合作,而是“点对多”合作。国家图书馆牵头,任何符合条件的互联网公司都可申请加入其中。随着移动互联网的普及,互联网正时时刻刻对真实世界进行映射,不仅是微博的博文,快手记录真实世界的短视频、知乎的帖子,都是宝贵的社会信息资源,都可以成为“国家图书馆互联网信息战略保存项目”保存的目标。

尤为重要的是,“国家图书馆互联网信息战略保存项目”不只是单纯地保存数据,而是“保存、利用和开放”三管旗下,国家图书馆擅长的是学术和公信力,而不是技术,因此具体的应用依然是国图提需求,互联网公司负责信息处理。

比如在与新浪的合作中,互联网数据分析报告、政府公开信息分析报告、社会群体的公益性信息服务,都有可能成为这些信息的用途。今天,AI技术特别是自然语言处理技术比前几年已经成熟很多,拥有信息流、搜索等业务的微博和新浪在自然语言处理技术上也有深厚积累,这意味着,它们有能力对平台上的海量互联网内容进行挖掘,满足公共社会的非商业公益查询需求。

从“国家图书馆互联网信息战略保存项目”的设计来看,应该是看到美国国会图书馆与Twitter的合作模式的弊端后,进行的全新机制设计。虽然这一项目没有形式上的“保存”,但事实上却实现了互联网公开信息的“归档”,同时可以实现利用和开放。

跟美国国会图书馆看中Twitter“小却重要”内容能反映社会进程的逻辑一样,国家图书馆首先与微博合作也是看中其UGC社会化属性。微博上每个用户以不同形式从个体视角记录生活、探索世界和讨论话题,形成了海量信息,这部分信息和其他互联网平台的信息是差异化的,而在国家图书馆此前对互联网信息的采集和保护中,这类信息也不是重点,是从结构上丰富了国家图书馆的馆藏信息,所以具有更大的价值。

不仅如此,最近几年已经发生过很多因为公众在微博上的参与而引起关注、最后推动事件获得解决的案例,比如2017年网友举报有人驾驶越野车追赶藏羚羊的案件、2018年的“疫苗造假事件”等。可以说,微博不但是能全面反映社会发展进程的互联网平台,而且用户在微博上发布的内容,本身就是社会发展进程的一部分。这种独特的价值是其他平台无法取代的。

如果“国家图书馆互联网信息战略保存项目”项目能够成功,对于很多已经和即将开展互联网信息保存的国家来说,应该会成为又一个“中国式样本”。

0 人点赞