学界 | 清华大学自然语言处理与社会人文计算研究中心成立!

2019-07-05 15:47:49 浏览数 (1)

这是清华大学人工智能研究院建立的第八个研究中心。

AI 科技评论按:2019 年 7 月 1 日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心成立仪式暨学术报告与开元成功发布会在清华大学 FIT 楼举行。这是继知识智能研究中心、听觉智能研究中心、基础理论研究中心、智能机器人研究中心、智能人机交互研究中心、智能信息获取研究中心、视觉智能研究中心之后成立的第八个研究中心。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院院长助理朱军教授主持了成立仪式。

尤政院士与张钹院士为中心揭牌

尤政院士与张钹院士致辞

尤政院士在致辞中指出,自然语言处理一直以来都是计算机科学领域的一个重要方向,也被称为「人工智能皇冠上的明珠」,是人工智能技术当下和未来发展的战略制高点。而清华大学作为国内最早开展自然语言处理的单位之一,经过四十年的不懈努力,已经发展成国内外自然语言处理研究的一方重镇。因此,中心的成立对于推动清华大学人工智能的深入发展具有十分重要的意义。

将自然语言处理与社会科学及人文科学相结合,具有大跨度学科交叉的性质。这既是人工智能研究本身的积极拓展,也是对传统学科在人工智能时代的守正出新。希望中心能够凝聚清华自然语言处理研究力量,加强与人文社科学科的交叉合作,开展具有世界水平的自然语言处理基础理论研究和关键技术创新,服务于清华与国家的人工智能发展战略。

尤政院士致辞

张钹院士代表清华大学人工智能研究院致辞。他指出语言是人类智能的重要标志,机器自然语言理解是人工智能的终极目标。清华大学在自然语言处理方面有着深厚的研究积淀,1978 年成立人工智能与智能控制教研组时,自然语言处理就是其中的重要研究方向之一,在黄昌宁教授领导下迅速发展成为国内领军的研究单位。

新成立的中心将致力于实现自然语言处理与人文社科的深度融合,不仅仅是将人工智能技术融入人文社科领域,更需要从语言、社会学、人文学等人文社科的多个角度来反观人类智能的本质,这是研究院人工智能基础研究的重要组成部分。希望中心再接再厉,在自然语言处理与社会学、人文学的交叉研究上形成特色,引领我国自然语言处理和社会人文计算研究领域的发展。

张钹院士致辞

致辞结束后,尤政院士与张钹院士共同为自然语言处理与社会人文计算研究中心揭牌,并向清华大学人工智能研究院常务副院长孙茂松教授颁发了中心主任聘书。研究中心同时聘请了中国中文信息学会原理事长、中国工程院院士倪光南,滑铁卢大学讲座教授、加拿大皇家科学院院士李明,微软亚洲研究院副院长、国际计算语言学会会长周明,英国帝国理工学院数据科学研究所所长、英国皇家工程院院士郭毅可为学术顾问。

孙茂松教授被聘为中心主任

自然语言处理与社会人文计算研究中心

语言是人类区别于其他动物的根本标志,没有语言,人类的思维也就无从谈起。自然语言处理旨在让计算机掌握理解与处理人类语言的能力,体现了人工智能的最高任务与境界,只有当计算机具有处理语言的能力时,机器才可能通过图灵测试。

自然语言处理与社会人文计算研究中心将紧密围绕人类语言所体现的人类智能本质,重点研究鲁棒、可解释的自然语言处理方法与技术,深入探索语言理解与生成技术在社会人文计算领域的应用,努力建设以中文为核心、覆盖多种语言、从词法到篇章的全流程自然语言处理技术框架与计算平台,力争产出以智能创作、智能语言学习、智能教育、智能司法为代表的、具有国际学术影响力、重大民生意义的社会人文计算研究成果。

中心的前身是清华大学计算机系自然语言处理课题组,早在上个世纪七十年代末就在黄昌宁教授的带领下从事自然语言处理研究工作,是国内开展相关研究最早、深具影响力的科研单位,同时也是中国中文信息学会(全国一级学会)计算语言学专业委员会的挂靠单位,孙茂松教授现任该专业委员会的主任。

中心成立仪式合影

主要研究方向

  • 面向多粒度语言单元的统一语义表示框架;
  • 从词法到篇章的全流程自然语言处理技术体系;
  • 数据与知识融合的多语言机器翻译技术;
  • 知识指导的自然语言深度理解与智能推理技术;
  • 跨模态自然语言学习与处理结束
  • 以自然语言处理为主要支撑手段的社会人文计算,包括智能创作、智能语言学习、智能教育、智能司法、智能传播、智能音乐等。

代表性成果

1.THUMT—数据驱动的机器翻译(已开源)

刘洋副教授向我们介绍了该开源成果 THUMT——它是一个是一个基于深度学习的机器翻译系统。该系统使用了数据驱动的机器翻译技术,具备良好的语言无关性,在具备训练数据的条件下可以迅速为新语种部署系统。支持汉语、英语、日语、俄语、西班牙语、葡萄牙语、德语、法语、阿拉伯语、维吾尔语等关键语言的机器翻译系统,应用于外交部、新疆公检法等政府重要部门和搜狗、百度、捷通华声等互联网企业,在大规模多语言信息深度分析处理和高效服务方面做出贡献,相关产品广泛应用于互联网、金融、能源、电信、交通等行业领域。

本次开源成果公布了在 TensorFlow 平台上开发的新版本,采用了主流的 Transformer 模型,集成了目前最新的神经机器翻译技术,具有训练速度快(支持多机多卡并行)、显存占用低(支持单精度浮点数计算)、翻译性能高(与国际机器翻译开源软件相比位居前列)、易于可视化分析(支持层级相关反馈算法)等优点。此外还开放了 70 万句对的句级对齐汉英平行语料库和 4 万句对的词级对齐汉英平行语料库。

项目网址:thumt.thunlp.org

在线翻译系统网址:translate.thumt.cn

刘洋副教授介绍开源成果 THUMT

2.THUAIPoet—基于深度学习的中文诗歌自动生成系统(已开源)

矣晓沅博士生(清华大学特等奖金获得者,获「中国网事,感动 2018」第三季度网络感动人物)介绍了开源成果 THUAIPoet。

THUAIPoet(九歌)是一个基于深度学习神经网络技术的中文诗歌自动生成系统,支持集句诗、绝句、藏头诗、词等不同体裁诗歌的在线生成。曾参加过中央电视台 CCTV-1《机智过人》节目,与人类诗人同台竞技,取得了几乎可与人媲美的效果。

此次成果发布开源了系统中的无监督风格诗歌生成模型 StylisticPoetry 源码(相关论文发表于 EMNLP 2018),能够在无标注数据集上进行任意数量的风格解耦控制。此外还发布两个人工标注的诗歌数据集(诗歌质量数据集和诗歌情绪数据集),以及国内外诗歌生成相关的主要论文列表。

GitHub 网址:github.com/thunlp-aipoet

九歌 APP 网址:jiuge.thunlp.cn

矣晓沅博士生介绍开源成果 THUAIPoet

3.THUPM—知识指导的自然语言预训练模型(已开源)

2018 年起,以 BERT 为代表的模型,能够利用大规模无标注文本学习预训练模型,在自然语言处理各重要任务上均取得显著性能提升,引起学术界和产业界的广泛关注。实际上,文本中往往包含丰富的人类知识,如实体间复杂关系等。已有预训练模型无法考虑知识图谱中的结构化知识。中心团队认为,结构化知识可以指导预训练模型,提升模型对文本中低频实体的理解能力。因此,提出一种融合知识图谱实体表示和相应预测任务的预训练模型(ERNIE),阐述该模型的论文已经被 ACL 2019 录用。

会上刘知远副教授对开源成果 OpenCLaP 作了介绍。OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是一个多领域中文预训练模型仓库。通过在多领域大规模中文文本的预训练,这些预训练模型可以在下游任务上进行微调以提高任务性能。

本次开源成果公布了基于法律文本和百度百科千万级文档的预训练模型,支持最大 512 长度的文本输入适配多种任务需求。未来还将持续加入更多更强的预训练模型,如增加更多训练语料,引入大规模知识,使用全词覆盖策略等。

GitHub 网址:github.com/thunlp/OpenCLaP

项目网址:zoo.thunlp.org

刘知远副教授介绍开源成果 OpenCLaP

4. 融合大规模知识的中文语义表示学习方法

为了实现面向现实空间、网络空间和认知空间中的互联网海量文本、语言知识和世界知识等多源异质信息的深度理解与计算,在孙茂松教授担任首席科学家的国家重点基础研究计划项目支持下,中心团队提出融合大规模知识的中文语义表示学习方法体系,在融合语言知识的语言单元表示学习和世界知识表示学习方面提出多种高效算法。

在自然语言处理重要国际期刊和会议发表 40 余篇论文,被 MIT、CMU、 Google、 Facebook 等研究机构列为代表方法,获得引用超过 4000 次, 相关开源算法获得近 2 万星标关注。

5. 大规模结构化知识的自动获取技术

为了从海量自由文本中自动抽取结构化知识,支撑复杂场景下的自然语言处理的知识需求,中心团队面向实体关系抽取等关键知识获取任务,开展了深入技术研究和数据集合构建。创造性地提出了句子级别选择注意力机制、对抗训练机制等技术方案,有效缓解了远程监督训练数据的噪音问题,并能够更好地利用跨语言训练数据。

团队还面向多种挑战场景构建大规模标注数据集合,例如面向少次学习的 FewRel 数据集,面向文档级关系抽取的 DocRED 数据集等。相关研究成果在自然语言处理重要国际期刊和会议发表 10 余篇论文,被 MIT、CMU、UCB 等研究机构列为代表方法。

6. 基于自然语言处理技术的法律智能

法律智能旨在利用人工智能技术辅助法律行业,提升司法行政事业各环节的智能化水平,缓解案多人少矛盾,避免同案不同判现象,是我国推进全面依法治国战略布局的关键支撑技术。

中心研究团队深入研究智慧司法任务,提出了全面的技术规范流程,提出的要素式多任务判决预测、要素判决预测、神经网络信息抽取等技术,为法律智能提供了更加高效鲁棒的解决方案;构建大规模数据集用于训练构建机器学习模型,组织了国内首个法律智能挑战赛,吸引国内外超过 600 支队伍参加,刑期预测任务准确率从最初的 30% 提升至 78%,极大推动了我国法律智能研究与应用的发展;团队与法学院合作开展「计算法学」硕士项目,并于 2018 年首次招生, 受到社会各界广泛关注。

前沿学术报告会

  • 李明:第二代对话机器人

李明院士做了题为《第二代对话机器人》的特邀报告。

报告指出缺乏理解能力、缺乏学习能力、被动地「人云亦云」是第一代聊天机器人的主要缺陷,其原因在于目前的深度学习技术还不具备理解和使用人类语言所必需的概念抽象和逻辑推理能力。他认为实现理解和学习是第二代聊天机器人的主要目标,机器人只有通过自动学习和社会参与才能获得不断地成长,从而具备更强的运用人类语言的能力。

李明院士做特邀报告

  • 周明:关于神经网络自然语言处理的思考

周明博士做了题为《关于神经网络自然语言处理的思考》的特邀报告。

报告对基于神经网络的自然语言处理的研究进展进行了系统地回顾与总结,指出自然语言处理目前面临着深度学习计算成本高昂、大规模标注数据稀缺、难以实现真正的理解与推理等关键挑战。他认为未来应当从计算能力、数据资源、模型算法、系统应用、人才培养、交叉合作等六个方面进一步推动自然语言处理的发展。

周明博士做特邀报告

0 人点赞