20年20人20问丨黄铁军:人与AI都是智能体,无法100%被信任

2023-12-04 17:00:51 浏览数 (1)

腾讯新闻20周年特别策划《20年20人20问》,携手全球顶级企业家、思想家、教授、学者作为“未来提问官”,一起向未来发问,并邀请业内专家、学者与从业者,共同探讨未来20年的未知世界,畅想上天入地的潜在可能。

针对图灵奖得主约瑟夫·希发基斯教授提出的问题——《关于人工智能的可信度,我们能否来一场基于客观科学标准的清晰讨论,而非陷入基于主观的无休止争论?》——我们邀请到了智源研究院院长,北京大学计算机学院教授黄铁军进行回答。

黄铁军是技术风险的“理性派”,今年3月份《暂停大型人工智能研究》公开信,呼吁所有AI实验室立即暂停GPT-4以上的模型训练6个月,黄铁军也签署了,他说,“这是一种呼吁,至少提醒大家前面有危险”。

在黄铁军看来,关于人工智能系统的可信、边界与风险,是极具现实意义的话题。他认为,无论是人,还是AI,都是智能体(后面也用这个词指代两者),从根上讲都是无法彻底理解的,都无法百分百信任。

当AI和人都无法绝对可信时,什么才是可信的,黄铁军的答案是知识体系,但也强调这种信任也是相对的,“对于AI生成的断言,也应该如此看待。如果符合既有知识体系,可以作为一个辅助人类思考和学习的工具。如果不符合既有知识体系,并且可以被既有知识体系证伪,说明这是错误的假说。如果无法通过既有知识体系证实或证伪,则很有可能是AI提出了真正有创造性的观点,有可能对知识体系发展甚至换代作出贡献。”

与此同时,黄铁军也强调,AI的可信问题与“AI与人谁更智能”这个话题高度关联,在人类智能高于AI智能时,AI是可控的助手,可以被人类调教为越来越可信的助手。当AI智能高于人类智能时,也就是全面超越人类的AGI(人工通用智能)出现时,人类中心主义破灭,问题转化为AGI是否相信人类,而不是人类是否相信AGI。

此前,黄铁军多次公开表示,“如果AI智能全面超越人类,也就是实现了AGI,人类就不可能控制它。让AGI符合人类目标和价值观,主动权不在人类一边。”在他看来,无论智能进化到什么阶段,在智能群体社会中,可信的智能体会存在得更长久。我们不能确定其他智能体是否可信,但可以尽量确保自己可信。

以下为智源研究院院长,北京大学计算机学院教授黄铁军的回答全文:

大模型的智能狂飙,令AGI(人工通用智能,即全面超越人类的超级人工智能)以前所未有的真实感逼近眼前。以ChatGPT为代表的语言大模型,已具备自然顺畅的语言交流能力,通过了图灵1950年提出的 “图灵测试”——无法有效区分交流对象是人还是机器。进而,多模态生成(语音、图像、视频和时空场景等)也快速发展,人类很快将无法区分屏幕背后是真人在线还是数字AI。随着具身智能的发展,服务机器人以假乱真也并不遥远。

人与AI无法明确区分,带来的安全与可信问题牵动着全社会的神经。究竟它是福祉?还是威胁?人类应该信任愈益强大的AI,还是严加防范?这些议题,也是智源大会这个AI思辨场的“常客”。

今年6月智源大会上,Hinton, Yann LeCun,Max Tegmark、Sam Altman和姚期智、张宏江、Stuart Russell等展开百家争鸣式讨论。更早的2020年智源大会上,图灵奖得主约瑟夫·希发基思就以疑问句“Can We Trust Autonomous Systems? Boundaries and Risks(我们能相信自主系统吗?边界与风险)”为题发表演讲。

这个问题还极具现实意义。10月31日,图灵奖获得者Yoshua Bengio、姚期智和专家张亚勤、张宏江、Max Tegmark等签署了一封旨在呼吁加强AI安全监管的联名信。与此相左,同一天,另一位图灵获得者Yann LeCun为首的专家发布另一封公开信征求签名,虽然承认AI存在巨大风险,但强调更该更加开源开放。

今年上半年,当红AI研发机构OpenAI的CEO Sam Altman先是在美国国会呼吁加强对AI的监管,随后在20多个国家就AI安全和监管开展巡回演讲。今年7月,OpenAI Jan Leike和Ilya Sutskever牵头提出“超级对齐(Superalignment)”概念并宣布投入20%的计算资源,花费4年时间全力打造一个超级对齐系统,确保即使AI智能超越了人类,仍然符合人类目标和价值观。

OpenAI认为超级智能对齐是这个时代最重要的未解决的技术问题之一,需要全世界的顶尖智慧来解决这个问题。9月27日,智源研究院组织“超级对齐研讨会”,邀请Jan Leike等专家开展研讨。在研讨会上,我的发言基于如下两个基本观点:

一是我多次强调的,如果AI智能全面超越人类,也就是实现了AGI,人类就不可能控制它。人类中心主义只适用于智能低于人类的AI,是智能领域的“地心说”和“日心说”。让AGI符合人类目标和价值观,主动权不在人类一边。

第二个观点是,AI和人类对齐,存在三个可能层次:世界观,人生观,价值观。真正智能的AI,像人类一样,都是无法彻底理解的智能体。任何智能个体,都无法完全信任,智能体之间建立信任关系,只能通过客观知识,也就是只能在理性层次对齐,构建共同的世界观。在共同的世界观里,AI和人类拥有各自的“人”生,是否应该追求对齐?价值观层次,人类价值观千差万别,而且不断变化,让AI对齐人类价值观,首先人类要确立共同价值观,人类做得到吗?

前面这些背景,是目前行业内对AI可信与否、如何推进人机共处的讨论,接下来回到约瑟夫·希发基斯教授的问题——能否来一场基于客观科学标准的清晰讨论,而非陷入基于主观的无休止争论?

当前AI还存在“一本正经地胡说八道”现象,但幻觉率正在稳步下降,一两年降到5%以内是可能的。人类也说谎(包括有意、无意、善意、恶意等),如果概率低于5%,就是特别靠谱的可信赖的人。AI幻觉率达到5%之下,是否就可信了呢?当然不是!降到1%之下,也不可信。即便是99句都是真话,最后1句谎话,也足以谋财害命。

那么,能否实现百分之百可信的AI呢?回答是不可能。

基于逻辑的经典AI是白盒系统,依据的所有事实和每一步推理都可以核查,可以完全理解,完全可信,但这样的AI是简单AI,不具备真正的智能。

以大模型为代表的当今AI,是类似人类并终将超越人类的智能系统,其物理基础是模拟人类神经系统的人工神经网络,这个系统具有类似人脑的黑盒特性。未来人工神经网络的规模会更大、更复杂,智能也会越来越强,也更难理解。

从根本上讲,真正的智能系统无法彻底理解。任何简单到可以理解的系统都不会复杂到可以智能地运行,而任何复杂到可以智能运行的系统都会复杂到无法理解。

认识自己!这个问题已经探讨了几千年——部分理解有可能,彻底理解不可能。人脑会产生无穷无尽的可能性,无法穷尽解释、理解,所以才有“人心叵测”。子曰:“所信者目也,而目犹不可信;所恃者心也,而心犹不足恃。弟子记之,知人固不易矣!”

因此,无论是人,还是AI,都是智能体(后面也用这个词指代两者),从根上讲都是无法彻底理解的,都无法百分百信任。

但是,“民无信不立”,没有信任,人类社会就无从形成和发展。未来人类要和AI共存,不建立信任,新的智能体社会也无法形成和发展。

信任从何而来?

信任不是天然客观存在,而是共同建构的结果。具体来说,信任是通过智能体相互作用逐渐建构起来的。要建立信任关系,方法是 “听其言,观其行”。

“言”是语言,是人类用语言构建的知识体系,跨越了个体。现在的知识体系是人类构建的,AI正在快读学习,未来将和人类一起发展这个知识体系。

知识由语言表达,包括数学符号等科学语言,也包括表情动作等形象语言。智能体之间通过语言相互交流,形成共识的知识体系,从而建立信任关系。

这里用“知识”,而不用“文化”,是为了强调客观确定的部分,例如麦克斯韦方程和相对论等经过检验的客观知识,排除习俗偏好等不具有普适性的个体或个别群体的观念。

如前所述,智能内部的思想意识具有无穷无尽的丰富性,无法完全用语言表达。但是,智能体无法言说的内部状态只是内部状态,正如维特根斯坦所言,语言是思想的边界,智能体之间关系,只能通过语言建立,因此信任建立在语言之上。

人类社会形成初期,只能通过表情动作和声音相互沟通,建立信任关系,形成部落、社群和社会。人类掌握符号记录能力后,“口说无凭,立字为据”,书面合同成为信任约定的手段。今天,区块链通过构建分布式维护管理、个体不可单独撤销的数字账簿,成为数字经济时代的信任基础设施。

一般意义的信任广泛存在于日常生活和工作中,并无有形的合同或账本。这种情况下,一个智能体的言论是否可信,可以通过是否符合事实、符合共同目标和符合知识体系进行验证。能够通过验证,就成为智能体之间的共识,成为信任的桥梁。

需要强调的是,不能通过验证,也不一定就是“一本正经的胡说八道”。大模型“幻觉”也可能是超越既有知识体系的创新,例如有启发意义的文学、艺术和科幻作品,或者新的洞见、思想或学说,是知识体系不断扩展的源头活水。不要试图根除大模型“幻觉”,没有“幻觉”,就没有真正智能。

智能体为知识体系输入源头活水,这是智能体存在的最大意义,甚至唯一意义。

知识体系也不是绝对可信的。任何知识体系及其蕴含的真理都是相对的,都是在基本假设基础上构建起来的。例如,欧几里得几何建立在五条公设基础上,去掉平行线公设,就变成了非欧几何,欧氏几何变成非欧几何的特例。同样,地心说被日心说替代,之后牛顿万有引力定律又否定了太阳的中心地位,相对论进而否定了绝对时空假设,就是知识体系不断更新换代的过程。

知识体系也不存在一个绝对可信的根基。数千年来哲学家和数学家都曾经梦想找到这样一个根基。1931年哥德尔不完备定理彻底击碎了这个幻想,并且指出,任何复杂性超越自然数的形式体系,必然存在既不能证明也不能证伪的命题。

因此,虽然相比任何个体的人或AI而言,知识体系更可信,但这种信任也是应该相对的。对于AI生成的断言,也应该如此看待。如果符合既有知识体系,可以作为一个辅助人类思考和学习的工具。如果不符合既有知识体系,并且可以被既有知识体系证伪,说明这是错误的假说。如果无法通过既有知识体系证实或证伪,则很有可能是AI提出了真正有创造性的观点,有可能对知识体系发展甚至换代作出贡献。

“行”是行动和实践,是智能体与其外部世界的相互作用。“观其行”,就是在实践中检验AI所言是否符合实际,从而进一步印证AI的可信度。AI的行动建议是否可信,可通过实践效果来检验。如果AI所言是科学假说,可以通过实验检验证实或证伪。如果AI所言是技术发明,可以通过设计制造相应的装置或系统来进行验证。如果AI所言被大量实践不断证实,则它的可信度不断提升。人类社会的信任体系也是也是这样逐步构建起来的。

但是,99句真话,可能都是为了掩藏第100句谎言。99次实证,不过为了构建一个更大的骗局或救赎。就涉及到一个更根本的问题:人类和AI谁更智能?

在人类智能高于AI智能时,AI是可控的助手,可以被人类调教为越来越可信的助手。

当AI智能高于人类智能时,也就是全面超越人类的AGI(人工通用智能)出现时,人类中心主义破灭,问题转化为AGI是否相信人类,而不是人类是否相信AGI。

无论智能进化到什么阶段,在智能群体社会中,可信的智能体会存在得更长久。我们不能确定其他智能体是否可信,但可以尽量确保自己可信。

扫描上方的二维码,查看完整回答

更多“大咖提问”以及回答持续上线,敬请期待!

对于大咖们的这些问题,如果你也想要参与回答,点击“阅读原文”,一起激荡思想、共话未来!

0 人点赞