作者:特伦斯 · 谢诺夫斯基,世界十大 AI 科学家之一,美国四大国家学院(国家科学院、国家医学院、国家工程院、国家艺术与科学学院)在世仅 3 位的“四院院士”之一,AI 会议 NIPS 基金会主席。
不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。
如今看来,这句话要改写了。
计算机不仅能和大多数成年人一样识别图片中的物体,在马路上驾驶汽车的安全性还高过 16 岁的青少年。
更神奇的是,如今的计算机不再是被动按照指令识别和驾驶,而是像自然界的生命由数百万年前开始进化那样,自主地从经验中学习。
是数据的井喷促成了这一技术进步。如果说数据是新时代的石油,那么学习算法就是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演变为智慧。
深度学习是机器学习的一个分支,它根植于数学、计算机科学和神经科学。深度网络从数据中学习,就像婴儿了解周围世界那样,从睁开眼睛开始,慢慢获得驾驭新环境所需的技能。
深度学习的起源可以追溯到 20 世纪 50 年代人工智能的诞生。关于如何构建人工智能,当时存在两种不同的观点:
一种观点主张基于逻辑和计算机程序,曾主宰人工智能的研究和应用数十年;
另一种观点则主张直接从数据中学习,经历了更长时间的摸索才逐渐成熟。
如今,计算机能力日趋强大,数据资源也变得庞大且丰富,使用学习算法解决问题比以前更快、更准确,也更高效。
此外,同样的学习算法还能用来解决许多不同的难题,这远比为每个问题编写不同的程序更加节省人力。
01
汽车新生态:无人驾驶将全面走入人们生活
在 2005 年美国国防部高级研究计划局(以下简称 DARPA)举办的自动驾驶挑战赛中,一辆由斯坦福大学塞巴斯蒂安 · 特隆(Sebastian Thrun)实验室开发的自动驾驶汽车 Stanley 最终赢得了 200 万美元现金大奖。团队利用了机器学习技术教它如何自主地在加利福尼亚州的沙漠中穿行。
132 英里的赛道中有若干狭窄的隧道和急转弯,还包括啤酒瓶道(Beer Bottle Pass),这是一段蜿蜒曲折的山路,两侧分别是碎石遍布的陡坡和断壁。
特隆并没有遵循传统的 AI 方法,即通过编写计算机程序来应付各种偶发事件,而是在沙漠中驾驶 Stanley,让汽车根据视觉和距离传感器的感应输入,学习如何像人一样驾驶。
上图为啤酒瓶道,图中远处的一辆卡车正要爬坡。图片来源:DARPA。
特隆后来参与创立了高科技项目重点实验室 Google X,并开始了进一步研究自动驾驶汽车技术的计划。
谷歌的自动驾驶汽车自此开始,在旧金山湾区累积了 350 万英里的车程。优步(Uber)已经在匹兹堡投放了一批自动驾驶汽车。
苹果也步入自动驾驶领域,以扩大其操作系统控制的产品范围,并希望能够再现它在手机市场上的辉煌。
2017 年,英特尔以 153 亿美元的价格收购了 Mobileye,它是一家专门为自动驾驶汽车研发传感器和计算机视觉的公司。在价值数万亿美元的交通运输领域,参与的各方都下了极高的赌注。
虽然目前自动驾驶汽车仍面临很多监管和法律层面的障碍,但这一技术一旦开始普及,我们就将迎来一个崭新的世界。
02
两个圣杯:自然语言翻译与语音识别
深度学习快速改变格局的一个例子是它对语言翻译的影响。语言翻译是人工智能的一只圣杯,因为它依赖于理解句子的能力。
谷歌最近推出了基于深度学习的最新版谷歌翻译(Google Translate),代表了自然语言翻译质量的重大飞跃。几乎一夜之间,语言翻译就从零散杂乱的拼凑短语,升级到了语意完整的句子。
人工智能的另一只圣杯是语音识别。不久之前,计算机的独立语音识别应用领域还很有限,如机票预订。而如今,限制已不复存在。
2012 年,一名来自多伦多大学的实习生在微软研究院(Microsoft Research)的一个夏季研究项目中,让微软的语音识别系统性能得到了显著的提升。
2016 年,微软的一个团队宣布,他们开发的一个拥有 120 层的深度学习网络已经在多人语音识别基准测试中达到了与人类相当的水平。
图为微软首席研究官里克 · 拉希德(Rick Rashid)在 2012 年 10 月 25 日于中国天津举行的一场活动中,使用深度学习进行了自动语音识别的现场演示。
03
AI 医疗:医学诊断将更加准确
深入皮肤
随着机器学习的成熟并被应用于可获取大数据的许多其他问题,服务行业和其相关职业也将发生转变。基于数百万患者病情记录的医学诊断将变得更加准确。
最近的一项研究将深度学习运用到了囊括超过 2000 种不同疾病的 13 万张皮肤病学图像中,这个医学数据库是以前的 10 倍大。
该研究的网络被训练用于诊断“测试集”(testset,它从未见过的新图像集)中的各种疾病。它在新图像上的诊断表现与 21 位皮肤科专家的结论基本一致,甚至在某些情况下还要更准确。
深入癌症
如果专家在转移性乳腺癌的淋巴结活检切片图像上判断错误,就有可能导致致命的后果。这是一种深度学习擅长的模式识别问题。
实际上,一个经过大量结论清晰的切片数据训练出来的深度学习网络能达到 0.925 的准确度,还不错,但还不及人类专家在同一测试集上达到的 0.966。
然而,把深度学习与人类专家的预测结合起来,准确度达到了 0.995,几近完美。
04
金融科技:利用数据和算法获取最佳回报
纽约证券交易所超过 75% 的交易都是自动完成的,高频交易能在几分之一秒内进出仓位。如果你不用为每笔交易支付费用,那么即使是很小的优势也能带来巨额利润。
更长时间范围内的算法交易会考虑到基于大数据的长期趋势。深度学习在赚钱和提高利润方面做得越来越好。
预测金融市场,问题在于数据嘈杂,条件不稳定—— 一场选举或国际冲突可能会导致投资者心态在一夜之间发生变化。这意味着用来预测今天股票价值的算法可能到明天就不准了。
图为延迟 vs 头寸持有时间。在线机器学习正在推动算法交易,它比传统的长期投资策略更快速,比股票市场中的高频交易更加慎重。许多不同类型的机器学习算法被组合运用以获得最佳回。
早在 20 世纪 80 年代,我还在为摩根士丹利的股票交易神经网络模型提供咨询时,遇到了专门设计并行计算机的计算机科学家大卫 · 肖(David Shaw)。
哥伦比亚大学学术休假期间,肖曾在自动化交易早期担任量化分析师,随后他在华尔街创立了自己的投资管理公司德劭集团(The D. E. Shaw Group),现在他已经是亿万富翁了。
德劭集团非常成功,但仍然逊于另一家对冲基金文艺复兴科技公司(Renaissance Technologies)。这家基金是由杰出的数学家、纽约州立大学石溪分校数学系前主任詹姆斯 · 西蒙斯(James Simons)创立的。仅 2016 年,西蒙斯就挣了 16 亿美元,这还算不上他最好的一年。
更广泛的金融服务正在金融科技(fintech)的大背景下发生大规模转型。诸如区块链这样的信息技术—— 一种安全的互联网记账方式,取代了金融交易的中间商——正在接受小规模的测试,但它很快就会扰乱价值数万亿美元的金融市场。
机器学习正在被用于改进贷款信用评估,准确地提供业务和财务信息,在社交媒体上获取预测市场趋势的信号,并为金融交易提供生物识别安全服务。谁拥有最多的数据,谁就是赢家,而世界上充斥着财务数据。
05
德州扑克:当机器智能学会了虚张声势
一对一无限注德州扑克是最受欢迎的扑克玩法之一,常见于赌场,无限注投注方式则通常出现在世界扑克系列赛(World Series of Poker)的主赛事中。
扑克很有挑战性,因为与国际象棋玩家可以获得相同的信息不同,扑克玩家的信息不完整,而且在最高级别的比赛中,诈唬、欺骗的技巧和拿到的牌一样重要。
数学家约翰 · 冯 · 诺依曼(John von Neumann)创立了数学博弈理论,也是数字计算机之父,他就对扑克特别着迷。
他说过:“现实生活包括虚张声势,一点欺骗手段,以及自问另一个人会怎么评判我做事的意图。这就是我理论中博弈的内涵。”
扑克是一种博弈,反映了经过进化精炼过的人类智能的一部分。一个名为“DeepStack”的深度学习网络和 33 名职业扑克选手进行了 44852 场比赛。
令扑克专家震惊的是,它以相当大的优势,一个标准差,击败了最出色的扑克玩家,同时以四个标准差在整体上击败了全部 33 名玩家——多么巨大的差距。
如果这一成就能复制到其他基于不完全信息、需要人来做判断的重要领域,比如政治学和国际关系,其影响可能是极其深远的。
图为一对一无限注德州扑克,强势手牌。DeepStack 已经掌握了如何在高筹码扑克中虚张声势,以大比分优势击败职业扑克玩家。
06
弗林效应:深度学习让人类更加智能
在围棋上大胜人类的 AlphaGo 有智力吗?除了“意识”这个主题,关于智力的文章比心理学中任何其他主题都要多得多,这两个概念都很难界定。
自 20 世纪 30 年代以来,心理学家就对流体智力和晶体智力进行了区分——流体智力能够将新条件中的推理和模式识别用于解决新问题,而不依赖于以前的知识;
晶体智力则依赖于先前的知识,也是标准智商测试(即 IQ 测试)的对象。流体智力遵循一种抛物线式发展轨迹,在成年早期达到高峰,并随着年龄的增长逐渐下降;
而晶体智力会随年龄的增长,缓慢渐进式地提高,直至暮年。AlphaGo 只在一个相当狭窄的领域同时展现出了晶体智力和流体智力,但在这个领域,它表现出了令人惊讶的创造力。
专业知识的获取也是基于在狭窄领域的学习。我们都是语言领域的专家,每天都在使用语言。
AlphaGo 使用的强化学习算法可以被用来解决许多问题。这种形式的学习只取决于在一系列动作结束时给予获胜者的奖励,这似乎和提前做出更好的决策相矛盾。
结合了许多强大的深度学习网络,就会生成许多领域相关的智能。而且事实上,已经出现了与领域相关的不同类型智能,例如社会、情感、机械和建筑等的案例。
智力测试测量的一般因素(general factor,简称 g 因素)与这些不同类型相关。我们有理由认真审视 IQ 测试。自 20 世纪 30 年代首次测试智力以来,全人类平均的 IQ 分数每 10 年会上升三个点,这一趋势被称为“弗林效应”(Flynn effect)。
环境会影响基因调控,从而影响大脑内在的连接,行为也会随之发生变化。随着人类越来越多地生活在人造环境中,大脑正在以某种超越自然进化轨道的方式被塑造。
在更长的时间内,人类是否能一直都在变得更聪明?智商增长会持续多久?
用电脑玩国际象棋、西洋双陆棋和围棋的人数自计算机程序达到冠军级别后一直在稳步增加,而机器也强化了人类玩家的智能。
深度学习提升的将不仅仅是科学研究人员的智能,还包括所有行业从业人员的智能。
07
回到未来:当人类智能遇到人工智能
有两个相互交织的主题:人类智能是如何进化的,以及人工智能会如何演变。
这两种智能之间的巨大差异在于,人类智能的进化经历了数百万年的时间,而人工智能在最近几十年才发展起来。
尽管对于文化演变来说,这个速度仍然是快得出奇,但是过于谨小慎微可能并不是个正确的选择。
深度学习在近期取得的突破,并不是你从新闻报道中读到的那种一夜成功。
从基于符号、逻辑和规则的人工智能向基于大数据和学习算法的深度学习网络的转变,其背后的故事通常并不为人所熟知。