作者 | 剑客阿良_ALiang(胡逸)
出品 | AI科技大本营(ID:rgznai100)
购买大型电器、汽车,你是否会询问有没有智能语音功能?是的,潜移默化中人们已经不再将人工智能当作魔术,而是习以为常的东西。从AlphaGo以四比一战胜棋王李世石,让人们第一次意识到人工智能真的可以超越人类,也让人们对AI的未来前景充满期待。
近年来,以深度学习为代表的人工智能技术高速蓬勃发展,新算法层出不穷,图像识别、自然语言、声音克隆等智能水平逼近甚至超过人类。同时人工智能技术的发展,也促进着人类对数据以及算力的不断突破。AI技术各类应用落地,渗透到我们生活的方方面面,已然成为我们不可缺少的一部分。
2021回顾
回顾跌宕起伏的 2021年,新冠疫情仍然肆虐着世界,看不到疫情结束的信号。疫情带来国际形势的突然变化,深刻地影响着全球半导体产业链及生态,同样对人工智能行业带来冲击。国际间的算力竞争异常激烈,如果算力不在一个维度上,竞争力自然就不在一个维度上。2021年我国因为芯片不足导致供应链断裂的事件此起彼伏,因此数字化、智能化转型被列为国家重点发展规划中,已成为大势所趋。
疫情虽然还没有结束,但丝毫不影响2021年人工智能领域汹涌澎湃的发展,振奋人心的消息频频传来。
商汤科技,成为国内「AI四小龙」中第一家IPO成功的上市公司;AphaFold2 成功预测 98% 蛋白质结构;无人驾驶领域,技术和算法层面的不断突破让 L4场景落地日益成熟,掌握自动倒车、抢道行驶等众多接近人类驾驶的行为。
2021年10月,中国科学技术大学潘建伟、陆朝阳、刘乃乐等组成的研究团队与中国科学院上海微系统与信息技术研究所、国家并行计算机工程技术研究中心合作,构建了113个光子144模式的量子计算原型机“九章二号”,完成对用于演示“量子计算优越性”的高斯玻色取样任务的快速求解,求解速度比目前全球最快的超级计算机快10的24次方倍(亿亿亿倍)。我们正处在人类技术爆炸时期,人工智能赛道相信也必将独占鳌头。
多模态
多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。将不同模态信息进行融合,学习不同模态信息之间的关联。2021年是OpenAI实现图像和文本匹配的CLIP和根据输入文本生成对应图像的Dall·E开启了多模式学习的重要一年。同时DeepMind的Perceiver IO对文本、图像、视频和点云实现分类以及斯坦福大学的ConVIRT在医疗X光影像中添加了文本标签,都预示着多模态学习正在崛起并且渗入到其他领域。
Facebook也表示在其仇恨言论检测器中也使用了多模态学习,用以删除了社交网络中97%的辱骂以及有害内容。该系统能根据文本、图像和视频在内的10种数据类型,将模因和其他图像文本配对归类为良性或有害。同时谷歌也表示在搜索引擎中添加了多模态(及多语言)功能,实现了多任务统一模型能返回文本、音频、图像和视频链接,以响应75种语言中任意一种的查询等。
巨大模型
让机器去理解人类语言一直以来都是人工智能的核心夙愿,只有将人脑独有的自然语言赋予机器,才能真正让机器“活”过来。随着OpenAI去年提出GPT-3模型,在各大平台引起热议,让我们似乎触摸到了上帝的领域。GPT-3模型比全球最大深度学习模型 Turing NLP 大上十倍,而且不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。根据论文所述,GPT-3是一种具有1750亿个参数的自然语言深度学习模型。
就在大家还沉浸在GPT-3模型庞大参数量的时候,谷歌Switch Transformer开启了2021年首个超过1万亿参数的模型,参数规模高达1.6万亿。随后北京智源人工智能研究院推出更大的、拥有1.75万亿参数规模的大模型悟道2.0。资金雄厚的人工智能公司正以狂热的速度堆积参数,既为提高性能,也为秀肌肉,特别是在语言模型中,互联网为无监督和半监督的预训练提供了大量无标签的数据。然而模型从“大”走向“巨大”的确可以使得效果越来越好,但同时带来更多的问题与挑战。
(1) 数据挑战:巨大的模型需要海量的数据,但网络和数字图书馆来源缺乏高质量的数据。例如,研究人员常用的BookCorpus是一本由11000本电子书组成的数据集,用于训练30多种大型语言模型,它可能会传播对某些宗教的偏见。人工智能社区越来越意识到数据质量至关重要,但在收集大规模高质量数据集的有效方法上尚未达成共识。对于巨大模型而言,海量高质量数据采集成为了避不开的屏障。
(2) 速度与效率:当前人类的硬件水平虽然在不断突破,但是仍然跟不上巨大模型的需要。Switch Transformer背后的谷歌团队为了降低延迟开发了一种方法,让每个token处理模型层的选定子集。他们的最佳模型比参数量只有1/30的模型快了约66%。同时,微软开发了DeepSpeed库,这个库并行处理数据、各层和层组,并通过在CPU和GPU之间划分任务来减少冗余处理。然而最好的解决方案仍然是提升硬件的效率,人类必须要对算力进行不断突破。
(3) 巨大耗能:训练如此巨大的模型会消耗大量电能。2019年的一项研究发现,在8个英伟达P100 GPU上训练2亿参数的Transformer模型所造成的碳排放,几乎和一辆普通汽车五年驾驶总排放量一样多。如何降低训练巨大模型消耗电能的问题已经摆在所有人面前。目前有望加速人工智能的新一代芯片,如Cerebras的WSE-2和谷歌的最新TPU,可能有助于减少排放。同时,算力已然成为国家的基础建设一部分,算力导致的能耗问题也敦促着需要更多的去使用风能、太阳能等更清洁的能源。
计算机视觉
计算机视觉目前作为人工智能进步最多、发展最快的领域,一直冲在赛道最前面。根据Grand View Research的数据显示,2020年全球计算机视觉市场规模为113.2亿美元,预计2021年至2028年将以7.3%的复合年增长率扩大。目前竞争比较激烈的计算机视觉子领域有:场景重建、目标检测、事件检测、视频跟踪、目标识别、3d姿态估计、运动估计、视觉伺服、3d场景建模、图像修复。
作为上市公司的商汤科技提供的OpenMMLab是迄今为止最完备的计算机视觉算法体系和框架——“人工智能算法开放体系”,涉及超过10种研究方向,开放超过100种算法、600种预训练模型。现如今OpenMMLab逐渐从单点单个方向的开源和单篇论文的开源走向日趋蓬勃的开源体系,成为底层训练框架、计算平台与科研、教学和算法生产的重要桥梁和纽带,极大加速AI科研和产业化的进程。
强化学习
强化学习可以说是最贴近人类学习过程的AI了,换位思考一下,我们从小到大不断地学习,就是一个不断试错的过程。强化学习就像一个真实的孩子,自我生长,不需要大量的历史数据做引导,只有不需要监督的学习才是人工智能最好的形态。
强化学习理论收到人类行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。过去几年中,无论是Facebook、Google、Deepmind、Amazon还是Microsoft,他们都投入了大量时间、金钱、人力来推动强化学习的不断创新。
国内的各大AI云平台涌现
随着人工智能的日益火爆,国内大厂们纷纷在AI领域布局。AI开放平台已经和当初的云计算平台一样,如雨后春笋般涌现。AI开放平台已经成为了企业重要的基础建设。列举目前国内比较有代表性的AI开放平台:
- 百度飞浆
- 阿里云人工智能平台
- 腾讯AI开放平台
- 科大讯飞开放平台
- 华为云ModelArts
- 旷视Face
- 360人工智能研究院
- 网易人工智能
AI云平台的本质仍然延续了大数据时代经典的租赁模式,似乎让我们回到了几年前大数据风起云涌的年代。而AI云平台的优势在于让越来越多开发者对AI有更简单直观的认识,他提供了许多顶会模型供大家学习的同时,也提供了开发者将自己作品上传展示的平台。
让AI不再离我们遥远,成为人人都可以使用的东西。只有成熟的社区文化,才能孕育出新的创作者,也让市场上出现越来越多的人工智能产品,AI云平台核心意义就在这里。
2022趋势
创立17年的Facebook在美国时间2021年10月28日正式宣布改名为“Meta”,如一个重磅炸弹,在业内引起了惊涛骇浪。扎克伯格用实际行动向大家宣布,元宇宙已经来了。随之而来的2022年,将迎来人工智能新一轮趋势风暴。
元宇宙真正意义上的拐点
如果说2021年人们认为元宇宙还只是妄想家的一厢情愿,那么2022年将真正开始颠覆人类对“世界”两个字的理解。所以笔者认为2022年可以成为元宇宙真正意义上的拐点。在技术角度看,元宇宙主要技术群有:网络以及算力技术、人工智能、游戏技术、显示技术(VR、AR、MR甚至是XR,体验不断深化)、区块链技术。而笔者认为,人工智能将会是整个元宇宙的核心,甚至是元宇宙的母体或者说是大脑。为了演化真正的社会形态,需要母体不断自我学习,而不是设定各种各样的规则不断修补社会形态。就像《失控玩家》电影一样,由母体创造的NPC也会随着社会形态的演变而进化。
根据Bloomberg Intelligence预测,元宇宙的投资与价值只会在未来几年不断增长,到2024年价值将高达8000亿美元。在如此大的宏利明前,只会让市场不断敦促人工智能产能不断突破。
算力革命
随着全球自动驾驶需求不断扩大,围绕大算力芯片的竞争2022年将异常热闹。因为今年,英伟达自动驾驶芯片Orin将量产,高通Snapdragon Ride也将量产,而中国创业企业的大算力芯片也将量产。杨宇欣给出了一组数据:2014—2016年特斯拉ModelS的算力为0.256TOPS,2017年蔚来ES8的算力是2.5TOPS,2019年特斯拉Model3算力为144TOPS,2021年智己L71070TOPS,2022年蔚来ET7是1016 TOPS。这组数据进一步印证了这样一个事实:智能驾驶每前进一小步,后面都需要算力前进一大步。
算力的作用不单单体现在汽车行业,2021年11月8月,阿里巴巴达摩院公布了多模态大模型“M6”的最新进展,其参数已从万亿跃迁至10万亿,成为全球最大的AI预训练模型。在10月,M6再次突破业界极限,使用512颗GPU,在10天内就训练出了具有可用水平的10万亿模型,相比2020年发布的大模型GPT-3,M6实现了同等参数规模,能耗却只有1%。越来越强大的算力是更智能人工智能模型可用的基础,随着人工智能行业不断发展,不只是技术的革命,更加是算力的革命。兵马未动粮草先行,算力作为人工智能模型的主要消耗品,决定着人工智能迈进的速度。
就在2021 年 11 月,摩尔线程宣布已完成 20 亿元人民币 A 轮融资。该轮融资由上海国盛资本、五源资本、中银国际旗下渤海中盛基金联合领投,建银国际、前海母基金、等九家机构联合参投。在宣布该轮融资的同时,摩尔线程同时宣布其首颗全功能 GPU 芯片如期研制成功,且已经开始适配国产主流 CPU 和操作系统。所筹资金将重点用于首颗 GPU 芯片的批量生产与制造、GPU SOC 相关联的 IP 研发、以及国产 GPU 生态系统的拓展等。随着算力革命的打响,各国都将投入大量的资本和人力,这场没有硝烟的战争会将人工智能推上全新的高度。
AI门槛降低带来工业生产全面应用
随着AI的不断发展,人类算力的不断提升,AI的使用门槛也越来越低。如智能语音系统、智能客服等商业落地,比比皆是。另一方面如短中长视频业务,在全球仍保持着较高的增长速度,视频内容创作者和内容消费者活跃度非常高。其中作为全球最火的手机应用“抖音”,大量的视频智能处理技术可以帮助创作者更好地创作作品。另外,北京冬奥会中AI虚拟气象主播、AI手语主播、场馆智能向导、智能语言翻译、鹰眼裁判、AI运动员训练系统等等都是人工智能全面应用的体现。
预训练大模型降低了 AI 应用的门槛,解决了 AI 应用的两个难题:数据和行业知识。它既不需要大量的标注数据,又保障了基础底座。所以摆在企业家面前的最大问题不再是技术如何突破,而是商业模式如何建立,商业闭环如何落地,以及技术转化为产品的效率。
科学界AI技术将作为新生产工具
根据阿里巴巴达摩院对2022年十大科技预测,其中趋势一就是:AI for Science。
引用:实验科学和理论科学是数百年来科学界的两大基础范式,而人工智能正在催生新的科研范式。机器学习能够处理多维、多模态的海量数据,解决复杂场景下的科学难题,带领科学探索抵达过去无法触及的新领域。人工智能不仅将加速科研流程,还将帮助发现新的科学规律。预计未来三年,人工智能将在应用科学中得到普遍应用,在部分基础科学中开始成为科学家的生产工具。
没错,除了DeepMind在2021年初开源了AlphaFold2,并且能够预测出98.5%的蛋白质结构。2021年12月,DeepMind首次利用人工智能帮助数学家们提出了两个全新的数学猜想,登上Nature封面。作者猜测低维拓扑中存在未知的非线性关系,产生了很多数据并用神经网络拟合了近似函数,发现其中三个量在拟合过程中起到了很重要的作用。通过反正做拟合实验,产生新的数据,得到新的观察模型,最终数学家利用智慧猜出了一个不等式结构,并进一步给了严格的证明。
由此可见人工智能成为了科学家新生产工具之后,不但可以加速科学发展的进度,更加可以让人工智能创造新的设想,甚至让某些科学产生新的方向。
小结
2022年必然会成为人工智能技术爆发的一年,我们有可能会见证以前从未有过的成果。人工智能深入我们的生活,给我们带来更多便捷的同时,也带来更多的挑战和机遇。