李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI
对撞机,发现新物理粒子的方法和装置。
众所周知的高能物理基础设施,人类基础物理领域研究的集大成成果。
现在,商汤科技也搞了一个,同样是其多年产学研积蓄后的成果转换,是其最新技术成果的集大成体现,是一整套完整的AI基础设施。
取名SenseCore商汤AI大装置。
商汤CEO徐立说,这是商汤长线核心竞争力的标志、公司持续经营和更大规模跃迁的护城河,以及推动AI时代生产要素降低的关键一步。
实际上,企业家一面的徐立对此还显得克制,当他科学家的那一面流露,会激动得语速飞快:
靠人脑的方式可能永远赶不上宇宙膨胀的速度,如果要真正解开宇宙真理,输入的依据就不能单靠此时此地此身的人类有限认知,甚至不必追求当下的过程可解释,可以试着用更大的数据,更强的算力,或许还会撞出更多预期之外的结果。
所以商汤的AI大装置,你可以理解为GPT-3、AlphaFold路径上的更大规模落地,是大数据、大模型和超强算力的三位一体实践,也是input到output之间沿着“大致正确方向”的大力出奇迹。
商汤AI大装置如何组成?
在上海临港新片区,一座宛如芯片的建筑群将在今年年底投入使用。
这是商汤全新的AI算力中心(AIDC),计算峰值速度将达到3740 Petaflops(1 petaflop等于每秒1千万亿次浮点运算)——作为参照,OpenAI的千亿参数模型GPT-3完整训练一次需要3.14E23次浮点运算,而商汤临港AIDC的算力仅在一天内即可完成。
毫无疑问,商汤的这个全新AIDC,目标就是为更大规模参数模型的训练而来。
但在商汤AI大装置中,AIDC不到1/3又1/3。
商汤AI大装置SenseCore的全貌,包含了三层:
- 算力层(AI芯片及处理卡 AIDC AI传感器)
- 平台层(模型生产 训练平台 数据平台)
- 算法层(算法工具箱 开源框架)
三位一体,以基础设施方式输出模型,把AI能力输出到企业服务、城市管理和个人生活等三大落地方向中。
区别于“AI模型”小作坊式的打造,AI大装置更像流水线工厂,可以实现不同场景的算法模型的底层抽象,以模块化平台套件打造通用型服务平台。
特别是针对AI落地中更长尾的客户和场景,能够在组合不同算法套件的基础上完成新场景的定制,以低边际成本实现对新场景的规模化覆盖。
并且商汤基于AI平台基础设施的系统协同性,可以以半自动化、自适应的方式,就能实现批量的算法模型生产和迭代升级。
为什么商汤要搞AI大装置?
商汤CEO徐立说,本质是让AI落地摆脱人力密集的状态。
他认为AI之所以人力密集,是因为生产效率不高,而生产效率提升的关键,是生产要素的成本能足够低。
在AI落地初期阶段,项目定制是行业最普遍的方式,比如做一个手机检测的算法,需要上百人的团队,但换一种场景的应用模型,又得上百人进来……
好比不同的场景里盖楼,堆人是解决问题常用的方法。
但如果按照上述项目包工的方式搞,AI落地就会显得天方夜谭。
商汤的模式不是秘密:“商汤驱动,赋能百业”,用“1(基础研究) 1(产品及解决方案) X(行业)”的方式展开各行各业的落地。
据官方数据,创办6年来,商汤集结起一支2000人规模的研发团队,推出了13000多个技术模型,以及17000多个商业模型。
所以规模化多场景不同领域落地的过程中,就提出了通用模型的要求。
只是问题也随之而来,模型越通用,训练数据就越大,模型参数也越大,对算力的要求也就越高。
在GPT-3一炮打响之前,对于这种大规模参数的通用模型,业内外都存在质疑。
因为之前的共识是:越厉害的算法,参数和算力可以更少,提升模型精度才是正道。
而且这种“精妙”著称的算法方向,意味着模型对于运算和执行的精准部署,就像数学解题中,严丝合缝地过程推导,最后精准给出结果。
所需的“算力”,理应越少越好。
要来一个暴力解题的方式:吃最多数据,一通暴力计算,最后给出结果——即便是正确答案,也不被推崇。
商汤起步伊始,为手机、互联网公司供应AI方案,走的就是精妙模型的路线。
但随着规模化扩张,开始进入To B行业和城市业务领域后,精妙技术模型在行业长尾需求和应用中的“短板”也就暴露出来。
比如在业务落地中,优先选择的自然是流量大、显示度高、高频,投入产出比高的头部应用。于是大家争夺的就是像地铁刷脸通行这样的应用。
而城市里防火、防水等应用,频次低,需要累积和投入的资源又一点不比头部应用少,虽然有刚需,但处于长尾端,不受青睐。
最终,从需求方角度,如果不能在一个场景里解决包括长尾在内的问题,切换新方案、并为此买单的意愿就会降低。
所以从AI落地的商业化和价值闭环出发,从需求端推动来看,“眉毛头发一把抓”,大参数模型也就变得自然而然。
此外,AI技术的演进路线上,反共识的趋势从更多维度显现。
从AlexNet以来看过去十年AI模型的发展,每年最新的算法网络、最好的技术,对于算力的需求,几乎是呈数量级的增长,每年都大概会有十倍的算力需求增长。
徐立躬身其间,对这种趋势的感知也非常明显。
他认为造成这种趋势的原因其实很简单:表达越来越丰富,模型越来越通用,参数也就越来越多,算力要求也就越高。
行业整体而言,最领先的算法对于算力的需求翻了近百万倍。
其次,技术本身的演进。
原先的技术路线朝着单一方向、单一路线前进。通用AI看起来可望不可及,然而过去几年在通用问题的刚需驱动下,一些通用语言模型、通用视觉模型,甚至通用多模态模型开始取得突破,曾经不work的正在变成可能。
商汤CEO坦承,通用模型的打造确实花费了大力气,但好处是在长尾问题解决上效果显著。
伴随而来的挑战,是对新一波以算力为核心的AI基础设施的渴求。
“就好像在物理探索中,如果没有粒子对撞机,很多核心工作没法展开。”
徐立强调,商汤在AI规模化落地的大潮里,必须到了解决通用模型挑战、必须有集中化大规模算力的时候。
他回溯称,2016年、2017年开始,商汤就开始了大参数模型的挑战,SenseNet被做到了1000多层。
随着模型网络越深、参数越大,算力的问题变得突出。
于是2018年开始,商汤开始更加严肃地审视芯片、硬件,并在自建算力中心的基础上,完成了大装置的“原型机”打造。
其后,投资56亿的AIDC智算中心开工,2021年底交付。
当然,过程中还发生了两件AI领域的最大新突破,给商汤上下吃下定心丸。
一件发生在2019年,OpenAI开始大参数模型打造,并在2020年以GPT-3轰动全球。
另一件则是DeepMind的AlphaFold 2。
在徐立看来,两大不同方向的进展,背后其实有同一个核心路径:
输出方向大致可确定,输入更大的数据,“撞”出结果。
而商汤的AI大装置,不正是这种核心路径的实践机器、基础设施,AI领域的粒子对撞机吗?
AI大装置有什么用?
自然是可以打造大参数模型。
首先可以解决AI落地中的长尾问题。
比如在城市的日常治理中,把“城管”的工作场景,实现全AI流程覆盖。
无论是暴露垃圾的问题,共享单车乱堆乱放的问题,还是疫情、火灾、汛情、人群拥挤踩踏、危化品泄露……等等公共场景中的各类问题,不管高频还是低频,都能实现一站式解决。
从发现、报警、执行到结案,全流程都可以实现AI化,用人机交互的方式实现更加高效的城市治理。
而且这不是设想,是商汤用AI大装置原型机,在上海一网统管项目中落地的现实。
其次,大参数模型的打造,还是批量打造的那种。
按商业场景分,大的如城市、汽车、工业,小的像螺丝螺帽、冰箱内物品识别……
按技术场景分,视觉领域、语言领域、自动驾驶领域、医疗领域、制药领域……
每一个领域,是不是都可以足够多的数据输入,然后用大装置对撞生成结果?
比如在蛋白质结构预测方向,之前即便用AI的方法,也需要既有非常懂生物的专家,还得非常懂AI的专家协作……双方精心设计流程,精心准备输入数据,最后才有可能得到正确的结果?
大装置会有什么不同?
知道大致正确的方向和目标,就是预测蛋白质结构,但不用精心准备输入数据和流程,甚至可以群策群力,把所有可能相关的数据都输入,最后“大装置”穷尽所有可能性,同样解出正确的结果。
所以沿着这个层面展开,AI大装置意味着落地门槛的降低。
从AI展开行业落地那一天开始,主导权到底是归属AI博士们,还是传统行业老兵的话题,讨论从未有过间断,也从未有过共识。
最具参考的一种答案是既要也要,强调融合共生。
然而如果需要融合,那落地的规模和速度自然就会大受局限,毕竟懂AI、掌握AI能力的人,相比传统行业人才,实在九牛一毛。
而作为基础设施,AI大装置在本质路径上,把AI能力变成了一个输入→输出的机器和工具。
运用这个工具的,可以来自任何行业和领域。
只要有数据思维,定义清楚目标方向,懂得找可能的数据,然后大装置就跟“相机”、“电脑”没有本质不同,都是工具。
所以徐立说,这就是为什么商汤把AI教育作为重要业务组成的原因。
“现在的教育告诉年轻人,需要每一步严格推导产生正确结果才能给分,但未来可能也有一种得出正确结果的方法,不需要你掌握推导过程。”
用好你需要的数据,知道如何操作和使用,然后把数据放入“装置”,一样能解题。
这也是为什么会有一种观点认为:下一个柯洁李世石一样的围棋高手,不一定要学围棋。
实际上,这种思维下,教育方法确实值得被重新审视。
毕竟现如今我们称赞的“计算天才”,不是口算、心算最厉害的那类人,而是最懂得如何利用计算机工具的人。
当然,如果沿着“AI大装置”的思路,扩展到更宏观的“认识世界”,人类对于规律的发现和认知,是否也会被刷新?
人类对于世界的认识和改造,究竟是一种怎样的模式?
亚里士多德提倡演绎,这是一种强调因果的强推导,是一种线性的演进和发展。
但另一种模式,牛顿的时代、爱因斯坦的时代,展现的却是跃迁式进步。
他们带来的基础理论突破,当时甚至只是一种“假设”,是在其后一代甚至几代天才归因中,才完成过程论证。
只是历史车轮相似的是,每一次基础理论的突破,都带来一波更有力量的发明创造和更高级的文明。
徐立把这种天才推动的文明跃迁,笑称为“上帝拍脑袋”。
不过更令他着迷的是,接下来是不是可以由大装置来拍?
回顾过去,人类的科学探索都是基于已知认知推未知,毫无疑问就会受限于“已知认知”,更何况人类历史上不少重要的发明和发现,还是“无心插柳”的结果。
但AI大装置提供的新范式,提供了另一种路径:
探索未知,可以不依赖于人类已经理解的输入来作为输入,可以尝试把更大更多的数据放进来,搞不好就能找出更趋近本质的规律。
而AI最终极的工具能力,不正是帮助人类发现、找出更多,更终极的规律和真理吗?
刷新商汤
最后,在AI大装置浮出水面之际,也是时候重新审视商汤。
商汤是一家什么样的公司?
创办6年来,它备受瞩目,但又面目“模糊”。
商汤时常被谈论它的规模增速和融资估值,也始终被热议“AI赋能百业”的可能性和可行性。
更因为其落地领域广泛,技术和产品不直接To C,又容易在舆论认知中被盲人摸象。
但现如今,最新集大成成果AI大装置建立完成,商汤的归去来都得到了最好的连点成线,商汤的核心和边界、商汤的护城河、商汤从技术到商业的可持续,以及商汤将会带来的AI变革,都能在AI大装置得到完整解答。
在AI大装置的思路之下,商汤把聚集的AI博士之力,架构成了不需要AI博士才能使用的AI工具,并且可以在各个领域都实现输出和赋能。
就像电被发现后,发电机和发电厂所承担的角色一样。
徐立透露,2018年开始大胆设想时,这种发展路线甚至是反共识的,但商汤内部还是顶住压力,做重做深,碰硬件碰底层,然后一搞就是3年。
这有点像黎明前的登山,知道在向上走,却不知道是否是登顶的正确道路。
好在OpenAI的GPT-3、DeepMind的AlphaFold,以及越来越多业内巨头玩家拿出的超大参数模型,不同维度验证了这确实是一条通向未来的路。
徐立还透露,按照内部规划,硬件成本投入56亿起的AI大装置,在开起运行的2年后就能回本,到2025年就会进入盈利轨道。
这是商汤面向未来的长线核心竞争力,而建立这种长线竞争力的时间周期,则构成壁垒和护城河。
更重要的是,AI大装置启动,AI赋能的门槛进一步降低,整个数字化和智能化的进程,就会进一步被加速。
商汤当前的北京办公室所在地,理想国际大厦,是上一代原创技术公司百度,从技术创新到商业创新的“福地”。
徐立也喜欢用搜索引擎来类比“AI大装置”会给商汤、给AI行业带来的变革。
他认为今天互联网的繁荣,是因为搜索引擎成功地把信息——高频的、低频的、高价值的、长尾的,在虚拟空间实现了链接。
而现实世界,始终缺少一样的“搜索引擎”。
因为现实世界中很多东西还无法结构化的、可解析。但AI大装置如果成功,就能加速这种真实世界的结构化、数字化。
顺理成章,互联网发展中两大核心技术——搜索和推荐,也就能在现实世界得到复刻和应用。
并且相比互联网经济创造的价值,人类更大一部分的经济活动和创造,原本就在线下。
所以徐立坚信,AI正在进入下一个时间点,一个从技术创新周期转入商业创新周期的时间点。
“搜索引擎起来的时候,有围绕搜索引擎创业的生态;视频平台起来的时候,有围绕视频平台展开的商业生态。”
这位商汤联合创始人说,很多人问他,AI创业是不是过时了?
他的回答是:
恰恰是正当其时的时候。
— 完 —