一览群智胡健：在中国完全照搬Palantir模式，这不现实

作者 | Just

出品 | AI科技大本营（ID:rgznai100）

神秘的硅谷大数据挖掘公司 Palantir 是国内众多创业公司看齐的标杆，其业务是为政府和金融领域的大客户提供数据分析服务，帮助客户作出判断，甚至“预知未来”，它已于近期寻求 IPO，估值在 360 亿美元到 410 亿美元之间。

现在来看，那些试着将其“Copy to China”的初创公司没看错，Palantir 看上去是一种成功的商业模式范例。不过作为追随者之一，一览群智在摸索一段时间后，发现完全照搬这种模式在中国走不通，即便中国的类似需求更为旺盛。

一览群智 CEO 胡健分析，由于 Palantir 是偏项目型公司，客单价很高，低于500 万美元一般不接，这样一年大约做 20 个项目就收工。但在中国，大项目全在系统集成商手里，客户也不太敢将大单项目中标给创业公司，初创公司只能成为其中一个技术提供者。

显然，他们反思了这一发展模式，胡健表示，“正如中国滴滴不能完全照搬 Uber 一样，在中国完全照搬 Palantir 模式，是不现实的。”

1.搜索基因

Palantir 是一个很好的 To B 模式样板，但当你认为以自然语言处理和知识图谱等认知智能技术为核心，为客户提供一站式AI 产品和行业解决方案的一览群智公司的成立，只是因为看上这一商业模式，那就小看它了。

事实上，创业已 4 年的一览群智，其创业动机源自技术基因——搜索。搜索在 Palantir 的架构中非常重要，其核心是整合和查询大型企业所有相关数据，涵盖知识图谱动态本体论以及现实对象、实体映射和关系挖掘，与互联网搜索引擎的索引技术相比，进行了深度扩展。

管理团队中，首席科学家文继荣、研究院院长窦志成以及 CEO 胡健都曾是微软亚洲研究院的老兵，他们的交集都在互联网搜索与挖掘组(WSM)。

胡健讲述了关于微软做搜索的故事片段。

文继荣曾是写国内国产数据库人大金仓早期核心人员之一，博士毕业后就去微软做数据挖掘工作，后来李开复牵头创建微软中国研究院（微软亚洲研究院前身），提出要做搜索，当时找了后来在 AI 领域享有盛誉的四个人，文继荣也是其中之一。

但在跟微软总部开会讨论过后，由于认为搜索没有商业模式，微软最终在 2000 年 4 月停掉了搜索项目，成为其重大战略失误。随后 Google 找到了广告推广的商业模式，微软也于 2003 年再次开启搜索项目，但用的是数据库的方式来做，这种方法效果并不好。2007 年，时任微软亚洲研究院院长的沈向洋被调去美国做搜索，文继荣作为 WSM 团队核心架构师研发支持了 Bing 搜索的架构。

后来搜索市场的格局就很明朗了，“面向 C 端的搜索是一场已经结束的战争。”

另一场技术革新很快扑面而来。人工智能技术的兴起，让他们开始思考新一代智能搜索的机会在哪里？

一种表现形式是个人智能信息助手，同时担任北京智源人工智能研究院首席科学家的文继荣认为，它将取代搜索引擎成为连接人与信息的新工具，用存储、计算和智能拓展人的能力，构建具有超级记忆力、知识能力和分析能力的“超级助手”，能够随时、随地方便地获取高质量相关信息和知识。这个目标当然还很遥远，并不足以为此成立一家商业公司。

但别忘了，搜索引擎整合的是互联网上海量多源异构数据理解网页内容和用户查询，然后进行匹配，但其简单的交互形态和对网页的理解，不能够直接告知用户想要的答案。某种程度上，胡健认为搜索的本质是一个比较“傻瓜化”的通用决策引擎，而客户需要一个智能系统帮助其作出决策。

所以搜索技术能否先阶段性落地在 B 端企业和行业？答案是肯定的。

2.智能决策系统

企业内的搜索形态与通用搜索引擎大不相同。胡健提到，如今大部分企业沉淀了包括邮件、OA 以及聊天信息等多元数据，如果把数据进行结构化，并与业务流程进行关联，使用自然语言处理、知识图谱以及机器学习等技术，最终是能够帮企业做出智能决策的 AI 辅助系统。

一览群智智能决策平台就是承载其不同业务场景的底座系统，目前包括四大产品“武器”。

具体而言，“智语”自然语言处理平台是具备完整的 NLP 智能一体化构建能力，能够帮助用户快速完成数据处理、模型训练及发布的全流程；“智图”知识图谱平台基于知识图谱技术，是“黏合剂”的角色，使用动态本体技术快速实现知识的建模、推理、走向、挖掘，有效支持情报、风控等强烈依赖于实体、属性、关系模型的应用场景；“智慧”机器学习平台是一款智能高效的机器学习平台，它能有效降低机器学习的门槛；“智策”可视化智能决策平台则提供非常强大的分析推理能力。

简单来说，一览群智的底座系统要完成的功能是感知、理解、关联和决策。

今年以来，以知识图谱为代表的认知智能技术成为AI 发展的一大高频词。人脸识别、语音识别等感知智能技术解决了机器看和听的问题，问题是看不懂、听不懂。人工智能要形成闭环，感知智能和认知智能的融合才会产生更大的价值。

其中，要突破的关键技术是自然语言理解和知识图谱。NLP 领域的 Bert，XLnet 等新模型层出不穷，这使得机器的阅读理解能力超过人类，即便这是“大力出奇迹”的结果，难以实现人机对话；其次，数据在线化、大数据规模和算力的提升，让原来人工构建知识图谱转向机器自动构建知识图谱成为可能。

胡健强调知识对于 AI 技术发展的重要性，“要通过构建大知识形成更好的推理，从而形成更好的对话。”

现实落地不会像他话语中表现出的那般轻易。胡健告诉AI科技大本营，目前知识图谱的框架信息密度不够，关联密度还很低，最好还需要像深度学习中能进行降维操作，让知识能够衔接，不断进行关联。其次，信息的干净度不够，所以想通过完全开放领域的知识图谱做应用不太可能可能落地。

通用组件跟行业业务场景如何具体连接的问题也让人痛苦，由于目前行业没有形成智能化生态，若客户没有技术底座或技术底座与产品之间有鸿沟，还需要技术提供方自己去填坑。

一览群智目前杀入的金融、公安、医疗三大领域要好得多。它们的共同点是有数据、信息化程度高且不缺钱，这三点是他们寻找落地领域的重要评判因素。

与云计算行业兴起时的那样，目前人工智能行业的落地也在探索当中，很多项目都偏定制化，但这胡健并不在意，因为随着产品不断迭代，没有生命力的自然会淘汰，而一小部分最后会成为标杆应用。“先变大，然后变小，再不断去扩充产品。”

3.个人智能信息助手

正如滚雪球一般，无论搜索还是智能决策系统，随着技术持续发展，其中一个发展方向是文继荣正在推进的个人智能信息助手。

尽管传统信息检索与挖掘算法已有广泛应用，但总体而言，搜索技术的架构和交互界面已经 30 年未变，搜索的核心技术已经 10 年没有重大进步。用关键词检索的方式，表达能力有限，获得的信息是千人一面。从更基础的技术来分析，传统信息检索与挖掘算法缺乏对底层数学与认知基础的理解。文继荣则把“智能信息检索与挖掘”看做搜索在未来的发展方向。

有些改变正在发生。在今年百度 Q2 财报内部信中，李彦宏提到百度正在用AI 重新定义搜索，目前搜索结果首条满足率已经达到 51%。10 月 26 日，将 BERT模型应用于搜索排名之后，Google 称可以帮助搜索引擎更好地理解美国（英文）10% 的搜索内容。

胡健形容人工智能还是个 12 岁的孩子，可它脑容量特别大，记忆力特别好，而且搜索特别快，这在某种意义上就具备一定推理能力。因此他认为，五年之内智能决策系统能够替代一些偏重复式或半重复式的规则比较明确的中等脑力劳动者。

而在未来五到十年间，他们要让机器更好的理解网页，更好的构建知识，更好的做匹配，做更好的交互形式。

那未来新一代智能搜索的会具备什么能力？

“第一，必须具备像人一样的沟通和理解能力；第二，有多轮对话能理解和形成整个对话逻辑。另外还要去做知识构建、推理、关联分析，去理解底层知识的构建体系。”胡健说。

看了电影《Her》后，他笃定以后不会有手机这种形态，人机对话也不会像微软小冰现在所呈现的效果，未来搜索的形态是人们通过一种代理机制发出指令，从而获取精准信息。“这个代理就是信息助手，这才是搜索的未来。”

（*本文为AI科技大本营原创文章，转载请微信联系 1092722531）

知识图谱数据挖掘搜索引擎机器学习

0 人点赞