孙元浩
本文由星环科技创始人兼CEO孙元浩投递并参与《2023中国企业数智化转型升级先锋人物》榜单/奖项评选。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业 超大语言模型,尤其以ChatGPT为代表,正迅速地应用于各行各业,加速了人工智能技术的普及,使AI成为我们工作和生活中不可或缺的一部分。毋庸置疑,这些大模型技术已经深刻地影响并改变了各行业的发展,正在重构企业核心产品,并改变用户与企业产品和服务之间的交互方式。
然而,尽管大语言模型具有巨大的潜力,但其训练、维护和技术难度要求极高,成本也非常昂贵。此外,通用大模型在应用于特定领域时可能会遭遇不适用的情况,导致出现 “答非所问”的现象。对于企业而言,直接将大模型接入企业应用,虽然在一定程度上能够提高应用对人类自然语言的理解能力,但仍然会面临“水土不服”的问题。因此,我们必须认识到大语言模型的局限性,并在企业落地时,选择合适的领域语料,加以改造和二次开发。
大模型持续开发和训练工具
为了满足企业应用大语言模型的需求,我们率先在行业中提出了行业大模型应用创新场景,并推出了相应的大模型持续开发和训练工具——Sophon LLMOps。这款工具旨在帮助企业构建自有的行业大模型,通过大模型基础设施打造面向未来的、具备“新型人机交互”且“敏捷可持续迭代”的人工智能应用。
针对大语言模型及其衍生数据、模型和应用方面的问题,Sophon LLMOps工具链需要完成从通用大语言模型的训练和微调、模型上架到模型持续运营及提升迭代的全流程任务,从而成功构建满足企业自身业务特点的领域大语言模型。
在模型训练微调阶段,Sophon LLMOps工具链需要覆盖训练数据开发、推理数据开发和数据维护等工作,对大语言模型所涉及的原始数据、样本数据和提示词数据进行清洗、探索、增强、评估和管理。在模型运维管理阶段,除了传统MLOps的六大统一,即统一纳管、统一运维、统一应用、统一监控、统一评估和统一解释外,还需要提供计算框架、工具以及计算、存储、通信的调度和优化支持,以满足大语言模型的微调、持续提升、评估和对齐等方面的需求。在模型和其他任务的编排和调度上线阶段,Sophon LLMOps工具链还需提供Agent、Ops、DAG等提示词编排功能,结合大数据、向量数据库或图数据库产品,将不同大语言模型、传统机器学习和其他流程等编排成符合企业实际领域和业务需求的任务。
向量数据库扩展大模型的时间和空间维度
基于目前的技术发展现状,通用大模型和领域大模型都存在一些限制。其中,语料时间限制、输入字数限制和领域知识限制是主要问题。
首先,语料时间限制方面,大模型的训练时间需要半年至一年,训练过程不能包含后续发生的资讯、实时新闻等快速变化的信息。这就导致大模型无法及时处理最新信息,影响回答的准确性。
其次,大模型的输入字数限制取决于其算力和工程难度。像GPT-3就只能容纳2048个Token,约1024个汉 字 ;GPT-4只能容纳32000个Token,约16000个汉字。对于超长文本输入,比如企业年报分析,大模型则难以胜任。
再次,为了提高大模型在特定领域的准确性,需要在大模型中嵌入领域知识库,使其具备专业领域的语义理解和判断能力。然而,由于领域知识的复杂性和变化性,大模型无法完全做到准确性。
面对这些限制,我们可以考虑引入向量数据库,它是专门为存储向量数据而设计的数据库。向量是由一组有序的数值 ( 通常是浮点数 ) 来表示一个对象或数据点,在多维空间中表示数据点的位置、特征或属性。对于图片、视频、文本等非结构化数据,可以通过抽取生成一组高维的特征向量,存储在向量数据库中。向量数据库具有较强的处理大规模、多维度向量数据和计算模式能力,特别是在向量搜索和相似度计算方面,具有更低的查询延迟和更高的准确性。它支持欧几里得距离、余弦相似度、汉明距离、曼哈顿距离等不同的距离度量方法。
向量数据库通过存储最新资料、过长文本的特征向量数据,帮助大模型实现长期记忆和专业能力扩展。当用户向大模型提问时,用户问题会被转化为一组高维向量,进行语义搜索,找到相关信息,并拼接成提示词,发给大语言模型生成答案反馈用户。向量数据库在其中承担了中间存储的角色,类似于海马体,是大模型存放长期记忆的地方。
然而,向量数据库也需要具备一些特点,如高可用、高性能、易拓展等。它应该支持多种向量搜索索引,数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,才能满足企业针对海量向量数据的高实时性查询、检索、召回等场景。使用向量数据库能够有效克服大模型的限制,提高其准确性和反馈效率。
领域大模型让AI助理成为可能
随着大模型技术的快速发展,领域大模型已经成为推动人工智能发展和企业数字化转型的重要力量。结合大模型持续开发和训练工具及向量数据库,我们率先推出了金融和大数据分析两款领域大模型,并成功实现了AI助理在企业落地的愿景。
金融大模型星环“无涯”是一款面向金融量化领域的生成式大语言模型,具备超大规模的参数量。该模型采用上百万研报、公告、政策、新闻等高质量的自然语言文本进行预训练,并基于图数据库和深度图推理算法技术进行二次预训练,形成了大规模高质量的金融类事件训练指令集。相较于通用大模型,金融大模型更加擅长处理金融量化领域各类问题,包括政策和研报分析、新闻解读、事件总结和演绎推理等方面,具备强大的理解和生成能力。该模型能够全面复盘、传播和推演股票、债券、基金、商品等多种市场事件,并生成另类的策略因子集合,构建立体的归因解释体系。金融领域大模型还能够从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现全新的智能量化投研范式。
另一款领域大模型是大数据分析大模型SoLar星环“求索”,它具备自然语言描述涉及多种数据模型的复杂业务需求的能力。该模型采用 THD特有的“多模型”技术,能够对不同模态 ( 如图数据、文本数据、结构化数据 ) 的数据进行关联分析和展示。大数据分析大模型使用海量的 SQL编译语料,形成了NL2SQL的能力,并支持通过自然语言生成可成功执行的SQL或Cypher,从而快速获取查询结果。该模型运用智能算法作为数据查询和分析的智能副手,帮助数据工程师、数据科学家及业务人员更好地使用数据,并且让数据库查询变得平民化,以便非专业用户在不需要学习和掌握数据库编程语言的前提下,通过自然语言进行数据查询。
身处大模型的技术发展浪潮,我们必须认识到通用大语言模型的语料、输入和知识局限性,并在企业落地时,选择合适的领域语料,加以改造和二次开发。通过引入向量数据库、知识库等外挂存储机制,实现大模型的长期记忆和专业能力扩展,从而帮助企业构建真正实现符合实际需求的领域大模型,让AI助理在企业落地成为可能。
·关于孙元浩
孙元浩,星环科技创始人兼CEO,拥有13项国内外专利,并就大数据的行业应用发表多篇论文。任第十五届徐汇区政协委员、中国人工智能产业发展联盟理事、星瀚大数据联合实验室副主任、复旦-星环科技高性能数据库系统关键技术校企联合研究中心副主任、上海市徐汇区科学技术协会委员。荣获上海市科学技术奖-青年科技杰出贡献奖、至正杯上海科技企业家创新奖、上海十大杰出青商、中国大数据领军人物、中国数据英雄、互联网技术应用突出贡献人物、上海智慧城市建设领军先锋、上海市优秀学术技术带头人等多项荣誉。
★以上由孙元浩投递申报的观点性文章,最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国企业数智化转型升级先锋人物》榜单/奖项。