十问农业大模型的当前和未来

2023-11-16 17:23:42 浏览数 (1)

袁媛 腾讯研究院资深专家

11月6日OpenAI开发者大会带来的GPT-4 Turbo多模态能力升级和GPT Store生态策略,再次引起业界关注热潮。我国通过《生成式人工智能服务管理暂行办法》第一、第二批备案的大模型已经达到22个,除了通用大模型之外,行业或领域大模型开始逐渐增多。可以预见,通用大模型持续增强的听、说、看能力,将通过声音、视觉、图像等多模态开放接口,更便捷的输出给行业大模型的开发者和使用者,在带来更丰富场景的同时,进一步降低应用门槛。

农业是国民经济的基础,“大国小农”是我国的特色,大模型和AIGC的浪潮下,是否在农业也会带来一些实质性价值和机会?农业需要什么样的行业大模型?带着10个问题,腾讯研究院访谈了6位农业领域专家。在访谈中,专家们表示,大模型和AIGC还在快速发展之中,大家对其认识见仁见智,且认识也会逐渐深化,访谈内容仅为探索、交流、共进,抛砖引玉,欢迎各位同仁一起探讨。

【访谈嘉宾(按姓氏首字母排序)】

谷晓峰 中国农业科学院生物技术研究所副所长

胡嵩 北京一亩田新农网络科技有限公司CTO

刘桂才 农业农村部信息中心原总工程师

申斌 湖南惠农科技有限公司创始人、CEO

许世卫 农业农村部农业监测预警技术重点实验室主任

周取辉 湖南惠农科技有限公司CTO

【访谈者】

袁媛 腾讯研究院资深专家

一、大模型在农业领域是否有实质性机会或价值

许世卫:农业上很需要AI大模型。例如,植物保护中的虫情监测,现在主要依靠农技人员去观测,一方面不同人员的经验差异大,另一方面人工的工作量很大,用AI可以建立农技服务方面的大模型,提供具体的植物保护技术,在水肥管理上,也可以应用人工智能技术,提供动态的、具体的管理措施,通过“数字农技员”来指导农业种植管理。此外,随着农业生产的规模化,种植/养殖大户需要AI提供精准的未来生产作业指引,由于各地气象、土壤肥力、农产品品种不同,目前用通用AI方法尚难以实现专一性应用目标。农业行业大模型会带来价值,能带来一些机会,但也不是完全替代现有技术人员和技术环境,而是提供辅助。

刘桂才:大模型会带来新的价值。农民对技术和价格相对不太敏感,敏感的是规模化用户,例如农垦企业、养殖畜牧业、高价值的设施农业,要找更有规模和效益的场景去使用大模型,例如气象、灾害、市场预测等场景。此外,现在农业种植等方面面临劳动力短缺问题,这也给AI大模型带来应用需求。

谷晓峰:大模型出来后,农业生物育种领域反响很大。现在农业生物育种智能设计领域的模型,和已发布的大模型参数量相比有较大差距,有很大的挑战,但对于农业生物领域构建育种大模型也是很好的机遇,具有大幅度提升育种效率的潜力。

申斌:大模型会对农业带来价值和应用场景。第一,过去希望农技服务能到田到户,但一直难做到,大模型的出现,让广大小农户都可以利用AI、大数据等数字技术来获取最新的农业技术和市场信息,实现农技服务的到田到户。第二,可以利用大模型为农户提供种养殖的决策建议。第三,未来通过大模型可以支持系统智能控制,更有利于智慧农业设施的推广和普及。

胡嵩:用户反馈来看,大家对农业行业的大模型有很高的期待。今年6月份,一亩田已推出基于大模型技术的AI对话机器人“小田”,希望做每个农民身边的农业百事通。从规划的方向看,小田可在农技服务、新品种新技术、行情查询、产销对接等方面,利用大模型的人机交互方式,提供轻量级的信息交互服务,带来效率提升。

二、哪些农业场景适用AI大模型?

许世卫:第一,农技服务。目前基础条件相对好,也有需求,可以先行开展。例如植保、水肥、灌溉等技术的知识储备较为充分,已有很多农业方面的知识积累,用大模型方法,可以将相关的知识和技术,变成不同人群和地区可以使用的数字化产品。第二,农产品市场信息服务。比如猪肉价格,未来需要对产区、市场、政策等多维度信息汇聚分析,是多模态的农业行业大模型。第三,生物育种。生物育种需要首先发现基因,分析哪些基因与品种的性状相关。例如,品种蛋白质的含量、成熟期的先后,或者抗病抗灾能力等。由于基因的数据量很庞大,因此AI的作用在于关联分析,即分析不同性状与基因之间的关系,通过机器与系统来选择和匹配关联关系。AI在此过程中作为辅助手段,来支持生物学专家发现规律、快速解决一些问题,但也有边界。

刘桂才:农技服务方面,对高质量的大模型有需求,之前农业部建设了12316三农综合信息服务平台,大模型的技术可以为类似这样的服务平台模式带来优化提升。在基因育种方面,用大模型可以预测和找到优势的基因,大幅提升效率,是相对小众但关键的应用场景,国家种质资源库如应用,可以支持建立育种优势。在养殖、物流、保险、乡村治理等方面,也有需求,重点是信息要保证精准。

谷晓峰:农业生物育种领域需要AI大模型,指导智能设计目标性状。基因组、表型组、转录组、表观组等多维组学适合做大模型,农业生物基因组含有几亿或几十亿碱基对,最终组装成几万个、十几万个基因,大模型可以用于海量基因数据的分析和处理,基因大模型的核心在于精准设计调控基因表达。

申斌:结合惠农网自身实践,农业行业大模型有三个可以实施的场景:农技服务,市场辅助决策,农业智能生产。大模型以后会改造生产生活相关的各个业务环节。农业相对其他行业,可能会慢一点,但想象空间会非常大。

胡嵩:“小田”可用于种植、养殖、电商、农技服务等从生产到流通全产业链中的信息交互服务场景。种养殖过程的决策都可以用大模型来解决,比如基于行情趋势、品种改进、所在位置等给予生产者品种推荐。目前一亩田新品种新技术发布平台已与中国热带农业科学院、海南农科院、河北农业大学、仲恺农业工程学院等多所高校及科研院所达成合作,进行新品种内容的发布。

笔者试用 “小田”(基于大模型技术的农业AI对话机器人)

三、农业行业大模型与传统AI模型的差异点

许世卫:大模型与传统AI模型有很大差别,大模型系统能够根据需要,自主学习、自主生成结论;传统AI模型是针对特定目标训练,用于完成特定的任务。农科院监测预警中心过去建立了中国农产品监测预警CAMES模型系统,使用了AI方法,有上万个底层模型、千万级参数,基于历史数据可对未来每年的生产量、消费量、贸易量、价格四个要素进行预测分析。未来如果能有上亿参数(非大语言模型),预测效果会更好。

刘桂才:差异点体现在,一方面,以前AI模型主要方式是检索,现在是有生成的信息。另一方面,当传统的AI模型无法支撑复杂数据和计算体量时,需要大模型,例如对猪周期的预测。

申斌:之前AI很专业,普通人很难参与进去。今年ChatGPT火了以后,大家都能参与。农业有特殊性,大模型真正落地难度还是很大。

胡嵩:第一,大语言模型带来的是交互革命。第二,过去的AI一般使用搜索、推荐,很难深度整合知识来源、给到靠谱的答案,之前一直做不到,大模型带来了可能性。例如可以一段话提出某农产品供需方面的需求,通过大模型来寻找和推荐供应商。

四、农业大模型落地关键点、如何解决幻觉问题?

刘桂才:农业大模型训练的数据要准确。大模型并不是需要每个点都给精准建议,而是给出趋势性判断,供决策参考,用户再根据自己的经验来做判断。

谷晓峰:在农业领域,仅仅一个通用大模型很难解决所有的生物问题。农作物、动物、微生物都需要各自建立一个通用大模型。此外,行业大模型应该是分层的,例如,基于农作物的通用大模型,可以针对水稻、小麦、玉米等不同品种研发专用大模型。

申斌:第一,农业对准确性要求很高,农业决策的失误对于经营主体会带来不可承受的结果,比如种养殖建议如果准确性很差、病虫害预测结果出问题,都会带来巨大损失。第二,构建行业通用大模型的难度大,不同作物在不同地区,不能用一个通用模型来解决,每个地方都需要差异化、个性化建模。第三,农业的因果关系非常复杂,决策类场景涉及因素多(包括品种、生产方式、土壤、气候等),构建模型的难度较大。

胡嵩:行业大模型是基于通用大模型之上叠加了专业知识。通用大模型在很多专业领域的专业性都不够,会出现幻觉。一亩田不做底层基座大模型的训练,按照国家大语言模型规范,与云厂商合作,在基座大模型之上做专业领域知识的增强,使其能够理解农业领域的专业术语(例如西瓜有黑美人、京欣二号、甜王五号等各种品种的专业用语)。

周取辉:惠农网不会自研底层大模型,而是选择与头部AI模型团队联合,通过私有化部署大模型的方式,结合行业场景及行业大数据, 沉淀出行业大模型。行业大模型的核心是平台积累的丰富行业数据。结合大模型自然语言处理能力和逻辑思维链能力,提供更加自动化和智能化的场景解决方案。目前LLM本身存在一些局限,比如大模型幻觉问题,对于LLM本身未知的问题,会存在一本正经的“胡说八道”的可能性。对于农业行业来说,向用户反馈的知识准确性尤为重要,因此我们也会有一些针对性的规避措施和解决方案。例如,“AI惠小农”通过RAG(检索增强式生成)思路,大幅提高了农技AI问答结果的丰度和准确性,而农技知识库本身来自以往农技专家在平台的沉淀,AI通过匹配识别问题和多个答案,聚合生成后对用户提问请求进行解答。

笔者试用 “AI惠小农”(基于大模型技术的农技AI助手)

五、农业行业大模型(如智能对话类)对小农户是否存在使用门槛?

许世卫:农民肯定需要农业行业大模型的服务,但目前的大模型尚有一定使用门槛。农业行业大模型要考虑如何更好的满足最终用户需求,例如,是否可以通过带有地方方言的语音来提问?目前种植业绝大多数是小农户;养殖业中小农户占比约为50%-60%,与种植业相比,规模化的养殖大户或企业更多。

刘桂才:类似“小田”的农业大语言模型,对农户没有使用门槛。但农民对企业提供的大模型信任度可能不高,更信任由政府或专业机构提供的。

申斌:大模型相比过去,降低了使用门槛。惠农网在农业电商里面沉淀了十几亿条电商数据,过去输出对象是专业机构,现在通过“AI惠小农”提供了大模型问答方式,能够让不太会互联网的用户使用,解决用户关心的实际问题。

胡嵩:“小田”的目标是做每一位农民身边的农业百事通,目前只要会使用智能手机,会基本的文字输入,都可以和1.0版本的“小田”进行对话,“小田”会通过文字或者小程序卡片给出答案。未来会进一步围绕农业用户需求,去扩展“小田”的交互,即“多模态的形态”。例如,用户可以拍一个照片,录一段视频给“小田”,或者可以直接用语音来问、也可以直接用语音回答,同时未来也会支持用视频来回答,让用户可以更多样化的形式实现知识获取。

六、行业大模型研发和应用中,哪些数据有用?如何破解数据难题?

许世卫:数据是制约大模型的研制和应用的重要因素。数据质量、数据量、数据全息、数据系统性,都对模型有影响。数据质量对模型准确度影响极大。全息类的数据(多维属性数据)价值远大于单维度的数据价值。农业是数据类型最为丰富的领域,涉及自然、气象、土壤等数据以及各类农产品、乡村社会管理等数据。农业的经济效益较低、社会效益很大,在数据收集分析方面,很少有系统化、标准化的方法。农业领域已有一些数据积累,主要是统计类、物联网类、遥感类数据,小体量数据也能一些解决问题。

刘桂才:农业行业的非结构化数据多,真正鲜活的数据很多是非结构化的。鲜活数据很有用,例如物联网搜集的天气和土壤的变化数据。用多模态、多维度数据训练的大模型,判断肯定比单因素模型更准确,之前的AI模型数据很多是单维度的。

谷晓峰:农业生物育种领域,数据资源有很大挑战。一方面,需要采集的多维组学数据量很大,比如针对水稻,需要从种子萌发开始的全生命周期进行数据采样和获取,以及种植在不同生态区条件下的作物品种进行数据获取。另一方面,需要加强数据的标准化,目前缺乏统一的数据标准,这是全球都面临的问题。

申斌:数据方面,由于我国的农业生产方式非常分散,单个经营主体规模不大,数据采集和使用难度相对更大。大模型需要大量的底层数据来支撑,惠农网之前做了多年大数据应用,包括电商类、生产类,有12亿标准化农产品及农业投入品数据沉淀,以及1000多名农技专家的专业知识,在此基础上可以快速叠加大模型技术,输出大模型产品。

胡嵩:企业很难具备所有数据,例如特定品种的种养殖数据,在区域专门做大田作业的数据等。“小田”的未来会是一个行业开放的平台,通过API服务等方式,所有有数据的公司和机构,包括科研院所、农资农机厂商、农技专家等行业伙伴,都可以和“小田”合作,通过模型框架,融合特定的数据、知识,为相关农户提供服务。

七、除了数据,还有哪些因素制约农业行业大模型发展?

许世卫:机制方面,ChatGPT快速引起巨大关注,与做模型的体制机制也有关系。农业上,是建立统一大模型还是分类大模型?从哪个方面入手?如果整体做一个农业大模型来解决农业全产业链的问题,是最理想的,但是谁来做?目前大企业对农业大模型较为关注,每个单位在做自己擅长的。人才方面,是重要因素,如果缺乏相关人才,算法、应用、商业模型都很难创造出来。

刘桂才:有算力的公司更有优势,但算力不构成核心制约。算法是核心竞争力,非常重要。商业模式、资金、人才也会影响。

谷晓峰:算力方面,大模型的百亿、千亿级参数量需要大量的GPU芯片,对于科研机构来说也是挑战之一。

申斌:算力资源方面,农业大模型的计算量和数据量都很大,需要很强的计算资源,农业行业的投入产出不高,直接效益很难覆盖,企业自身投入难度大。

八、农业 大模型方面会产生哪些新的产品/服务形态?

刘桂才:大模型中经常询问的话题,就会变成新的产品、新的服务,是鲜活的开发产品的材料。可以分类型去分析这些话题。这些不仅对农业,对保险、旅游公司等也会产生新的产品服务。语音交互的产品服务会更有需求。率先发布大模型会有好处,基于用户输入的内容,也可以对用户画像,有利于企业占领市场。

申斌:目前产品是免费的。除了智能问答服务之外,农业 大模型技术还有很多想象空间,可能需要10-20年逐步成熟。第一,在养殖和种植业中,未来一定是用更多的传感器、智能农机、无人农机来自动化控制(例如自动控制光照),用大模型技术,可以使得生产过程的自动化控制更加精准和优化,也可以应对劳动力短缺问题。第二,希望将电商、流通环节的数字化,进一步延伸到生产端,使得生产和流通的信息较为匹配,基于大模型技术,可以根据土壤气候、价格变化、供需关系等综合信息,指导种植方案。

胡嵩:“小田”要产生商业闭环,产生价值。目前的商业模式是免费服务2C用户,通过服务好用户,做好交易撮合,来提升用户粘性,帮助用户解决生产周期遇到的问题。2C服务中,对用户更加了解,撮合中效率会更高。面向农业行业的合作伙伴,将提供基于“小田”的API服务等生态化合作和服务模式。

九、是否需要出台支持农业大模型的政策、标准或规划?

许世卫:行业内对农业大模型较为关注,但由于大模型尚在发展中,不同单位认知不一致,大家还在寻找落地案例。从方向上,国家对于大模型提出在规范的基础上促进发展,发展是第一位的,农业行业预计也是政策支持方向。

刘桂才:目前尚无农业大模型方面的政策,随着农业行业大模型产品的逐步推出和使用,后续需要出台,例如隐私保护方面。标准也需要在逐步成熟后制定。

申斌:过去农业互联网、农业大数据,政府都有很多政策扶持力度,都给了很多支持。对于农业行业大模型,政策的响应会有一个过程。特别是在算力资源方面,需要政府能给予公益性算力的支持。

胡嵩:国家对大语言模型政策很及时,一亩田“小田”也会在国家政策的指引下,更好的服务产业。

十、各类企业如何参与开发农业行业大模型产品或服务

许世卫:在算力方面,云厂商有实力,可以与农业领域的研究机构、企业合作参与进来,例如可以合作开发农技服务机器人,或者数字农技服务。

申斌:从我们的角度看,惠农网和云厂商完全互补。云厂商提供基础设施和算力资源,以及基础技术的解决方案;惠农网做应用方面,把行业解决方案用到农业场景。惠农网链接了广大的农业经营主体,通过合作,可以快速把产品服务到农业整个产业。

胡嵩:做行业大模型的基础是数据,保障是算力。“小田”作为行业应用,优势是对行业场景的理解,有大量数据的积累。“小田”融合了一亩田平台所覆盖全国2800多个县的农产品流通大数据和众多农业细分领域的专业知识,平台累计服务了全国5000万涉农用户,他们基于产销两端的供需数据,会形成全面的农产品产地知识图谱,在此基础上,做知识增强是有优势的。目前云厂商都推出了自己的大模型,有些自研、有些基于开源。行业内在基座大模型层面产品已经较为丰富,接下来重点是联合行业企业来合作拓展行业大模型。通用大模型技术的关键在于产业化应用。只有与产业发展相结合,AI才有了灵魂,才能对社会发展产生根本的推动。

0 人点赞