在生物信息学领域,Prompt不再是炼金术。
作者丨陈鹭伊
编辑丨岑峰
自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。
但什么是提示词?在早期的计算机交互中,提示词是指在提示符(如MS Dos的C:>或Python的>>>)左侧,用户输入以激发系统做出响应的指令。而在大模型的语境中,提示词则是一种引导性的语句或问题,它犹如魔法咒语,激发着大语言模型的潜能,引导它们按照我们的指令生成文本、回答问题或执行任务。
在与大语言模型的互动中,提示词就像是一把打开知识宝库的钥匙。它不仅是一座沟通的桥梁,更是挖掘语言模型深层潜力的工具。ChatGPT的创始人Sam Altman将提示词工程(Prompt Engineering)视为一种用自然语言编程的黑科技,认为这是一种能够带来高回报的技能。
能否让ChatGPT或其他大语言模型给出满意的答案,很大程度上取决于你如何巧妙地使用提示词。随着人工智能生成内容(AIGC)时代的到来,提示词的价值和重要性愈发凸显。
然而,Prompt技术的复杂性远超我们的想象。早期的研究者们在探索Prompt技术时,仿佛是在进行一场炼金术式的探索,充满了不确定性和偶然性。他们通过不断尝试不同的提示词,试图找到能够激发大语言模型最佳表现的“魔法咒语”。这种方法虽然在某些情况下能够奏效,但却缺乏系统性和可复制性。
为了让Prompt技术更进一步,它必须经历一场“从炼金术到化学”的系统发展过程。这意味着我们需要将Prompt技术从一种基于经验的技艺,转变为一门基于科学原理的工程学科。这需要对现有的Prompt技术进行深入的分析和总结,建立起一套完整的理论体系和方法论。
例如:不同的提示词是如何影响大语言模型的理解和生成的?在不同的应用场景下,应该以什么样的原则,去设计和优化提示词?近日,相关论文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》,上线期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。
该论文聚焦于大语言模型在生物信息学领域的应用,主要研究了如何利用大型语言模型(如ChatGPT)来挖掘基因关系,并提出了一种迭代提示优化技术来提高预测基因关系的准确性。论文为生物信息学研究者使用ChatGPT改善工作流程、提高工作效率提供了一种新的思路。
借论文上线,密苏里大学哥伦比亚分校计算机系许东教授向AI科技评论分享了人工智能大型模型在生命科学领域的影响,以及他对如何更好地将大型语言模型应用于生物信息学研究的思考。
论文链接:https://gairdao.com/doi/10.1142/S2972335324500054
论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142/S2972335324500054&area=0000000000000001
1、生物信息学:迎接第二次繁荣期
回望上个世纪90年代,那是一个被形象地称为生物信息学研究的“寒武纪”时期。人类基因组计划的启动、全球蛋白质结构预测竞赛的举办,以及生物学信息量的爆炸性增长,加之信息技术的跨时代发展,共同为生物信息学带来了第一次黄金时代,使其成为当时的前沿学科之一。如今,随着人工智能技术的突破,特别是AI大模型在生物信息学中的应用,我们有望迎来生物信息学的第二个繁荣期。
许东教授正是上世纪90年代生物信息学黄金期的亲历者之一。他指出,在生命科学领域,人工智能大型模型的应用已经变得日益广泛,其应用主要集中在以下几个方面:
- 蛋白质模型:通过利用蛋白质序列训练出的大模型,可以进行各种蛋白质预测任务,包括新蛋白质的设计;
- 单细胞模型:单细胞数据量巨大,通常一个单细胞实验就涉及数千到数百万个细胞。基于单细胞转录组数据训练的大模型,能够进行大规模的单细胞数据分析;
- 医学多模态模型:通过整合医学文本(如病历、医生笔记)、图像和其他检查报告等多种数据类型,训练出的大模型,可以用于医学数据分析;
除了上述三个主要领域外,其他如核酸定位、蛋白质与DNA/RNA的相互作用等方面,也有研究者在开发相应的大模型。这些应用场景能够辅助生物信息学家以更快、更精确的方式处理生物信息学问题,从而提升研究效率并降低成本。
然而,尽管AI大模型在生物信息学领域的应用已经取得了一定的进展,但大模型在生物信息学领域的应用目前仍处于早期发展阶段,并存在着许多挑战。首先遇到的一个问题是,AI大模型需要大量高质量的生物信息学数据,但这些数据的质量和完整性可能存在问题;同时目前AI大模型的解释性和可解释性可能存在问题,“幻觉”的存在严重影响着研究的可靠性。
如何解决上述问题,让AI大模型在生物信息学研究中发挥更大作用?许东告诉AI科技评论,Prompt技术为生物信息学领域提供了一种灵活且易于实施的方法,尤其在数据资源有限的情况下,Prompt技术仍可能成为主流方法之一。
2、用提示学习提升AI模型的精准度
在机器学习领域,将Prompt从“基于经验”转变为“基于科学原理”的做法被称为“提示学习”。聊天机器人之所以在很大程度上依赖于提示,是因为ChatGPT的预训练模型中存在大量知识,为了更好地利用这些知识和能力,OpenAI采用了基于人类反馈强化学习(RLHF)方法,通过人类输入来“比对”语言从而达到人机交互的目的。因此,必须仔细设计聊天机器人的提示,以获得有价值、准确和稳健的响应。
提示学习的核心在于将用户输入的文本转化为特定的提示(prompt)格式。这一过程通常包括两种模式:第一种是自编码模式,采用文本中间占位符的自然语言模板,让大模型在指定占位符让生成答案文本。第二种是自回归模式,给大模型提供问题与背景信息,让大模型自由发挥生成答案文本。这些方法实质上是为预训练语言模型设计任务,包括输入模板、标签样式以及模型输出与标签的对应关系。
论文的研究正是在此基础上,将自回归模式的提示学习用于复杂的生物信息学场景中,并利用迭代提示优化、思维链等技术,通过与ChatGPT的交互,逐步优化提示,以提高预测基因关系的准确性。
(利用 GPT 模型进行基因关系挖掘的迭代提示细化框架。该方法利用 GPT-4 的高级逻辑能力来自主改进提示,并利用 GPT-3.5 的低成本和高速进行初始基于事实的查询处理。)
这项工作的关键点之一是元提示设计(Meta-Prompt Design):元提示为对话机器人设定角色,提示来指导GPT-4进行提示优化,增强回答的专业性。元提示包含具体指令,如改变角色、省略细节等,以提高提示的有效性。
另一关键点则是迭代优化技术的引入,利用GPT-4的能力进行迭代提示优化。首先使用GPT-3.5生成基因关系提示,然后评估这些提示的效果(如F-1分数、精确度和召回率);将预测结果与实际数据(如KEGG数据库)进行比较,识别错误和不足,然后将这些反馈信息用于进一步优化提示;最后将优化后的模型应用于KEGG Pathway Database进行基准测试,以验证其在解析复杂基因关系和疾病相关途径方面的有效性。
此外,论文还引入了思维链(Chain-of-Thought)和思维树(Tree-of-Thought)策略,引导ChatGPT进行更深入的逻辑推理,提高答案的准确性和深度;同时将复杂问题分解为更易于管理的子问题序列,逐步引导ChatGPT构建更完整的答案,这种方法特别适用于复杂的基因关系网络构建。
实验结果表明,通过迭代提示优化技术,ChatGPT在预测基因关系方面的准确性显著提高。特别是在复杂基因关系和疾病相关途径的解析中,展示了其潜力和有效性。
3、生物信息学研究的新动力
“Prompt技术在生物信息学领域具有显著的优势。”许东告诉AI科技评论,首先,Prompt技术的数据需求低,不需要大量的数据即可进行训练,因此在小数据集上表现出色。这对于生物信息学领域尤为重要,因为许多生物医学数据集规模有限;其次,由于是在大型预训练模型的基础上进行操作,Prompt技术易于实施和应用;最后,生物信息学中许多问题本质上是小数据问题,Prompt技术因此具有广泛的应用前景和场景。
在解释迭代提示优化技术如何有效解决大型语言模型中的“幻觉”问题时,许东认为,不仅仅是大型语言模型,人类自身在某些情况下也会出现类似的“幻觉”现象。例如,人们可能会错误地回忆某些事件的细节,这并非有意误导,而是记忆出现了偏差。
大型语言模型的“幻觉”原因大致可分为三类:1)误解用户问题;2)训练数据的混淆导致生成回答时出现混淆;3)缺乏反思能力,未能有效识别和纠正自身的错误。而迭代提示优化技术正是针对这三类原因对症下药,通过迭代优化,模型能够更准确地理解用户的问题和提示,减少误解;同时增强知识概括,有助于模型更好地概括和区分训练数据中的知识,避免信息混淆;最后,迭代优化使模型具备更强的、类似于人类的思考过程自我反思能力,能够识别并改进生成的回答。
与传统方法相比,迭代提示优化技术通过模拟人类的学习和思考过程,使模型在处理复杂问题时更为高效和协调。这种方法比传统的基于规则的系统更具灵活性和适应性,能够处理更广泛的任务和数据类型。因此,通过这种方法,大型语言模型在生成回答时的准确性和可靠性得到了显著提升,减少了“幻觉”现象的发生,从而在生物信息学等领域展现出更大的应用潜力。
许东同时还表示,尽管Prompt技术的应用前景广阔,但其自身也存在一定的局限性,如高度依赖于训练数据的质量和代表性、泛化能力受限等,同时在论文中许东也提到,模型的性能波动和对训练数据的敏感性表明需要进一步的优化和迭代策略。未来的工作可能包括模型定制、更先进的迭代提示算法开发以及在更广泛的研究问题中评估方法的有效性。
“虽然并非所有问题都适合这种方法,但可能相当比例的问题,可能通过大模型和Prompt技术得到更准确的解决方案。”谈及Prompt技术在生物信息学领域的未来潜力,许东充满信心。“大模型在很多领域还有着很大的优化空间,例如现在缺乏专门的生物信息学的大模型,而随着大模型的发展,Prompt技术将在这些模型上发挥更大的作用。”