「深呼吸」让大模型表现更佳!谷歌 DeepMind 利用大语言模型生成 Prompt,还是 AI 更懂 AI
谷歌 DeepMind 提出了一个全新的优化框架 OPRO,仅通过自然语言描述就可指导大语言模型逐步改进解决方案,实现各类优化任务。
「深呼吸,一步一步地解决这个问题。」
这句像你在冥想时会听到的话,其实是大语言模型的 Prompt 提示词!
只是多了「深呼吸」的命令,模型在 GSM8K 的得分就从「think step by step」的 71.8 上升至 80.2,成为表现最佳的 Prompt。
「深呼吸」是人类常常用来放松、集中的手段之一。
但令人好奇的的是,为什么对并不能「呼吸」的大模型,「深呼吸」也能提高它的表现?
有网友认为这是大模型在模仿人类,毕竟它可没有肺。
也有网友认为,或许是在人工智能的训练中,使用互联网资源让人工智能意外地负载了人性。
「我们无意中把情感赋予了机器。」
仿佛模型自己也更偏好带有鼓励、正向的 Prompt。
它们理解自然语言的能力为优化提供了一种新的可能性:
我们可以不再使用程序化求解器来定义优化问题和推导更新步骤,而是用自然语言来描述优化问题,然后指示 LLM 根据问题描述和之前找到的解决方案迭代生成新的解决方案。
使用 LLM 进行优化时,只需更改提示中的问题描述,就能快速适应不同的任务,而且还可以通过添加指令来指定所需的解决方案属性,从而定制优化过程。
最近,谷歌 DeepMind 一篇研究介绍了使用 LLM 对自然语言的提示工程进行优化的方法,称为 Optimization by PROmpting(OPRO)。
论文地址:https://arxiv.org/pdf/2309.03409.pdf
OPRO 就是一种将大型语言模型(LLM)用作优化器的简单有效的方法。
OPRO 的步骤如下:
在每一步优化中,使用元提示(meta-prompt)向 LLM 描述优化问题。
元提示包含自然语言任务描述、以往生成的解决方案及其目标函数值。
然后,LLM 根据元提示生成新的解决方案。
最后,计算新解的目标函数值,并加入元提示以进行下一步优化。
重复该过程,直到 LLM 无法再找到更好的解决方案。
研究表明,OPRO 生成的最佳提示在 GSM8K 问题上超过人类设计的提示高达 8%,在 Big-Bench Hard 任务上高达 50%。
LLM 作为数学优化器
「推理」是大语言模型的短处,基于诸多语料训练的这些模型在推理问题上的表现与文本处理相比十分糟糕。
就连最简单的加减乘除,大语言模型也会一本正经地「胡说八道」。
但谷歌 DeepMind 证实了 OPRO 在数学问题中也能优化模型的表现。
研究人员选择了线性回归作为连续优化的例子,旅行商问题(Traveling Salesman Problem, TSP)作为离散优化的示例。
线性回归
实验表明,仅通过提示 LLM 就能在线性回归问题上找到全局最优解。有时可匹敌专门设计的算法,证明了 LLM 作为优化器的潜力。
旅行商问题(Traveling Salesman Problem,TSP)
TSP 实验证明,在小规模问题上 LLM 可通过提示实现类似专业优化算法的效果。
但对于大规模组合优化问题而言,LLM 带来的性能仍需提升。
下图是在 GSM8K 上使用经过指令调整的 PalM 2-I(PaLM 2-L-IT)进行提示优化的元提示例子。
生成的指令将被添加到评分器 LLM 输出中的 A 开头。
蓝色文本包含过去生成的提示和对应的分数,分数高的排在前面。这是一系列指令及其在训练集上的精度。
紫色文本描述了优化任务和输出格式要求,说明了生成指令的位置和作用。
橙色文本是元指令,提供了 LLM 如何进一步解释优化目标和如何使用给定信息。
<INS> 表示将添加生成指令的位置。
提示优化实验
实验将 PaLM 2-L、text-bison、gpt-3.5-turbo、gpt-4 作为优化器和评测模型。
并选择了 GSM8K 和 Big-Bench Hard(BBH)作为评估基准。GSM8K 是一个小学数学问题的基准,有 7473 个训练样本和 1319 个测试样本。
BBH 是一套包含 23 个具有挑战性的 BIG-Bench 任务符号操作和常识推理的基准,每个任务包含多达 250 个示例。
表 4 总结了使用不同 LLM 作为评分器和优化器在 GSM8K 上发现的顶级指令:
不同 LLM 作为优化器时,指令的风格差异很大:PalM 2-L-IT 和 text-bison 的指令简洁明了,而 GPT 的指令则冗长而详细。
虽然有些得分高的指令中包含「step by step」,但大多数其他指令在语义不同的情况下也达到了相当或更高的准确度。
GSM8K 结果
GSM8K 上的优化以预训练的 PalM 2-L 作为评分器,以经过指令调整的 PalM 2-I-IT 作为优化器。
BBH 的电影推荐上的优化以 text-bison 作为评分器,以 PalM 2-I-IT 作为优化器。
下图显示了在预训练的 PalM 2-L 和 PalM 2-I-IT 作为优化器的即时优化曲线:
曲线整体呈上升趋势,并在整个过程中出现了几次跳跃。
接下来,研究人员使用 (a) text-bison 评分器和 PalM 2-L-IT 优化器,以及 (b) 预训练 PaLM 2-L 作为评分器和优化器,在 GSM8K 上进行提示优化。
下图中的优化曲线也呈现出了类似的上升趋势。
BBH 结果
研究人员还在 BBH 数据集上进行了提示优化。与 GSM8K 类似,其优化曲线也基本呈上升趋势。这表示随着优化,生成的提示性能逐步提升。
但优化得到的提示大多数任务上比「Let's think step by step」提示效果好 5% 以上,个别任务提升可达 50% 以上。
与空提示相比,找到的提示在大多数任务上也有 5% 以上的显著提升。
而在一些具体任务如 ruin_names 上,后期生成的提示通过替换关键词子句的方式进行释义改写,从而获得进一步提升。
可以看到,不同优化器找到的提示语义和风格有所不同,但效果相近。
一些任务优化过程中也出现了精度飞跃,对应生成提示的质的飞跃。
提示优化可以持续改进性能,明显超过强基线。但小的语义变化带来的效果提升显示了提示优化的难点之一。
下表比较了不同模型对于同一任务找到的不同提示风格,验证了提示优化可以广泛适用于不同模型,并给出每个任务的最优提示。
总而言之,这项研究首次提出并验证了使用大语言模型进行优化的有效性,为利用 LLM 进行更广泛优化任务提供了框架和经验,是这个新的研究方向的开拓性工作,具有重要意义。
参考资料:https://arxiv.org/pdf/2309.03409.pdf
(ID:AI_era),原文标题:《「深呼吸」让大模型表现更佳!谷歌 DeepMind 利用大语言模型生成 Prompt,还是 AI 更懂 AI》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。