缓解大语言模型(LLM)幻觉的可行方法探究(课程综述)

缓解大语言模型(LLM)幻觉的可行方法探究

转载请标明出处,🈲抄袭

摘要:2022年11月OpenAI推出能够进行多场景对话的大语言模型ChatGPT,ChatGPT凭借大规模的训练参数、海量的训练数据及强化学习人类反馈在语义理解、语言生成、机器翻译、知识科普、程序编辑等多个方面获得了巨大成功,引发了新的技术浪潮。但由于模型训练数据缺乏时效性、领域知识不足,以及训练架构存在缺陷、复杂推理能力不足等问题导致大语言模型回复生成存在“幻觉”,经常产生事实不一致的回复或进行事实捏造。上述问题致使大语言模型在对于准确性要求较高的垂直领域应用困难,如农业、医疗等。随着对大规模语言模型的深入研究和探讨,如何缓解大语言模型“幻觉”问题逐渐成为众多研究者的热议课题。从大语言模型幻觉产生原因出发,目前缓解其生成“幻觉”、提高回复准确性的可行方法主要有高质量数据集构建、思维链推理、检索增强、知识约束、模型编辑、解码优化等。本文首先概述了大语言模型的训练过程、“幻觉”产生原因,进而对现有的缓解大语言模型幻觉的可行方法进行总结和分析,最后提出了自己对缓解大语言模型幻觉可行方法的思考。
关键词:大语言模型幻觉;思维链;检索增强;知识约束

1.引言

1.1 ChatGPT训练架构及训练过程概述

ChatGPT[1]为基于GPT(Generative Pre-trained Transformer,GPT)[2]架构的的通用型对话语言模型,GPT是一个基于Transformer[3]解码器结构的深度学习模型,由多个相同的Transformer块组成,其中每个Transformer块包括多头自注意力层和前馈神经网络层。通过自注意力机制,模型能够在生成每个单词时关注输入文本的不同部分,这有助于捕捉长距离依赖关系。同时每个Transformer块之间都有残差连接和层归一化,用于保持信息流的顺畅和避免梯度消失。GPT的提出动机为利用自然语言大量未标记的文本语料及少量的任务标注数据训练一个在特定任务表现良好的语言模型,因此GPT主要包括在大规模语料下的无监督预训练和基于下游任务标注数据的有监督微调两部分。在微调期间GPT能够利用任务感知的输入转换实现有效迁移,只需对模型体系结构进行少量更改就可实现快速任务自适应。

ChatGPT与GPT1、GPT2、GPT3的本质区别在于在有监督微调过程中使用了强化学习人类反馈(Reinforment Learning from Human Feedback,RLHF)[4],如图1所示。具体地,ChatGPT通过人工标注对回复进行评分,利用评分结果训练奖励模型(Reward Model),并基于奖励模型使用强化学习算法PPO(Proximal Policy Optimization,PPO)[5]微调模型,使其回复生成与人类对其,以此提高回复的帮助性、忠实性,降低其有害性。
InstructGPT有监督微调过程
图1 InstructGPT有监督微调过程

ChatGPT的成功引发了自然语言处理领域新的技术浪潮,但其模型参数、训练数据规模较大、代码架构不开源,复现困难,因而许多研究者基于Transformer架构及上述微调过程开发了较小规模的大语言模型(Large Language Model,LLM),如Bloomz[6]、LLaMa[7]、BaiChuan[8]、ChatGLM[9]等。

1.2 ChatGPT“幻觉”产生原因

ChatGPT虽然在语义理解、语言生成方面展现了惊人的能力,但仍存在一本正经胡说八道的情况,即“幻觉”。图2展示了大语言模型“幻觉”的示例,用户询问ChatGPT的训练架构及训练过程,ChatGPT在回复过程中提出其使用Transformer解码器结构(实际为Transformer解码器结构)。
在这里插入图片描述
图2 大语言模型“幻觉”示例

Huang等[10]根据大语言模型的回复场景将幻觉分类“事实性幻觉”与“忠实性幻觉”两类。前者指模型生成的内容与可验证的现实世界事实不一致,具体可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。后者指模型生成的内容与用户的指令或上下文不一致,包括指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。

大语言模型之所以存在“幻觉”问题,与其训练过程有很大关系。Huang等[10]将其归结为三类:

(1)训练数据。大语言模型的训练依赖海量数据,但数据中很容易包含错误信息和偏见,且数据往往存在滞后性,导致部分大语言模型回复偏差、时效性不强。同时大语言模型本身存在知识边界,即对事实性知识利用率低下,其在训练过程中可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。

(2)架构及策略缺陷、信念错位。语言生成模型会基于之前的token对下一个token进行预测,这种单向建模不仅阻碍了模型捕获复杂的上下文关系的能力还可能造成级联错误,同时自注意力模块存随着token长度增加,不同位置的注意力被稀释。此外,ChatGPT利用RLHF进行微调,在输出符合人类偏好回复的同时可能会牺牲信息的真实性,如图3所示。

(3)推理。从笔者角度来看大语言模型的推理缺陷包括一部分,一部分是不完美的编码策略,大语言模型在预测下一个token时一般采用贪心策略(即输出概率值最大的token),使模型表达能力受限;另一部分是大语言模型缺乏复杂推理的能力,在数值分析、多步推理(如医疗领域的对话诊断)等方面缺少连贯性、合理性。
在这里插入图片描述
在这里插入图片描述

图3 由于“迎合”人类造成的幻觉

从大语言模型“幻觉”产生的各个原因出发,不同研究者展开了相应的工作以提高LLM回复生成的精读和准确性,加快其在各个领域的落地应用,本文将对部分缓解LLM“幻觉”的工作进行介绍和分析。

2.构建高质量对话数据集

专业的、高质量、时效性的训练数据集能够在一定程度上提高LLM在不同领域的表现,具体表现为:

(1)更好的泛化能力。使用高质量的训练数据可以使LLM学到更准确、更广泛的语言模式,从而提高其在各种任务上的泛化能力。

(2)更准确的语义理解。专业的数据集通常包含更多领域专业性的语言,使模型更好地理解特定领域的语义。这对于特定领域的任务(例如医学、法律等)非常重要,如香港中文大学利用2600万条医疗领域对话数据集微调BaiChuan,提出医疗健康问答LLM,在医疗问题表现上超过ChatGPT[11]。

(3)提高模型对多样性的理解。时效性的数据集有助于模型跟踪社会和技术变化,从而更好地理解和处理新的语言表达方式、新的词汇和短期趋势。

(4)减少偏见。使用高质量数据集可以减少模型学到的偏见,因为这样的数据集更倾向于提供更全面和平衡的信息。这对于构建公平和可靠的模型非常重要。

(5)更好的上下文理解。专业数据集通常包含更多上下文信息,有助于模型更好地理解和生成连贯的语言。
在这里插入图片描述

图4 HuatuoGPT

高质量的训练数据集一般需要领域专家标注,成本高昂。因此为了降低成本的同时提高模型能力,West等[12],Li等[13]分别使用符号知识蒸馏(Symbolic Knowledge Distill)将大语言模型的能力迁移到开源的、可微调的小规模LLM上,即通过大规模LLM利用提示工程(Prompt Learning)构造数据集,并基于该数据集微调小规模LLM。
在这里插入图片描述
图5 大语言模型知识蒸馏

除此之外,很多学者认为ChatGPT之所以能获得如此惊人的表现力很大原因归根于RLHF的使用,但由于硬件资源、人力资源的限制,很难在短时间内实现模型训练,因而Yuan等[14]提出了RRHF(Rank Responses to align Human Feedback),利用专家或者性能优秀的大语言模型(如ChatGPT)对模型生成的回复进行评估,并基于Rank Loss实现模型参数更新,如图6所示。相似的,Lee等[15]提出RLAIF(Reinforment Learning from Artificial Intelligence Feedback),通过AI模型监督其他AI模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,并根据修正后的反应微调原始模型。在RL阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个AI偏好数据集训练一个偏好模型,如图7所示。
在这里插入图片描述
图6 RRHF
在这里插入图片描述
图7 RLAIF

分析与思考:如果说之前的人工智能是“有多少人工就有多少智能”,那现在的人工智能就是“有多少数据就有多少智能”。虽然高质量的、专业的数据标注能够使LLM从一个通用的语言模型转变为专业领域对话模型,但由于模型架构、编码策略以及对知识的运用等缺陷,致使其仍然存在幻觉问题。此外,符号知识蒸馏、RRHF、RLAIF虽然降低了模型训练成本,但也伴随着一个致命的问题——训练得到的模型以ChatGPT为上限且很难超越ChatGPT。

3.利用思维链提高大语言模型复杂推理能力

基于思维链(Chain of Thought,COT)的推理被视为大语言模型涌现能力的重要标志[16],其本质是将复杂问题分解为小问题,可以通过提供少样本[17]或零样本[18]思维链示例来鼓励模型执行推理,激励模型“Think Step by Step”,给出从问题到答案的一步步思考步骤,如图8所示。思维链通过显示给出问题的推理过程能够清晰明了的验证答案的正确性并在答案出现错误时进行纠错,而且利用“Think Step by Step”不仅可以激发LLM对于其参数中隐含知识的应用,而且能够促使LLM将复杂的问题分解为待解决的小问题,并使其在一步步解决小问题的过程中完成复杂问题的总体推理。

COT通过提示工程可以使模型给出问题解决步骤,更新了直接由问题答案的生成范式,能在一定程度上约束和检测LLM的生成幻觉。
在这里插入图片描述
在这里插入图片描述
图8 Few-Shot COT & Zero-Shot COT

COT在复杂推理任务上表现的优越性能吸引了一大批研究者,目前思维链的发展主要经过了COT、Self-Consistency COT[19]、TOT(Tree of Thought)[20]、GOT(Graph of Thought)[21]。COT为简单的<问题,推理步骤及回复>的链式推理结构;Self-Consistency COT为多条<问题,推理步骤及回复>的链式推理结构并通过最终的投票机制选择最合理的推理步骤;TOT为树状推理结构,其模拟了人类认知的规划和决策模式(一种快速、自动、无意识的模式和一种缓慢、深思熟虑的意识模式;第二种可以探索更多的选择,且能对当前状态进行评估,同时主动展望未来/回溯以得到更加全局的决策,TOT为后者),ToT积极地维护一个思想树,其中每个思想节点都是一个连贯的语言序列,作为解决问题的中间步骤,通过对思维树的遍历寻找最终的解决方案;GOT为图形推理结构,允许对问题进行分解和合并。无论是链式、树状还是图形推理结构均能够通过对问题的规划和决策找到合理的解决方案,并对不合理的方案进行排除,因而能够提升回复的准确性、减少幻觉。
在这里插入图片描述
图9 COT系列

在这里插入图片描述
图10 MindMap

分析与思考:大模型幻觉的生成很大程度上来源于对内在知识理解和运用的不足,而COT恰恰可以将问题分解为规模较小的子问题,通过一步步解决子问题提高LLM对知识的理解和运用(需要注意的是COT仅仅通过Prompt激发模型内在潜能,并没有引入新的数据或对模型进行微调)。但上述COT仍停留在数值任务规划和决策方面,难以直接迁移到现实应用中,且在解决问题过程中缺乏对中间过程的“自解释”,若能过在回复过程中给出每个步骤的解释将大大提升LLM应用的置信度,如在对话问诊过程中给出每一步询问症状的原因以及最终诊断结果的原因。虽然有上述问题,但COT的规划和决策给LLM解决现实问题提供了一条可行的现时途径,目前已有初步研究,如MindMap[22]。

4.基于检索增强的大语言模型

检索增强(Retrieval-Augmented Generation,RAG)[23]是一种结合生成模型和检索模型的方法,在这种方法中,生成模型与一个检索模型协同工作,检索模型负责从大量的候选文本中选择相关信息,而生成模型则负责生成输出。因而基于检索增强的大语言模型包括两个阶段:检索阶段及生成阶段。检索阶段使用检索模型从候选文本库中检索与问题相关的信息。可以基于文档相似度、关键词匹配等方法选择与任务相关的文本片段。生成阶段将检索到的证据与生成模型结合,生成最终的输出。

检索增强在缓解大模型幻觉任务中发挥着至关重要的作用。通过检索增强不仅能够提高信息准确性、解决生成模型偏向性问题,还能提高多模态任务性能、更好地处理稀缺任务,进而提高系统的可控性,具体如下:

(1)提高信息准确性。通过引入检索模型,生成模型可以更容易地访问和利用大量的外部信息,这种信息不仅包含事实性证据还包含时效性信息,从而提高生成的文本的信息准确性和时效性。

(2)解决生成模型偏向性问题。生成模型在生成文本时可能受到预训练数据的偏向性影响,而通过检索阶段引入的外部信息可以有助于缓解这种偏向性问题。

(3)提高多模态任务性能。对于一些需要同时处理文本和其他模态数据(如图像、知识库等)的任务,检索增强可以使生成模型更好地结合多模态信息。

(4)更好地处理稀缺任务。在一些特定领域或任务中,训练数据可能相对较少。检索增强可以帮助模型利用外部信息,弥补数据不足的问题。

检索增强允许在生成阶段引入外部信息,使得系统更容易受控制,可以满足特定的任务要求或限制,能够在各种自然语言处理任务中提高模型的性能和鲁棒性。基于检索增强的大语言模型可以从不同角度进行分类,根据检索的内容来源可以将检索增强的大语言模型分为基于知识库的检索增强与基于网页的检索增强(如WebCPM[24]、WebGLM[25]),但其本质都是通过对知识的检索,得到进行回复生成的相关证据;根据检索的形式可以将检索增强的大语言模型分为一次检索、迭代检索和事后检索[10]。
在这里插入图片描述
图11 检索增强不同形式

如图11所示,一次检索为根据问题去知识库中检索一次证据后给出生成回复;迭代检索为进行多步检索后给出最终回复,适用于多步问答或将问题分解,每次对一个问题进行检索,如IRCOT[26];事后检索为LLM生成回复后对知识库进行检索,根据检索证据对回复进行验证以作出修改或输出。
在这里插入图片描述
在这里插入图片描述
图12 WebGLM & WebCPM

一般来说,传统的RAG遵循共同的范式:query+context→LLM,query表示用户的输入,context表示检索获得的补充信息,两者共同输入到LLM中实现回复生成,该范式可认为是一种检索前置的被动的增强方式。上述传统的检索增强虽然能够为LLM提供回复生成的证据,提高回复的准确性和有效性,但是传统的基于检索增强的LLM并没有判断当前问题是否需要检索(如用户提问“你可以做一首春天的诗吗?”,这种种情况下是不需要检索的)且没有对于检索到的结果进行筛选,检索到的证据可能存在一定的错误或者与当前问题相关性不强。因而Asai等[27]推动了RAG向Self-RAG的转变,Self-RAG与RAG相比会对当前情况是否需要检索进行判断,并对检索到的证据进行评估,选择最合理的检索信息辅助回复生成,如图13所示。Self-RAG的主要步骤如下:

(1)判断是否需要额外检索事实性信息(retrieve on demand),仅当有需要时才召回;

(2)平行处理每个片段:生产prompt+一个片段的生成结果;

(3)使用反思字段,检查输出是否相关,选择最符合需要的片段;

(4)重复检索;

(5)生成结果会引用相关片段,以及输出结果是否符合该片段,便于查证事实。

在这里插入图片描述
图13 Self-RAG

Self-RAG的关键在于按需检索和自反思,其与RAG的不同在于前者相较于后者更加主动和智能。除此之外,在RAG的基础上,目前还有一些工作会对LLM的回复进行引文标注[28],即对检索到的证据在生成的回复中进行标明,如图14所示。引文标注一方面可以提高证据检索的利用,避免无用的证据检索,另一方面也提升了回复生成的置信度,可以在一定程度上通过检索证据约束缓解LLM的“幻觉”。
在这里插入图片描述
图14 引文标注

分析与思考:无论是RAG、Self-RAG还是引文标注无一不是利用外部知识增加对LLM回复生成的证据支持,能够通过prompt的方式增加回复中的事实性证据,缓解回复中的“幻觉”。但在利用检索增强的过程中也存在一定的问题:(1)计算成本高,在进行检索时需要讲证据与问题进行相似度计算,在知识库庞杂时计算过程是十分昂贵的,因而对检索的必要性进行判断及优化检索算法是十分必要的;(2)信息准确性,基于RAG的LLM回复生成的准确性十分依赖证据的有效性,如果证据质量低下将使生成效果大打折扣,同时对于检索到的结果不能全部利用,因而如何检索有力证据提高证据利用是十分关键的。

5.基于知识约束的大语言模型

无论是构建高质量的数据集,还是COT提升复杂推理能力,以及检索增强无一不是利用可行技术提高LLM对于其内在隐含知识或外部显示知识的利用。知识对于不同领域而言都是应用的基础,使用知识约束可以提高模型的可控性和准确性,增加模型的可解释性和领域适应性。本文小节2-4虽然都涉及了知识的应用,但大多是以“知识外挂”的形式实现的,并没有将知识注入到模型的训练过程中,本节将对使用知识控制LLM训练过程的部分方法进行介绍。
在这里插入图片描述
图15 利用Focus Learning增加知识权重

在自然语言处理任务中使用广泛的知识类型包括两大类:文本知识和知识图谱(Knowledge Graph,KG)。图15展示了一个基于知识的对话系统的模型架构,与其他使用知识约束保持回复生成和知识之间的协调一致方法不同,Deng等[29]提出使用Focus Learning(FocusL),通过直接缩放相应的目标损失来调整每个token对优化方向的贡献。其关注重点主要有两个:(1)如何定位所需的学习重点,即如何定位与知识相关的tokens;(2)给定所需的学习焦点,如何纠正原来的学习焦点,即定位到与知识相关的token位置后,如何增加其对模型学习训练的影响。针对以上挑战,Deng等首先提出了一种定位方法,利用知识和每个响应token之间的相关性分布来定位knowledge-aware tokens。而后设计了一个relevance-to-weight transformation修改LLM生成的token概率,以提供动态的token级权重,用于调整交叉熵损失。最后,利用加权损失来鼓励该模型特别关注知识的利用。
在这里插入图片描述
图16 基于知识图谱约束的回复生成

与基于文本知识的约束不同,使用知识图谱约束的回复生成由于结构化知识图谱与文本回复的知识结构不同,如何进行知识融合一直是该方向的重点。Agarwal等[30]通过将检索的知识图谱路径转化为文本实现知识融合,虽然在一定程度上可以提升模型的表现,但在融合过程中损失了KG蕴含的结构信息。此外Hu等[31]、GreaseLM[32]通过图神经网络将KG进行嵌入,并将嵌入向量与文本向量进行拼接实现知识融合。而且Hu等在选择节点和路径时采用重启随机游走(Random Walk with Restart,RWR)计算节点对于问题中核心词的权重,相当于利用KG的拓扑结构信息对KG中不重要的信息进行了筛选,更关注KG中与当前问题相关的表示。除此之外也有一些较为传统的KG知识增强的研究,如KagNet[33]、QA-GNN[34],前者会计算KG节点与问题的相似度,后者会对KG中的路径进行打分以寻找对于问题关键的信息。
无论是使用文本知识还是知识图谱实现对LLM的知识增强,其本质都是利用知识约束LLM的输出,减少幻觉和危害,提高回复的质量和有效性,是一个十分有益且前景光明的研究。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图17 KagNet & QA-GNN & GreaseLM

分析与思考:笔者认为知识是学习和思考的基础,因而为缓解LLM的“幻觉”引入知识是十分必要且不可或缺的,但就知识的利用角度而言,目前所采用的方法还较为基础,尤其是对于知识图谱的利用仍有很大的空白。知识图谱由于其结构化,天然具有一定的推理性,而且节点之间的结构关系也在一定程度上定义了节点的“远近亲疏”,可以同FocusL一样用于生成tokens的权重修改。

6.总结与展望

大语言模型一经推出便凭借其惊人的语义理解和语言生成能力收获了大批用户,经过近一年多的发展更是展现出了蓬勃的生命力,然而由于训练数据的“过时”、训练架构和解码策略的缺陷、推理能力的欠缺,大语言模型在回复生成中仍存在“幻觉”。为了缓解大语言模型的幻觉问题,推进其在不同领域的落地应用,众多学者从“幻觉”产生原因出发,站在不同角度提出了缓解大语言模型“幻觉”的可行之法,包括但不限于构建高质量数据集、通过思维链提示激发大语言模型的隐含知识、构建知识库进行检索增强、显式利用知识进行生成约束、知识编辑、解码策略优化等。本文主要对上述前四个方面进行了概述和分析,从方法本质角度而言,以上方法无一不是利用知识增加对模型生成的约束,但从知识利用角度来看,当前的方法还有很大改进空间。如第5节提到的知识约束其实大多都是通过知识融合实现的,并没有真正利用知识约束模型解码、token概率选择,此外结构化的知识利用明显不足,如基于知识图谱的推理等。“不积跬步无以至千里”,希望未来更多研究者从不同角度汲取经验,提出更多可行的解决方案。

参考文献

[1]Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[2]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.
[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[4]Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[5]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.
[6]Muennighoff N, Wang T, Sutawika L, et al. Crosslingual generalization through multitask finetuning[J]. arXiv preprint arXiv:2211.01786, 2022.
[7]Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.
[8]Yang A, Xiao B, Wang B, et al. Baichuan 2: Open large-scale language models[J]. arXiv preprint arXiv:2309.10305, 2023.
[9]Du Z, Qian Y, Liu X, et al. Glm: General language model pretraining with autoregressive blank infilling[J]. arXiv preprint arXiv:2103.10360, 2021.
[10]Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. arXiv preprint arXiv:2311.05232, 2023.
[11]Zhang H, Chen J, Jiang F, et al. HuatuoGPT, towards Taming Language Model to Be a Doctor[J]. arXiv preprint arXiv:2305.15075, 2023.
[12]West P, Bhagavatula C, Hessel J, et al. Symbolic knowledge distillation: from general language models to commonsense models[J]. arXiv preprint arXiv:2110.07178, 2021.
[13]Li L H, Hessel J, Yu Y, et al. Symbolic Chain-of-Thought Distillation: Small Models Can Also" Think" Step-by-Step[J]. arXiv preprint arXiv:2306.14050, 2023.
[14]Yuan Z, Yuan H, Tan C, et al. Rrhf: Rank responses to align language models with human feedback without tears[J]. arXiv preprint arXiv:2304.05302, 2023.
[15]Lee H, Phatale S, Mansoor H, et al. Rlaif: Scaling reinforcement learning from human feedback with ai feedback[J]. arXiv preprint arXiv:2309.00267, 2023.
[16]Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint arXiv:2210.11610, 2022.
[17]Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.
[18]Kojima T, Gu S S, Reid M, et al. Large language models are zero-shot reasoners[J]. Advances in neural information processing systems, 2022, 35: 22199-22213.
[19]Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint arXiv:2203.11171, 2022.
[20]Yao S, Yu D, Zhao J, et al. Tree of thoughts: Deliberate problem solving with large language models[J]. arXiv preprint arXiv:2305.10601, 2023.
[21]Besta M, Blach N, Kubicek A, et al. Graph of thoughts: Solving elaborate problems with large language models[J]. arXiv preprint arXiv:2308.09687, 2023.
[22]Wen Y, Wang Z, Sun J. Mindmap: Knowledge graph prompting sparks graph of thoughts in large language models[J]. arXiv preprint arXiv:2308.09729, 2023.
[23]Lewis P, Perez E, Piktus A, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks[J]. Advances in Neural Information Processing Systems, 2020, 33: 9459-9474.
[24]Qin Y, Cai Z, Jin D, et al. WebCPM: Interactive Web Search for Chinese Long-form Question Answering[J]. arXiv preprint arXiv:2305.06849, 2023.
[25]Liu X, Lai H, Yu H, et al. WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences[J]. arXiv preprint arXiv:2306.07906, 2023.
[26]Trivedi H, Balasubramanian N, Khot T, et al. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions[J]. arXiv preprint arXiv:2212.10509, 2022.
[27]Asai A, Wu Z, Wang Y, et al. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection[J]. arXiv preprint arXiv:2310.11511, 2023.
[28]Gao T, Yen H, Yu J, et al. Enabling Large Language Models to Generate Text with Citations[J]. arXiv preprint arXiv:2305.14627, 2023.
[29]Deng Y, Zhang X, Huang H Y, et al. Towards faithful dialogues via focus learning[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023: 4554-4566.
[30]Agarwal O, Ge H, Shakeri S, et al. Knowledge graph based synthetic corpus generation for knowledge-enhanced language model pre-training[J]. arXiv preprint arXiv:2010.12688, 2020.
[31]Hu Z, Xu Y, Yu W, et al. Empowering language models with knowledge graph reasoning for open-domain question answering[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 9562-9581.
[32]Lin B Y, Chen X, Chen J, et al. Kagnet: Knowledge-aware graph networks for commonsense reasoning[J]. arXiv preprint arXiv:1909.02151, 2019.
[33]Yasunaga M, Ren H, Bosselut A, et al. QA-GNN: Reasoning with language models and knowledge graphs for question answering[J]. arXiv preprint arXiv:2104.06378, 2021.
[34]Zhang X, Bosselut A, Yasunaga M, et al. Greaselm: Graph reasoning enhanced language models for question answering[J]. arXiv preprint arXiv:2201.08860, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/316976.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

亚马逊新店成长手册:从起步到壮大,每一步都有策略(测评)

在亚马逊的浩瀚海洋中&#xff0c;每天都有无数商家乘风破浪&#xff0c;争先恐后地开设自己的新店铺。如何在波涛汹涌的市场中独树一帜&#xff0c;成功地将产品送达顾客手中&#xff1f;接下来将为你揭晓这个秘密。首先&#xff0c;要确定产品方向。这需要深入了解你的目标受…

高级分布式系统-第7讲 分布式系统的时钟同步

顺序的分类 在分布式系统中&#xff0c; 顺序关系主要分为以下三类&#xff1a;时间顺序&#xff1a; 事件在时间轴上发生的先后关系。 无限时刻集组成有向时间轴&#xff0c; 时间顺序是通过时刻的顺序体现的。 因果顺序&#xff1a; 如果事件e1是事件e2发生的原因&#xf…

抖店怎么做的?开店带货流程+运营基础问题解答,感兴趣可收藏!

我是王路飞。 抖店具体是怎么做的呢&#xff1f; 像有些人在抖音既没有粉丝基础、也没有拍短视频和开直播的能力&#xff0c;适合做抖店吗&#xff1f; 先说明&#xff0c;抖店可以0粉丝开通&#xff0c;店铺运营和出单也跟这些没关系&#xff0c;所以你们可以放心去做。 这…

Web前端-移动web开发_流式布局

文章目录 移动web开发流式布局1.0 移动端基础1.1浏览器现状1.2 手机屏幕的现状1.3常见移动端屏幕尺寸1.4移动端调试方法 2.0 视口2.1 布局视口 layout viewport2.2视觉视口 visual viewport2.3理想视口 ideal viewport&#xff08;苹果&#xff09;2.4meta标签 3.0 物理像素(手…

Linux高性能服务器编程——学习笔记①

第一章、tcp/ip协议族 一、tcp/ip协议族1.1 主要的协议1.1.1 数据链路层1.1.2 网络层1.1.3 传输层1.1.4 应用层 1.2 封装1.3 分用1.4 测试网络1.5 ARP协议工作原理1.5.1 以太网ARP请求/应答报文详解1.5.2 ARP高速缓存的查看和修改1.5.3 使用tcpdump观察ARP通信过程 1.6 DNS工作…

LTD259次升级 | 新增发票管理 • 官网与名片线索管理多维度 • 公海线索客户轨迹更周全

1、 商城会员中心新增申请发票&#xff1b; 2、 商城管理新增发票审核与开票管理功能&#xff1b; 3、 官网客户、名片客户、线索公海新增筛选、跟进、分配功能&#xff1b; 4、 其他已知问题修复与优化&#xff1b; 01 商城 在本次升级中&#xff0c;我们为商城新增了发票管理…

无需任何三方库,在 Next.js 项目在线预览 PDF 文件

前言&#xff1a; 之前在使用Vue和其它框架的时候&#xff0c;预览 PDF 都是使用的 PDFObject 这个库&#xff0c;步骤是&#xff1a;下载依赖&#xff0c;然后手动封装一个 PDF 预览组件&#xff0c;这个组件接收本地或在线的pdf地址&#xff0c;然后在页面中使用组件的车时候…

筛选数据-第15届蓝桥第三次STEMA测评Scratch真题精选

[导读]&#xff1a;超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成&#xff0c;后续会不定期解读蓝桥杯真题&#xff0c;这是Scratch蓝桥杯真题解析第164讲。 第15届蓝桥杯第3次STEMA测评已于2023年12月17日落下帷幕&#xff0c;编程题一共有6题&#xff0c;分别如下&…

Java判断字符串当中是否有中文符号(不是中文名称,是符号)

public static void main(String[] args) throws ParseException, IOException, URISyntaxException {// 测试示例String testString1 "Hello,test&#xff01;";String testString2 "This is a test.";boolean result1 containsChineseSymbols(testStr…

别再为创业失败找借口了!否则你永远无法创业成功!2024适合上班族的创业,2024个人创业做什么

每当聊起创业&#xff0c;很多人嘴上都很积极&#xff0c;行动都很低迷&#xff0c;事后就开始找各种理由开始否定创业这个路&#xff0c;要么就是大环境不好&#xff0c;要么就是行业太差&#xff0c;还有就是竞争太多&#xff0c;反正不会是自己的能力太差。 其实创业没有你想…

Redis中的Java客户端

一、Jedis Jedis是一个Java实现的Redis客户端连接工具。 Jedis使用非常简单&#xff0c;直接引入依赖。基于默认参数的Jedis连接池&#xff0c;初始化连接池类&#xff08;使用默认连接池参数&#xff09;JedisPool&#xff0c;获取一个Jedis连接Jedis jedisjp.getResource()…

从 PDF 删除PDF 页面的 10 大工具

PDF 文件是全世界几乎每个人最常用的页面之一。借助 PDF 文件&#xff0c;您可以通过任何在线或离线媒体轻松共享信息。但是&#xff0c;如果您想编辑这些 PDF 文件&#xff0c;那么这个过程就很难改变&#xff0c;因为保持文件的原始形式和质量很重要。应该注意的是&#xff0…

c++类程序设计题1

#include<iostream> #include<string> using namespace std;class cube{public ://设置长void setM(int m){M_l m;}int getl(){return M_l;}//设置宽void setr(int r){M_r r;}int get(){return M_r;}//设置高void setm(int m){M_m m;}int getm(){return M_m;}//…

解锁营销新高度:幽灵鲨CRM推广平台线索对接功能详解

数字营销时代&#xff0c;线索对接是推动业务增长的关键。你是否为线索分布在不同的平台而来回切换&#xff1f;你是否为无法及时联系客户而错失商机&#xff1f;幽灵鲨CRM系统作为一款领先的客户关系管理解决方案&#xff0c;不仅实现了对主流推广平台的全面对接&#xff0c;更…

大模型机器人发展史:从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

前言 23年7月&#xff0c;我在朋友圈评估Google的RT2说道&#xff1a; “大模型正在革新一切领域啊&#xff0c;超帅&#xff0c;通过大模型不仅能理解“人话”&#xff0c;还能对“人话”进行推理&#xff0c;并转变为机器人能理解的指令&#xff0c;从而分阶段完成任务。回…

数据分析概述2(详细介绍机器学习

目录 1.名词解释&#xff1a;1.1算法和模型1.2参数和超参数 2.基础算法&#xff1a;3.高级算法&#xff1a;4.数据准备5.常用python包小结&#xff1a; 1.名词解释&#xff1a; 1.1算法和模型 算法&#xff1a;用于训练模型的方法&#xff0c;分为有监督学习、无监督学习、半…

Qt应用开发(安卓篇)——Linux下Qt15.5.2配置Android

目录 一、前言 二、Qt安装 三&#xff1a;JDK安装 四&#xff1a;安装SDK&#xff0c;NDK 五、其他事项 六、新建项目 一、前言 看网上教程&#xff0c;多数是windows环境下的&#xff0c;配置也很简单&#xff0c;想不到自己配置的时候却遇到很多问题&#xff0c;传了一…

POI:对Word的基本操作

1 向word中写入文本并设置样式 package com.example;import org.apache.poi.xwpf.usermodel.*;import java.io.File; import java.io.FileOutputStream;/*** Author&#xff1a;xiexu* Date&#xff1a;2024/1/12 23:54*/ public class WriteWord {static String PATH "…

半小时实现GPT纯血鸿蒙版

仅需半小时&#xff0c;即可实现纯血鸿蒙版本的ChatGPT&#xff01; 废话少说&#xff0c;先看效果图&#xff1a; 如上图所示&#xff0c;这个小Demo实现了AI智能问答。靠右加粗的文本是用户点击底部提交按钮后出现的&#xff1b;后面靠左对齐的普通文本是来自AI的回答内容。当…

CS5569 typec转HDMI 8k60hz单转带pd快充方案

集睿致远/ASL的CS5269是一款低成本、低功耗的半导体器件&#xff0c;通过USBType-C连接器将DisplayPort信号转换为HDMI 2.1。 这款创新的基于USBType-C的DisplayPort接收器具有高性能DSC解码器&#xff0c;集成的HDMI2.1发射器专门针对USBType-C到HDMI2.1转换器而设计&#xf…
最新文章