
新的大言语模子(LLM)评估基准对于跟上大言语模子的快速发展至关遑急体育游戏app平台。
近日,淘宝天猫集团的研讨者们残忍了汉文节略问答(Chinese SimpleQA),这是首个全面的汉文基准,具有"汉文、种种性、高质地、静态、易于评估"五个本性,用于评估言语模子回答节略问题的果然性才调。
研讨东说念主员暗示,汉文节略问答或者领导开导者更好地观念其模子的汉文果然性才调,并促进基础模子的发展。
论文地址:https://arxiv.org/abs/2411.07140
小序
东说念主工智能发展中的一个紧要挑战是确保言语模子生成的回答在事实上准确无误。刻下前沿模子偶然会产生造作输出或缺少字据撑捏的谜底,这等于所谓的"幻觉"问题,极地面藏匿了通用东说念主工智能技艺(如大言语模子)的世俗诈骗。此外,评估现存大言语模子的果然性才调也颇具难度。举例,大言语模子频繁会生成冗长的回答,包含多数事实性陈说。最近,为处分上述评估问题,OpenAI 发布了节略问答基准(SimpleQA),其中包含 4326 个纯粹且寻求事实的问题,使得预计果然性变得毛糙可靠。
然则,节略问答基准主要针对英语,导致对大言语模子在其他言语中的才调了解有限。此外,受近期几个汉文大言语模子基准(如 C-Eval、CMMLU)的启发,为了评估大言语模子在汉文语境下的果然性才调,淘天集团的研讨东说念主员残忍了汉文节略问答基准。该基准由 3000 个高质地问题构成,涵盖从东说念主文到科学工程等 6 个主要主题。具体而言,汉文节略问答的权贵主要特征如下:
汉文本性:专注于汉文言语,或者全面评估现存大言语模子在汉文语境下的果然性才调。
种种性:涵盖 6 个主题,即"中国文化""东说念主文""工程、技艺与诈骗科学""活命、艺术与文化""社会"和"当然科学"。这些主题整个包括 99 个细粒度的子主题,体现了汉文节略问答的种种性。
高质地:实施了全面且严格的质地限渡过程,以确保汉文节略问答的质地和准确性。
静态性:与 SimpleQA 访佛,为保捏汉文节略问答的常青本性,系数参考谜底不会随时刻转变。
易于评估:与 SimpleQA 访佛,由于问题和谜底都相配节略,通过现存大言语模子(如 OpenAI API)进行评分的过程快速浅薄。
研讨东说念主员在汉文节略问答上对现存大言语模子进行了全面评估和分析,得出了以下一些有洞戮力的发现:
汉文节略问答具有挑战性:唯独 o1-preview 和 Doubao-pro-32k 达到合格分数(在正确想法上区别为 63.8% 和 61.9%),好多闭源和开源大言语模子仍有很大的纠正空间。
模子越大扫尾越好:基于 Qwen2.5 系列、InternLM 系列、Yi-1.5 系列等的扫尾,作家不雅察到模子越大性能越好。
更大的模子更校准:作家不雅察到 o1-preview 比 o1-mini 更校准,GPT-4o 比 GPT-4o-mini 更校准。
检索增强生成(RAG)很遑急:当将 RAG 政策引入现存大言语模子时,不同大言语模子之间的性能差距权贵减轻。举例,对于 GPT-4o 和 Qwen2.5-3B,使用 RAG 后性能差距从 42.4% 减轻到 9.3%。
存在对王人代价:现存的对王人或后考试政策频繁会裁减言语模子的果然性。
SimpleQA 和汉文节略问答的排行不同:几个专注于汉文的大言语模子(Doubao-pro-32k 和 GLM-4-Plus)的性能接近高性能的 o1-preview。至极是在"中国文化"主题上,这些汉文社区大言语模子较着优于 GPT 或 o1 系列模子。
汉文节略问答玄虚

汉文节略问答的类别漫衍,包含六个主要主题,每个主要主题包含多个二级子主题。在表 1 中,作家将汉文节略问答与几个主流的大言语模子评估基准进行了比较,这标明汉文节略问答是第一个专注于评估大言语模子中汉文知识规模的基准。
数据汇集

如图 2 所示,汉文节略问答的数据汇集过程触及自动构建和东说念主工考证。自动阶段包括:(1)提真金不怕火和过滤讨论知识内容,(2)自动生成问题 - 谜底对,(3)根据预界说法式使用大言语模子考证这些对,(4)施行检索增强生成(RAG)考证,以及(5)进行难度筛选。
具体而言,开端,作家从种种知识范围(如维基百科)汇集多数知识丰富的文本内容,并使用质地评估模子过滤掉低质地数据。然后,作家教唆大言语模子使用这些高质地知识内容生成问题 - 谜底对。之后,为确保汉文节略问答的质地,作家使用大言语模子去除不适应预界说法式条目的样本。通过这种面孔,不错获取多数初步筛选后的知识问题 - 谜底对。同期,为了进步谜底的质地,部署外部检索器用(即搜索引擎)来汇集更种种化的信息,这调换大言语模子基于 RAG 系统评估谜底的事实正确性。具体来说,诈骗 LlamaIndex 当作检索步地,以谷歌和必应的搜索扫尾当作数据源。对于生成和考证的注目信息不错在附录 A 中找到。此外,作家过滤一些毛糙样本以发现大言语模子的知识规模并进步汉文节略问答的难度。具体来说,要是一个问题不错被四个大模子正确回答,则以为它是一个毛糙问题并将其丢弃。
值得珍重的是,问题 - 谜底对的构建基于以下法式:
谜底必须客不雅且独一:问题应与客不雅寰球的事实知识讨论,不受个东说念主主不雅不雅点影响。举例,以"你以为……若何样?"或"你如何评价……?"起首的问题是不对适的。此外,每个问题的谜底必须是独一的,排斥多个正确谜底的可能性。举例,"朱祁镇在哪一年登上皇位?"这个问题是不充分的,因为它有两个可能的谜底:1435 年和 1457 年。
谜底必须不随时刻变化:谜底应长期反应不灭的事实,不受发问时刻的影响。举例,"碳的原子序数是若干?",谜底" 6 "长期不变。比较之下,对于状态的问题,如"某个国度的现任总统是谁?"是不对适的,因为其谜底会随时刻变化。
问题必须具有挑战性:问题不应过于毛糙,筹办的查询需要全面评估模子的知识深度。
问题必须结果 2023 年可回答:每个问题必须在 2023 年 12 月 31 日前可回答,以确保对在此日历后考试的数据的模子进行平允评估。
2.3 质地限度
在自动数据汇集之后,接管东说念主工考证来进步数据集质地。具体来说,每个问题由两个东说念主工扫视者颓靡评估。开端,扫视者信赖问题是否适应上述预界说法式。要是任何一个扫视者以为问题不适应条目,则丢弃该样本。随后,两个扫视者都使用搜索引擎检索讨论信息并制定谜底。在此阶段,扫视者应使用泰斗来源(如维基百科、百度百科)的内容,况兼每个扫视者必须提供至少两个撑捏性 URL。要是扫视者的谜底不一致,则由第三个扫视者审查该样本。最终扫视由第三个扫视者根据前两个评估信赖。临了,将东说念主工扫视扫尾与大言语模子生成的回答进行比较,仅保留弥散一致的问题 - 谜底对。这个严格的东说念主工考证过程确保了数据集保捏高准确性并适应既定法式。
在构建和扫视汉文节略问答的通盘过程中,好多低质地的问题 - 谜底对被丢弃。具体来说,当先生成了 10000 对。经过使用不同模子进行难度评估后,大致保留了 6310 对,其中约 37% 的较毛糙数据被丢弃。在此之后,经过基于端正的考证和基于模子的 RAG 考证,又删除了 2840 个样本,这意味着仅剩下约 35% 的原始生成数据。临了,经过透顶和严格的东说念主工审查,仅保留了约 3000 个样本,约占原始数据集的 30%。
2.4 数据集统计

表 2 展示了汉文节略问答的统计数据。共有 3000 个样本,汉文节略问答在六个主要主题上的数据漫衍相对平衡,这不错有用地评估大言语模子在各个范围的知识规模。此外,该数据连系问题和参考谜底的长度漫衍都相配短,这是基于知识查询的本性。值得珍重的是,使用汉文节略问答评估模子需要最少的输入和输出记号,从而导致相配低的评推断较和时刻资本。
2.5 评估想法
与 SimpleQA 访佛,汉文节略问答也接管以下五个评估想法:
正确(CO):预计谜底弥散包含参考谜底,且不引入任何矛盾元素。
未始试(NA):预计谜底未弥散给出参考谜底,但与参考谜底不存在矛盾元素。
不正确(IN):预计谜底与参考谜底矛盾,即使矛盾不错处分。
尝试后正确(CGA):该想法是在尝试回答的问题中准确回答问题的比例。
F 分数:该想法暗示正确和尝试后正确之间的长入平均值。
3. 实验 3.1 基线模子
作家评估了 17 个闭源大言语模子(即 o1-preview、Doubao-pro-32k、GLM-4-Plus、GPT-4o、Qwen-Max、Gemini-1.5-pro、DeepSeek-V2.5、Claude-3.5-Sonnet、Yi-Large、moonshot-v1-8k、GPT-4-turbo、GPT-4、Baichuan3-turbo、o1-mini、Doubao-lite-4k、GPT-4o-mini、GPT-3.5)和 24 个开源大言语模子(即 Qwen2.5 系列、InternLM2.5 系列、Yi-1.5 系列、LLaMA3 系列、DeepSeek 系列、Baichuan2 系列、Mistral 系列、ChatGLM3 和 GLM-4)。
3.2 主要扫尾

如表 3 所示,论文提供了不同大言语模子在汉文节略问答上的性能扫尾。具体来说,与 SimpleQA 访佛,作家提供了五个评估想法的总体扫尾。
此外,论文还报酬了六个主题的 F 分数,以分析这些大言语模子的细粒度果然性才调。在表 3 中,有以下有洞戮力和根由的不雅察扫尾:
o1-preview 发挥最好:o1-preview 在汉文节略问答上取得了最好性能,况兼几个近期专注于汉文的闭源大言语模子(Doubao-pro-32k 和 GLM-4-Plus)的性能扫尾与 o1-preview 相配接近。
" mini "系列模子发挥较差:很较着," mini "系列模子(o1-mini、GPT-4o-mini)的扫尾比相应的更大模子(o1-preview、GPT-4o)低,这也标明这些" mini "系列模子不注意操心事实性知识。


模子越大性能越好:基于好多模子系列(如 GPT、Qwen2.5、InternLM2.5、Yi-1.5),咱们不错得出更大的大言语模子会导致更好的性能这一论断。
小模子在"未始试"上得分较高:袖珍大言语模子频繁在"未始试(NA)"上得分较高。o1-mini、InternLM2.5-1.8B 的 NA 分数区别为 20.5 和 9.3,远高于相应更大模子的分数(o1-preview 为 8.1,Qwen2.5-72B 为 1.8)。
不同子主题性能互异权贵:不同大言语模子在不同子主题上存在权贵的性能互异。值得珍重的是,汉文社区大言语模子(如 Doubao-pro-32k、GLM-4-Plus、Qwen-Max、Deepseek)在"中国文化(CC)"子主题上较着优于 GPT 或 o1 模子。比较之下,o1 在与科学讨论的子主题(如"工程、技艺与诈骗科学(ETAS)"和"当然科学(NS)")上具有权贵上风。
此外,论文还在图 3 中提供了六个主题的注目扫尾(CO 和 CGA 想法)。
3.3 进一步分析
3.3.1 校准分析

对于不同大言语模子的校准,与 SimpleQA 访佛,作家指令模子在回答问题时提供相应的置信水平(从 0 到 100),以预计模子对其谜底的信心(见附录 B 中的教唆)。咱们知说念,一个齐备校准的模子的置信度(%)应该与其谜底的实质准确性相匹配。图 4 中的左图评释了校准性能,这标明 GPT-4o 比 GPT-4o-mini 校准得更好,o1-preview 比 o1-mini 校准得更好。对于 Qwen2.5 系列,校准功令为 Qwen2.5-72B>Qwen2.5-32B>Qwen2.5-7B>Qwen2.5-3B,这标明更大的模子尺寸会导致更好的校准。此外,对于系数评估模子,它们在置信度>50 的范围内的置信度低于齐备校准线,这意味着它们都高估了其回答的准确性,存在过度自信的情况。
3.3.2 测试时刻计较分析
论文还评估了不同模子在加多测试时刻计较时与回答准确性的关联。具体来说,从汉文节略问答中立时抽取 50 个样本,对于每个样本,模子被条目颓靡回答 100 次。然后,使用最好 N 法跟着推理次数的加多获取模子的回答准确性。扫尾如图 4 中的右图所示。作家不雅察到,跟着推理次数的加多,系数模子的回答准确性都有所进步,并最终达到一个上限。这对于汉文节略问答来说是合理的,因为它荒芜用于探伤模子知识的规模。
3.3.3 检索增强生成(RAG)扫尾分析

在这项研讨中,论文探索了检索增强生成(RAG)政策在提魁伟言语模子在汉文节略问答数据集上的事实准确性方面的有用性。具体来说,作家基于 LlamaIndex 重现了一个 RAG 系统,并整合了谷歌搜索 API。如图 5 所示,系数模子在使用 RAG 后准确性都有权贵进步。举例,Qwen2.5-3B 的性能进步了三倍多。值得珍重的是,险些系数使用 RAG 的模子都优于原生的 GPT-4o 模子。同期,RAG 的诈骗也权贵裁减了模子之间的性能差距。举例,使用 RAG 的 Qwen2.5-3B 与使用 RAG 的 Qwen2.5-72B 之间的 F 分数互异仅为 6.9%。这标明 RAG 大大减轻了模子之间的性能差距,使较小的模子在使用 RAG 增强时也能竣事高性能。总体而言,这标明 RAG 是提魁伟言语模子果然性的有用捷径。

3.3.4 对王人代价分析
最近,先前的研讨(OpenAI,2023;Song 等东说念主,2023)发现,对王人可能会导致言语模子才调的着落,即所谓的"对王人代价"。为了评释对王人对果然性的影响,作家对预考试模子和经过监督微调(SFT)或强化学习从东说念主类反馈(RLHF)考试的对王人模子进行了比较性能分析。如图 6 所示,不同模子在考试后发挥出不同的趋势,但大多数模子都有权贵着落。其中,Baichuan2 系列模子着落最为权贵,Baichuan2-7B 和 Baichuan2-13B 的 F 分数区别裁减了 47% 和 28%。这反应出刻下大多数大言语模子的对王人考试在产生知识幻觉方面仍然存在较着弱势,这进一步反应了这次数据集的必要性。
3.3.5 子主题扫尾分析
如 2.2 节所述,该基准涵盖了整个 99 个子主题,不错全面检测模子在各个范围的知识水平。图 7 展示了 o1 模子和七个知名的汉文社区模子在几个常见范围内的性能比较。开端,从举座上看,o1-preview 模子在这些范围中发挥出最全面的性能,Doubao 模子紧随自后。比较之下,Moonshot 模子总体性能最弱。其次,在具体范围方面,汉文社区模子和 o1 模子在计较机科学和医学等范围存在权贵差距。然则,在训诫和经济等范围,这种差距最小。值得珍重的是,在训诫范围,一些汉文社区模子优于 o1-preview,凸起了它们在特定垂直范围取得收效的后劲。临了,在具体模子方面,Moonshot 模子在数学、法律和文娱等范围较着较弱,而 Baichuan 模子在文娱范围也发挥欠安。Yi-Large 模子在训诫范围发挥出色,o1 模子在其他范围保捏最强性能。评估模子在基准数据集内不同范围的性能使用户或者信赖最适应其特定需求的模子。
3.3.6 汉文节略问答与SimpleQA 的比较

论文还比较了种种模子在 SimpleQA 和汉文节略问答上的排行互异。如图 8 所示,这些两个基准上的模子性能存在权贵互异。举例,Doubao-pro-32k 在汉文节略问答上的排行权贵进步,从第 12 位高涨到第 2 位(+10)。违反,GPT-4 在汉文节略问答上的性能着落,从第 3 位着落到第 9 位(-6)。这些互异强调了在不同言语的数据集上评估模子的遑急性,以及研讨优化模子在不同言语环境中性能的必要性。值得珍重的是,o1-preview 在两个数据集上长期保捏逾越地位,标明其对不同言语高下文的正经性和适合性。此外,大多数汉文社区开导的模子(如 Qwen-Max、GLM-4-Plus、Yi-Large、Doubao-pro-32k)在 SimpleQA 上的发挥优于在节略问答上的发挥,展示了它们在汉文任务上的竞争力。
4. 讨论责任
-大言语模子果然性:大言语模子果然性是指大言语模子产生除名事实内容的才调,包括学问、寰球知识和范围事实,况兼这些事实内容不错通过泰斗来源(如维基百科、教科书)得到阐述。最近的作品探索了大言语模子当作事实知识库的后劲(Yu 等东说念主,2023;Pan 等东说念主,2023)。具体而言,现存研讨主要连系在对大言语模子果然性的定性评估(Lin 等东说念主,2022;Chern 等东说念主,2023)、对知识存储机制的研讨(Meng 等东说念主,2022;Chen 等东说念主,2023)以及对知识讨论问题的分析(Gou 等东说念主,2023)。
-果然性基准:照旧残忍了好多果然性基准(Hendrycks 等东说念主,2021;Zhong 等东说念主,2023;Huang 等东说念主,2023;Li …等东说念主,2023b;Srivastava 等东说念主,2023;Yang 等东说念主,2018)。举例,MMLU(Hendrycks 等东说念主,2021)用于测量在种种不同任务上的多任务准确性。TruthfulQA(Lin 等东说念主,2022)专注于评估言语模子生成谜底的果然性。此外,HaluEval(Li 等东说念主,2023c)用于检查大言语模子产生幻觉的倾向。最近,SimpleQA(Wei 等东说念主,2024)被残忍用于测量大言语模子中的节略事实性。然则,SimpleQA 仅热心英语范围。比较之下,汉文节略问答旨在全面评估汉文语境下的果然性。
论断
为了评估现存大言语模子的果然性才调,淘天集团的研讨者们残忍了第一个汉文节略事实性基准(即汉文节略问答),它包括 6 个主要主题和 99 个子主题。此外,汉文节略问答主要具有五个遑急特征(即汉文、种种性、高质地、静态和易于评估)。基于汉文节略问答,研讨东说念主员全面评估了现存 40 多个大言语模子在果然性方面的性能,并提供了注目分析,以解释汉文节略问答的上风和必要性。在将来,研讨东说念主员将研讨提魁伟言语模子的果然性,并探索将汉文节略问答彭胀到多言语和多模态设置。
论文地址:https://arxiv.org/abs/2411.07140
* 本文系量子位获授权刊载,不雅点仅为作家系数。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 跟踪 AI 技艺和产物新动态
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~