李彦宏说 DeepSeek 幻觉高,是真的吗?
日期:2025-05-04 13:02:10 / 人气:13
一、事件背景
李彦宏在2025百度AI开发者大会开幕上,点名批评全民AI大模型DeepSeek - R1存在“只支持单一模态、幻觉率较高、又慢又贵”的痛点,引发各界对DeepSeek - R1以及大模型“幻觉”问题的评议。

二、DeepSeek - R1幻觉问题分析
(一)幻觉率数据对比
与自身前代对比:AI数据服务公司Vectara的HHEM幻觉评估显示,DeepSeek - R1的幻觉率高达14.3%,而其前代基础模型DeepSeek - V3仅为3.9%,R1的幻觉比V3高出4倍。
与其他模型对比:阿里通义的QwQ - 32B - Preview幻觉率高达16.1%;OpenAI内部评估中,o3在PersonQA上的幻觉率上升到33%,o4 - mini的幻觉率高达48%;马斯克xAI的Grok - 3比Grok - 2幻觉更严重,谷歌Gemini 2.0系列中强调深度推理的Flash - Thinking版本比标准版幻觉问题更突出。
(二)推理模型与幻觉的关系
多轮思考导致偏差放大:推理模型和深度思考模型通常采用多轮推理或长链式思考策略,通过逐步分解问题、生成中间步骤得出答案。但这种设计可能使模型在每一步生成中引入微小偏差或错误,这些偏差在后续步骤中被放大,形成多米诺骨牌效应。
打破“推理模型降低幻觉”的观点:过去认为推理模型出来后幻觉会被逐渐消灭,或者推理模型比通用模型幻觉更强,但这些观点被事实否定。如o1相对于4o并没有大幅度降低幻觉,o3和o4 - mini幻觉的提升连OpenAI研究人员都表示“仍需继续研究”。
三、大模型幻觉问题的普遍性
(一)行业通病
“幻觉”是当下大模型领域的通病,几乎所有最先进的大模型都遭到幻觉问题的挑战,不只是DeepSeek - R1。随着模型不断发展,幻觉现象仍是笼罩在各大基础模型厂商头上的迷雾。
(二)用户实际体验中的问题
大模型通过大规模训练数据构建高度自洽、逻辑几乎闭环的知识体系,对语义上下文的理解和生成能力越来越强,幻觉却也越来越真实,产生“性能与幻觉齐飞”的现象。在日常使用中,AI可能会出现杜撰不存在的信源、生成看似真实的学术引用等情况。当涉及专业领域或复杂问题商业化时,这种不确定性会引发用户对可靠性的质疑和对AI本身的恐惧感。
四、应对幻觉问题的措施及局限性
(一)主流应对方式
检索增强生成(RAG):即在模型回答前先检索资料,像英伟达CEO黄仁勋建议的,让AI给每个回答加一道规则“先查证再作答”。具体是模型接到问题后查询权威来源,依据检索到的信息作答,若引用信息与已知事实不符则丢弃并继续查找,还能引入最新网页/数据库内容,学会对不知道的事物说“我确实不知道”。百度2024年发布的检索增强的文生图技术iRAG就是结合自身亿级图片资源库,解决文生图中的幻觉问题。
严格控制训练数据质量:腾讯此前发布的混元深度思考模型T1,针对长思维链数据中的幻觉和逻辑错误,训练了一个Critic批判模型来进行严格筛选,采用“双重把关”策略,即模型先产出回答,再核对关键实体和事实后决定是否输出,能在一定程度上降低幻觉率。
(二)局限性
全面的数据治理过于困难,因为互联网语料复杂且知识随时间变化,像“弱智吧”的语料极难正确过滤。OpenAI也坦承目前不完全清楚模型规模变大、推理能力增强后幻觉反而更多的原因,还需要更多研究。所以,即使有上述手段加持,要彻底根治幻觉仍充满挑战。
五、幻觉的双重性质及思考方向
(一)并非全无益处
带来创造力:大模型的幻觉一般分为事实性幻觉和忠实性幻觉,当回答内容与用户指令或上下文信息不一致时,可能产生“灵感”,这是模型发挥想象的结果。如刘慈欣拿自己所写长篇中的一章发给DeepSeek续写,发现它写出来的东西比自己写得好;OpenAI CEO奥特曼也提及AI的幻觉特性在创作领域有积极意义。
外箱式创意:专业术语“外箱式创意”指“跳出既有框架的创作力”,这是大模型区别于检索引擎的魅力所在,人们潜意识认为AI做低“创意密度”任务,无法占领高创造力写作领域,但AI有可能突破人类认知极限。
(二)思考方向
幻觉现象没有固定的可接受程度标准,取决于应用场景。在需要精准性、高风险或涉及伦理的领域,LLM的幻觉特性几乎断绝商业空间。从哲学角度看,这反映了人类对技术的期望,即AI应比人类更可靠。我们或许应将AI视作天然具有幻觉特性的工具,接受“幻觉”是AI的固有特质,赋予AI区分虚构与现实的能力,让它学会在需要的时候说“我不知道”,换种思路研究AI。
作者:盛煌娱乐
新闻资讯 News
- 广东恩平佛恩寺二期工地挖出“黄...05-09
- 巴基斯坦军方击落多架无人机,拉...05-09
- 特朗普或调整AI芯片限令,英伟达...05-09
- 华裔少女遭暴力围殴,社区呼吁协...05-09