李彦宏说 DeepSeek 幻觉高，是真的吗？

日期：2025-05-04 13:02:10 / 人气：155

一、事件背景
李彦宏在2025百度AI开发者大会开幕上，点名批评全民AI大模型DeepSeek - R1存在“只支持单一模态、幻觉率较高、又慢又贵”的痛点，引发各界对DeepSeek - R1以及大模型“幻觉”问题的评议。

二、DeepSeek - R1幻觉问题分析
（一）幻觉率数据对比
与自身前代对比：AI数据服务公司Vectara的HHEM幻觉评估显示，DeepSeek - R1的幻觉率高达14.3%，而其前代基础模型DeepSeek - V3仅为3.9%，R1的幻觉比V3高出4倍。
与其他模型对比：阿里通义的QwQ - 32B - Preview幻觉率高达16.1%；OpenAI内部评估中，o3在PersonQA上的幻觉率上升到33%，o4 - mini的幻觉率高达48%；马斯克xAI的Grok - 3比Grok - 2幻觉更严重，谷歌Gemini 2.0系列中强调深度推理的Flash - Thinking版本比标准版幻觉问题更突出。
（二）推理模型与幻觉的关系
多轮思考导致偏差放大：推理模型和深度思考模型通常采用多轮推理或长链式思考策略，通过逐步分解问题、生成中间步骤得出答案。但这种设计可能使模型在每一步生成中引入微小偏差或错误，这些偏差在后续步骤中被放大，形成多米诺骨牌效应。
打破“推理模型降低幻觉”的观点：过去认为推理模型出来后幻觉会被逐渐消灭，或者推理模型比通用模型幻觉更强，但这些观点被事实否定。如o1相对于4o并没有大幅度降低幻觉，o3和o4 - mini幻觉的提升连OpenAI研究人员都表示“仍需继续研究”。
三、大模型幻觉问题的普遍性
（一）行业通病
“幻觉”是当下大模型领域的通病，几乎所有最先进的大模型都遭到幻觉问题的挑战，不只是DeepSeek - R1。随着模型不断发展，幻觉现象仍是笼罩在各大基础模型厂商头上的迷雾。

（二）用户实际体验中的问题
大模型通过大规模训练数据构建高度自洽、逻辑几乎闭环的知识体系，对语义上下文的理解和生成能力越来越强，幻觉却也越来越真实，产生“性能与幻觉齐飞”的现象。在日常使用中，AI可能会出现杜撰不存在的信源、生成看似真实的学术引用等情况。当涉及专业领域或复杂问题商业化时，这种不确定性会引发用户对可靠性的质疑和对AI本身的恐惧感。

四、应对幻觉问题的措施及局限性
（一）主流应对方式
检索增强生成（RAG）：即在模型回答前先检索资料，像英伟达CEO黄仁勋建议的，让AI给每个回答加一道规则“先查证再作答”。具体是模型接到问题后查询权威来源，依据检索到的信息作答，若引用信息与已知事实不符则丢弃并继续查找，还能引入最新网页/数据库内容，学会对不知道的事物说“我确实不知道”。百度2024年发布的检索增强的文生图技术iRAG就是结合自身亿级图片资源库，解决文生图中的幻觉问题。
严格控制训练数据质量：腾讯此前发布的混元深度思考模型T1，针对长思维链数据中的幻觉和逻辑错误，训练了一个Critic批判模型来进行严格筛选，采用“双重把关”策略，即模型先产出回答，再核对关键实体和事实后决定是否输出，能在一定程度上降低幻觉率。
（二）局限性
全面的数据治理过于困难，因为互联网语料复杂且知识随时间变化，像“弱智吧”的语料极难正确过滤。OpenAI也坦承目前不完全清楚模型规模变大、推理能力增强后幻觉反而更多的原因，还需要更多研究。所以，即使有上述手段加持，要彻底根治幻觉仍充满挑战。

五、幻觉的双重性质及思考方向
（一）并非全无益处
带来创造力：大模型的幻觉一般分为事实性幻觉和忠实性幻觉，当回答内容与用户指令或上下文信息不一致时，可能产生“灵感”，这是模型发挥想象的结果。如刘慈欣拿自己所写长篇中的一章发给DeepSeek续写，发现它写出来的东西比自己写得好；OpenAI CEO奥特曼也提及AI的幻觉特性在创作领域有积极意义。
外箱式创意：专业术语“外箱式创意”指“跳出既有框架的创作力”，这是大模型区别于检索引擎的魅力所在，人们潜意识认为AI做低“创意密度”任务，无法占领高创造力写作领域，但AI有可能突破人类认知极限。
（二）思考方向
幻觉现象没有固定的可接受程度标准，取决于应用场景。在需要精准性、高风险或涉及伦理的领域，LLM的幻觉特性几乎断绝商业空间。从哲学角度看，这反映了人类对技术的期望，即AI应比人类更可靠。我们或许应将AI视作天然具有幻觉特性的工具，接受“幻觉”是AI的固有特质，赋予AI区分虚构与现实的能力，让它学会在需要的时候说“我不知道”，换种思路研究AI。

作者：盛煌娱乐

李彦宏说 DeepSeek 幻觉高，是真的吗？

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →