#大模型 #AI 亚马逊周三发布了该公司最新、也是其 Nova 系列中最强大的 AI 模型——Nova Premier。Nova Premier 能够处理文本、图片和视频(但不包括音频),并已在亚马逊自家的 AI 平台“Amazon Bedrock”上上线。亚马逊表示,Premier 擅长处理“需要对上下文有深入理解、多步骤规划,以及跨多种工具和数据来源精准执行”的复杂任务。
来源:Yahoo Amazon 發表最新的「Nova Premier」AI 模型,主打知識檢索和視覺理解
#AI #DeepSeek #大模型 #ChatGPT DeepSeek-Prover-V2 和 ChatGPT(比如 GPT-4 或 GPT-4-turbo)虽然都是大语言模型,但它们的定位、优化目标和技术细节有很大的不同。

DeepSeek-Prover-V2:采用 Mixture-of-Experts (MoE) 架构(有 6710 亿参数,但推理时只激活一部分专家),专门为“数学推理”调优,集成了 递归证明搜索 + 强化学习优化

ChatGPT(GPT-4):采用 dense transformer 架构(所有参数参与推理),是通用语言模型,虽然具备一定的数学能力,但没有专门针对 Lean、Coq 等证明语言优化。

Prover-V2 在“数学证明”上的专精程度远超 ChatGPT,但在“闲聊”“开放式文本生成”上不如 ChatGPT。
可用性和易用性


DeepSeek-Prover-V2 需要 Lean 4 环境、API 或命令行,对于普通人使用上还是需要一定技术门槛。

总结一句话:

ChatGPT 是“语言领域的通才”,DeepSeek-Prover-V2 是“Lean 4 上的专业数学证明助手”。
如果你想要“形式化数学证明”,DeepSeek-Prover-V2 完胜;但如果需要“多领域通用对话、创作和解释”,ChatGPT 更合适。
#AI #大模型 #DeepSeek DeepSeek-Prover-V2 是中国 AI 初创公司 DeepSeek 于 2025 年 4 月 30 日发布的最新开源大型语言模型,专为在 Lean 4 环境中进行形式化数学定理证明而设计。该模型基于 DeepSeek-V3 构建,采用了 6710 亿参数的混合专家(Mixture-of-Experts, MoE)架构,旨在提升数学推理和定理验证的能力。

🔍 主要特点与创新
递归定理证明训练流程:DeepSeek-Prover-V2 引入了一种创新的“冷启动”训练方法,利用 DeepSeek-V3 将复杂的数学问题分解为一系列子目标,并在 Lean 4 中形式化这些步骤,从而生成高质量的初始化数据 。
强化学习优化:通过强化学习(RL)方法,模型在初始阶段的基础上进一步优化,整合了非正式和正式的数学推理能力,提升了定理证明的效率和准确性 。
多模型协同训练:在训练过程中,研究人员还使用了一个较小的 70 亿参数模型来处理子目标的证明搜索任务,从而提高了训练的效率和多样性 。

📊 性能表现
MiniF2F 测试集:在 MiniF2F 测试集上,DeepSeek-Prover-V2 达到了 88.9% 的通过率,显示出其在形式化定理证明任务中的强大能力 。
PutnamBench 测试集:在 PutnamBench 的 658 个问题中,模型成功解决了 49 个,进一步验证了其在复杂数学问题上的处理能力 。
AIME 竞赛问题:在最近的 AIME(美国数学邀请赛)竞赛的 15 个问题中,DeepSeek-Prover-V2 成功解决了 6 个,而 DeepSeek-V3 使用多数投票方法解决了 8 个,表明两者在数学推理能力上差距正在缩小 。

🧠 技术架构亮点
混合专家架构(MoE):模型采用了混合专家架构,在每次推理中仅激活部分专家网络,从而在保持高性能的同时降低了计算成本 。
Lean 4 集成:DeepSeek-Prover-V2 与 Lean 4 紧密集成,能够生成符合 Lean 4 语法和逻辑的形式化证明,方便数学家和计算机科学家进行验证和应用 。
#AI #小米 #大模型 跑分专业户。4月30日小米开源推理大模型「XiaomiMiMo」,联动预训练到后训练,全面提升推理能力。
在数学推理(AIME24-25)和代码竞赛(LiveCodeBenchv5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

来源:Github
 
 
Back to Top