#大模型 | 死机频道

10:37 · May 1, 2025 · Thu

#大模型 #AI 亚马逊周三发布了该公司最新、也是其 Nova 系列中最强大的 AI 模型——Nova Premier。Nova Premier 能够处理文本、图片和视频（但不包括音频），并已在亚马逊自家的 AI 平台“Amazon Bedrock”上上线。亚马逊表示，Premier 擅长处理“需要对上下文有深入理解、多步骤规划，以及跨多种工具和数据来源精准执行”的复杂任务。
来源：Yahoo

Yahoo News

Amazon 發表最新的「Nova Premier」AI 模型，主打知識檢索和視覺理解

大模型 AI

06:55 · May 1, 2025 · Thu

#AI #DeepSeek #大模型 #ChatGPT DeepSeek-Prover-V2 和 ChatGPT（比如 GPT-4 或 GPT-4-turbo）虽然都是大语言模型，但它们的定位、优化目标和技术细节有很大的不同。

DeepSeek-Prover-V2：采用 Mixture-of-Experts (MoE) 架构（有 6710 亿参数，但推理时只激活一部分专家），专门为“数学推理”调优，集成了 递归证明搜索 + 强化学习优化。

ChatGPT（GPT-4）：采用 dense transformer 架构（所有参数参与推理），是通用语言模型，虽然具备一定的数学能力，但没有专门针对 Lean、Coq 等证明语言优化。

Prover-V2 在“数学证明”上的专精程度远超 ChatGPT，但在“闲聊”“开放式文本生成”上不如 ChatGPT。
可用性和易用性

DeepSeek-Prover-V2 需要 Lean 4 环境、API 或命令行，对于普通人使用上还是需要一定技术门槛。

总结一句话：
ChatGPT 是“语言领域的通才”，DeepSeek-Prover-V2 是“Lean 4 上的专业数学证明助手”。
如果你想要“形式化数学证明”，DeepSeek-Prover-V2 完胜；但如果需要“多领域通用对话、创作和解释”，ChatGPT 更合适。

AI DeepSeek 大模型 ChatGPT

06:47 · May 1, 2025 · Thu

#AI #大模型 #DeepSeek DeepSeek-Prover-V2 是中国 AI 初创公司 DeepSeek 于 2025 年 4 月 30 日发布的最新开源大型语言模型，专为在 Lean 4 环境中进行形式化数学定理证明而设计。该模型基于 DeepSeek-V3 构建，采用了 6710 亿参数的混合专家（Mixture-of-Experts, MoE）架构，旨在提升数学推理和定理验证的能力。

🔍 主要特点与创新
• 递归定理证明训练流程：DeepSeek-Prover-V2 引入了一种创新的“冷启动”训练方法，利用 DeepSeek-V3 将复杂的数学问题分解为一系列子目标，并在 Lean 4 中形式化这些步骤，从而生成高质量的初始化数据。
• 强化学习优化：通过强化学习（RL）方法，模型在初始阶段的基础上进一步优化，整合了非正式和正式的数学推理能力，提升了定理证明的效率和准确性。
• 多模型协同训练：在训练过程中，研究人员还使用了一个较小的 70 亿参数模型来处理子目标的证明搜索任务，从而提高了训练的效率和多样性。

📊 性能表现
• MiniF2F 测试集：在 MiniF2F 测试集上，DeepSeek-Prover-V2 达到了 88.9% 的通过率，显示出其在形式化定理证明任务中的强大能力。
• PutnamBench 测试集：在 PutnamBench 的 658 个问题中，模型成功解决了 49 个，进一步验证了其在复杂数学问题上的处理能力。
• AIME 竞赛问题：在最近的 AIME（美国数学邀请赛）竞赛的 15 个问题中，DeepSeek-Prover-V2 成功解决了 6 个，而 DeepSeek-V3 使用多数投票方法解决了 8 个，表明两者在数学推理能力上差距正在缩小。

🧠 技术架构亮点
• 混合专家架构（MoE）：模型采用了混合专家架构，在每次推理中仅激活部分专家网络，从而在保持高性能的同时降低了计算成本。
• Lean 4 集成：DeepSeek-Prover-V2 与 Lean 4 紧密集成，能够生成符合 Lean 4 语法和逻辑的形式化证明，方便数学家和计算机科学家进行验证和应用。

AI 大模型 DeepSeek

05:14 · Apr 30, 2025 · Wed

#AI #小米 #大模型跑分专业户。4月30日小米开源推理大模型「XiaomiMiMo」，联动预训练到后训练，全面提升推理能力。
在数学推理（AIME24-25）和代码竞赛（LiveCodeBenchv5）公开测评集上，MiMo仅用7B的参数规模，超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

来源：Github

AI 小米大模型