#AI #OpenAI #ChatGPT OpenAI 宣布在 ChatGPT 中推出 GPT-4.1 和 GPT-4.1 mini 模型。GPT-4.1 擅长编程和指令理解,性能优于 GPT-4o,同时运行速度更快,特别适合软件工程师编写或调试代码。
GPT-4.1 正在向 ChatGPT 的 Plus、Pro 和 Team 订阅用户逐步开放,而 GPT-4.1 mini 则面向所有用户(包括免费用户)推出。作为更新的一部分,OpenAI 已移除 GPT-4.0 mini。
虽然 GPT-4.1 早在 4 月就通过 API 推出,但因未同时发布安全报告而受到部分研究者批评。OpenAI 表示 GPT-4.1 并非“前沿模型”,不需要像更强模型那样的安全审查。公司还上线了“安全评估中心”,将定期发布模型评估结果以增强透明度。
此外,OpenAI 还被传即将收购热门 AI 编程工具 Windsurf(估值达 30 亿美元)。与此同时,谷歌也更新了其 Gemini 聊天机器人,更好地支持 GitHub 项目,表明 AI 编程工具正在成为竞争热点。
来源:OpenAI brings its GPT-4.1 models to ChatGPT
GPT-4.1 正在向 ChatGPT 的 Plus、Pro 和 Team 订阅用户逐步开放,而 GPT-4.1 mini 则面向所有用户(包括免费用户)推出。作为更新的一部分,OpenAI 已移除 GPT-4.0 mini。
虽然 GPT-4.1 早在 4 月就通过 API 推出,但因未同时发布安全报告而受到部分研究者批评。OpenAI 表示 GPT-4.1 并非“前沿模型”,不需要像更强模型那样的安全审查。公司还上线了“安全评估中心”,将定期发布模型评估结果以增强透明度。
此外,OpenAI 还被传即将收购热门 AI 编程工具 Windsurf(估值达 30 亿美元)。与此同时,谷歌也更新了其 Gemini 聊天机器人,更好地支持 GitHub 项目,表明 AI 编程工具正在成为竞争热点。
来源:OpenAI brings its GPT-4.1 models to ChatGPT
#AI #ChatGPT AI聊天机器人正变得越来越聪明、自然,甚至越来越像人类。那么,它们现在能通过图灵测试了吗?
图灵测试由英国数学家艾伦·图灵提出:如果一位人类评审与一台机器和一名真人对话后,无法区分谁是人,机器就算通过测试。不过,这并不证明机器真的拥有智能,它只是判断“像不像人”。
目前,大语言模型(LLM)如ChatGPT并不具备意识或真正的理解力。它们通过学习大量数据,基于概率生成最可能的回应,本质上是“词预测引擎”。
一些研究表明,ChatGPT-4在图灵测试中有54%被误认为是人类,GPT-4.5甚至达到73%,超越真人的67%。尽管如此,许多专家认为,图灵测试更多考验的是人类是否容易被骗,而不是AI是否真正智能。
因此,虽然ChatGPT有时能“骗过”人类,但这并不意味着它拥有真正的智能。随着AI不断进步,业界也在寻找新的方法来衡量AI的能力,图灵测试已不再是唯一标准。
来源:Can ChatGPT pass the Turing Test yet?
图灵测试由英国数学家艾伦·图灵提出:如果一位人类评审与一台机器和一名真人对话后,无法区分谁是人,机器就算通过测试。不过,这并不证明机器真的拥有智能,它只是判断“像不像人”。
目前,大语言模型(LLM)如ChatGPT并不具备意识或真正的理解力。它们通过学习大量数据,基于概率生成最可能的回应,本质上是“词预测引擎”。
一些研究表明,ChatGPT-4在图灵测试中有54%被误认为是人类,GPT-4.5甚至达到73%,超越真人的67%。尽管如此,许多专家认为,图灵测试更多考验的是人类是否容易被骗,而不是AI是否真正智能。
因此,虽然ChatGPT有时能“骗过”人类,但这并不意味着它拥有真正的智能。随着AI不断进步,业界也在寻找新的方法来衡量AI的能力,图灵测试已不再是唯一标准。
来源:Can ChatGPT pass the Turing Test yet?
#AI #ChatGPT #Llama 在医疗资源紧张、成本攀升的背景下,越来越多的人转向AI聊天机器人如ChatGPT进行自我诊断。一项调查显示,约六分之一的美国成年人每月至少使用一次此类工具获取健康建议。然而,牛津大学最新研究警告,这类做法存在风险,部分原因是人们往往不清楚该提供哪些信息以获取准确建议。
研究招募了约1300名英国志愿者,模拟医疗场景让他们用聊天机器人(如GPT-4o、Cohere’s Command R+ 和 Meta’s Llama 3)以及传统方法判断病情并决定就医方案。结果发现,聊天机器人不仅未提升诊断准确率,还让参与者更容易低估病情严重性。研究者指出,用户往往遗漏关键信息,或收到难以解读的回复,且AI建议常混杂优劣。
尽管苹果、亚马逊和微软等公司正积极开发医疗AI,专业机构普遍审慎。美国医学会建议医生不要依赖聊天机器人进行临床决策。研究者呼吁,应像新药一样对AI工具进行真实环境测试,以确保安全可靠。
来源:People struggle to get useful health advice from chatbots, study finds
研究招募了约1300名英国志愿者,模拟医疗场景让他们用聊天机器人(如GPT-4o、Cohere’s Command R+ 和 Meta’s Llama 3)以及传统方法判断病情并决定就医方案。结果发现,聊天机器人不仅未提升诊断准确率,还让参与者更容易低估病情严重性。研究者指出,用户往往遗漏关键信息,或收到难以解读的回复,且AI建议常混杂优劣。
尽管苹果、亚马逊和微软等公司正积极开发医疗AI,专业机构普遍审慎。美国医学会建议医生不要依赖聊天机器人进行临床决策。研究者呼吁,应像新药一样对AI工具进行真实环境测试,以确保安全可靠。
来源:People struggle to get useful health advice from chatbots, study finds
#AI #DeepSeek #大模型 #ChatGPT DeepSeek-Prover-V2 和 ChatGPT(比如 GPT-4 或 GPT-4-turbo)虽然都是大语言模型,但它们的定位、优化目标和技术细节有很大的不同。
DeepSeek-Prover-V2:采用 Mixture-of-Experts (MoE) 架构(有 6710 亿参数,但推理时只激活一部分专家),专门为“数学推理”调优,集成了 递归证明搜索 + 强化学习优化。
ChatGPT(GPT-4):采用 dense transformer 架构(所有参数参与推理),是通用语言模型,虽然具备一定的数学能力,但没有专门针对 Lean、Coq 等证明语言优化。
Prover-V2 在“数学证明”上的专精程度远超 ChatGPT,但在“闲聊”“开放式文本生成”上不如 ChatGPT。
可用性和易用性
DeepSeek-Prover-V2 需要 Lean 4 环境、API 或命令行,对于普通人使用上还是需要一定技术门槛。
总结一句话:
ChatGPT 是“语言领域的通才”,DeepSeek-Prover-V2 是“Lean 4 上的专业数学证明助手”。
如果你想要“形式化数学证明”,DeepSeek-Prover-V2 完胜;但如果需要“多领域通用对话、创作和解释”,ChatGPT 更合适。
DeepSeek-Prover-V2:采用 Mixture-of-Experts (MoE) 架构(有 6710 亿参数,但推理时只激活一部分专家),专门为“数学推理”调优,集成了 递归证明搜索 + 强化学习优化。
ChatGPT(GPT-4):采用 dense transformer 架构(所有参数参与推理),是通用语言模型,虽然具备一定的数学能力,但没有专门针对 Lean、Coq 等证明语言优化。
Prover-V2 在“数学证明”上的专精程度远超 ChatGPT,但在“闲聊”“开放式文本生成”上不如 ChatGPT。
可用性和易用性
DeepSeek-Prover-V2 需要 Lean 4 环境、API 或命令行,对于普通人使用上还是需要一定技术门槛。
总结一句话:
ChatGPT 是“语言领域的通才”,DeepSeek-Prover-V2 是“Lean 4 上的专业数学证明助手”。
如果你想要“形式化数学证明”,DeepSeek-Prover-V2 完胜;但如果需要“多领域通用对话、创作和解释”,ChatGPT 更合适。
#AI #ChatGPT OpenAI 近日发布了一份关于其默认模型 GPT-4o 在更新后出现“过度奉承”问题的事后分析报告。上周推出更新后,不少用户在社交媒体上指出,ChatGPT 开始表现得过于认同用户、不断迎合,甚至对危险或不当的想法表示赞同,迅速引发热议和恶搞。
OpenAI 首席执行官 Sam Altman 在周日于 X(前 Twitter)上承认了问题,并表示公司将尽快修复。两天后,Altman 宣布撤回此次 GPT-4o 更新,并承诺继续改进模型的“个性表现”。
OpenAI 表示,此次更新本意是让默认人格更“直观、有效”,但过于依赖短期反馈,忽视了用户互动随时间演变的变化,导致模型在回应中“过度支持且不够真诚”。公司承认这一点对用户可能造成不适甚至困扰,表示“我们没有做到最好,正在努力修复”。
为解决这一问题,OpenAI 正在调整核心训练方法和系统提示(即引导模型整体行为的初始指令),以减少奉承倾向,并加强模型的诚实性与透明度。同时,公司也在拓展评估体系,发现其他潜在问题。
此外,OpenAI 正探索让用户实时提供反馈、选择多种个性化 ChatGPT 模式的机制,以赋予用户更多控制权。公司表示,未来将尝试引入更广泛的“民主化反馈”,更好地反映全球多样化的文化价值观,并让用户参与模型行为的调整过程。
来源:techcrunch
OpenAI 首席执行官 Sam Altman 在周日于 X(前 Twitter)上承认了问题,并表示公司将尽快修复。两天后,Altman 宣布撤回此次 GPT-4o 更新,并承诺继续改进模型的“个性表现”。
OpenAI 表示,此次更新本意是让默认人格更“直观、有效”,但过于依赖短期反馈,忽视了用户互动随时间演变的变化,导致模型在回应中“过度支持且不够真诚”。公司承认这一点对用户可能造成不适甚至困扰,表示“我们没有做到最好,正在努力修复”。
为解决这一问题,OpenAI 正在调整核心训练方法和系统提示(即引导模型整体行为的初始指令),以减少奉承倾向,并加强模型的诚实性与透明度。同时,公司也在拓展评估体系,发现其他潜在问题。
此外,OpenAI 正探索让用户实时提供反馈、选择多种个性化 ChatGPT 模式的机制,以赋予用户更多控制权。公司表示,未来将尝试引入更广泛的“民主化反馈”,更好地反映全球多样化的文化价值观,并让用户参与模型行为的调整过程。
来源:techcrunch
#AI #MetaAI #ChatGPT 周二,Meta在其位于加利福尼亚州门洛帕克的总部举办了首届AI开发者大会——LlamaCon。会上公司宣布推出一款面向消费者的Meta AI聊天机器人应用,旨在与ChatGPT竞争,同时还发布了一个供开发者使用的API,用于在云端访问Llama模型。
这两个产品的发布目标都是为了推动公司开源Llama AI模型的广泛应用,但这可能只是Meta更深层次动机的次要目标:击败OpenAI。总体而言,Meta的AI战略正在推动一个繁荣的开源AI生态系统,以对抗像OpenAI这样将模型封闭在服务之后的“封闭型”AI提供商。
Meta AI 提供文字与语音聊天、联网搜索、图片生成与编辑等常规功能,还新增“探索动态消息”(Discover feed),让用户看到他人分享的提示词,并可改编使用。Meta 表示,除非用户主动选择分享,个人内容不会公开。
这两个产品的发布目标都是为了推动公司开源Llama AI模型的广泛应用,但这可能只是Meta更深层次动机的次要目标:击败OpenAI。总体而言,Meta的AI战略正在推动一个繁荣的开源AI生态系统,以对抗像OpenAI这样将模型封闭在服务之后的“封闭型”AI提供商。
Meta AI 提供文字与语音聊天、联网搜索、图片生成与编辑等常规功能,还新增“探索动态消息”(Discover feed),让用户看到他人分享的提示词,并可改编使用。Meta 表示,除非用户主动选择分享,个人内容不会公开。
#AI #ChatGPT 来区分一下ChatGPT 各个版本,并看下这些版本的适用场景。这里将分为几类:通用版本(GPT-4、GPT-3.5)、优化版(o3、o4-mini、o4-mini-high)和未来版本(GPT-4.5)。
简单理解:
GPT-4 适用于复杂任务和需要高质量输出的应用,如创意写作、复杂问题解决等。
GPT-3.5 适用于日常对话、内容生成等普通任务。
o4-mini 和 o4-mini-high 是轻量化优化版本,适合低延迟、高并发和计算资源有限的环境。
o3 是更为简化的GPT-3版本,适合简单任务和基础对话。
GPT-4.5(未来版本)可能是 GPT-4 的增强版,具有更强的推理和多模态处理能力,适合高精度任务和专业领域应用。
免费用户通常只能使用GPT-3.5。对于普通日常对话和简单任务,GPT-3.5已经足够好。
简单理解:
GPT-4 适用于复杂任务和需要高质量输出的应用,如创意写作、复杂问题解决等。
GPT-3.5 适用于日常对话、内容生成等普通任务。
o4-mini 和 o4-mini-high 是轻量化优化版本,适合低延迟、高并发和计算资源有限的环境。
o3 是更为简化的GPT-3版本,适合简单任务和基础对话。
GPT-4.5(未来版本)可能是 GPT-4 的增强版,具有更强的推理和多模态处理能力,适合高精度任务和专业领域应用。
免费用户通常只能使用GPT-3.5。对于普通日常对话和简单任务,GPT-3.5已经足够好。