媒体AINews2026/03/03 13:447660
• Gemini 3.1 Flash-Lite性能提升显著
• GPT-5.3 Instant优化对话与幻觉
谷歌DeepMind发布Gemini 3.1 Flash-Lite,提升效率与多模态处理能力;OpenAI推出GPT-5.3 Instant,优化对话自然度与减少幻觉;Qwen因人员变动面临发展不确定性。文章聚焦AI模型的性能提升、产品更新及组织变化,反映行业技术与生态的动态演进。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 3 篇文章。
谷歌DeepMind发布Gemini 3.1 Flash-Lite,提升效率与多模态处理能力;OpenAI推出GPT-5.3 Instant,优化对话自然度与减少幻觉;Qwen因人员变动面临发展不确定性。文章聚焦AI模型的性能提升、产品更新及组织变化,反映行业技术与生态的动态演进。
一位研究人员声称成功越狱了52个最新AI模型中的43个,并指出GPT-5在第二级安全防护中被攻破。该研究者发布了详细的越狱报告,并表示将持续更新此基准测试,纳入更多模型进行评估。这一发现揭示了当前AI模型在安全性和鲁棒性方面存在的潜在漏洞,对AI伦理和安全防护提出了新的挑战,值得业界关注和深入探讨。
文章指出,准确评估新AI模型(如GPT-5)的真实性能需数月时间。传统的评估数据集因设计困难、覆盖面有限及AI公司可能进行“benchmaxxing”而不可靠。同时,依赖直觉或“vibe check”也极易产生错觉。唯一可靠但耗时的方法是让模型处理实际复杂问题。这种评估困境使得判断AI发展是否停滞变得异常艰难,尤其当模型智能超越人类时,其进一步的进步可能难…