郭达雅离职引发关注,曾是DeepSeek多款模型核心作者,参与V2到R1研发,提出GRPO强化学习方法,兼具学术与竞赛成就,还曾上综艺展示编程实力。
专题:deepseek
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 8 篇文章。
Kimi大模型推出新架构,优化Transformer结构并对比DeepSeek模型。核心亮点包括注意力机制改进、参数量调整和训练方法优化,提升模型效率和性能,适用于多种AI应用场景。
本文汇总了AI行业近期动态,包括字节跳动暂停Seedance2.0发布、DeepSeek V4计划及央视曝光AI投毒产业链。内容涉及技术调整、产品升级与安全问题,展示了AI领域在发展中的多面性。
DeepSeek AI与清华、北大联合发布新论文,揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型(MoE)和高效注意力机制,显著提升了模型在语言理解、代码生成等任务上的性能和推理速度,同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进,为AI应用开辟新机遇。
本文深入探讨了人工智能推理能力的飞跃,从早期模仿语言到如今的系统性思考。作者以Eric Jang的观点为引,阐述了AI在编程、逻辑推断方面的显著进步,并以AlphaGo和DeepSeek-R1模型为例,解析了推理能力的演进路径和训练方法。文章强调,AI不再是简单的概率拼贴,而是能进行演绎和归纳推理的“思考机器”。这种能力的自动化和规模化将深刻重构生产力、组…
DeepSeek 应用迎来重大更新,现已支持 100 万(1M)的超长上下文窗口,显著提升了模型处理长文本信息的能力。同时,其知识截止日期也更新至 2025 年 5 月,意味着模型能够获取和理解更近期的信息。此次更新对需要处理大量上下文数据的开发者和用户具有重要意义,尽管具体是否为新模型发布以及在开源社区的动态仍待进一步确认。
本文探讨了开源AI生态系统的演进,重点分析了DeepSeek的成功经验及其对AI普及的贡献。文章指出,AI+作为下一代开源AI框架,将通过集成LLM等先进技术,提供更强算力、更优数据处理和更灵活应用,推动AI技术边界的拓展。未来,开发者参与开源社区对AI生态发展至关重要。
本文分析中国开源AI生态系统的架构选择,聚焦DeepSeek等模型,探讨其技术特点与局限,同时指出其他新兴项目在分布式训练、模型压缩等方向的创新。核心亮点在于对架构多样性的强调与技术趋势的洞察。