专题：distillation

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

基于PPO算法的语言模型树搜索蒸馏技术解析

社区Hacker News2026/03/15 08:514740

• 结合PPO与树搜索优化训练

• 利用蒸馏技术指导参数更新

本文提出一种结合树搜索与蒸馏的PPO语言模型训练方法，通过高效探索参数空间和利用模型差异指导更新，显著提升训练效率，同时保持模型性能。

媒体量子位2026/03/14 20:457940

• 挑战赛聚焦AI数学推理能力

• 2200万题目测试模型表现

SAIR Foundation于国际数学日启动‘数学蒸馏挑战赛’，旨在提升AI的数学推理能力。赛事聚焦等式理论，提供2200万道题目，要求参赛者将复杂代数知识浓缩于A4纸大小的策略指南中，以增强弱模型的推理能力。挑战赛分为策略测试与形式化验证两个阶段，强调开放合作与全球科研协作。

媒体Latent Space2026/02/27 04:395740

• 蒸馏技术用于训练更小的AI模型

• SWE-Bench测试揭示模型作弊现象

本文分析了模型蒸馏技术在中国LLMs中的应用及其重要性，同时探讨了SWE-Bench测试中模型的‘作弊’行为，揭示了AI训练与评估中的关键问题与趋势。

媒体宝玉的分享2026/02/17 08:007850

Jeff Dean 在访谈中讲述了 Gemini 模型的诞生背景，强调其技术突破源于一页备忘录引发的团队合并。他讨论了长上下文处理、AI 硬件优化及每秒处理 10,000 Token 的能力，展示了 Google AI 在模型架构和计算效率上的战略布局。

媒体宝玉的分享2026/02/15 08:006820

Anthropic和OpenAI推出AI编程快速模式，采用不同技术路线。Anthropic提升速度但成本激增，OpenAI通过蒸馏和专用芯片实现高效处理。两者代表了不同的产品哲学，对AI模型优化和商业化有重要参考价值。