文章介绍评测驱动进化在AI代理中的应用,通过支付迁移案例展示如何构建评估体系并优化模型。核心亮点包括多阶段评测框架、实时数据反馈机制和强化学习算法,为AI技术落地提供工程化方法论。
专题:model-optimization
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 38 篇文章。
Google DeepMind 于 2026 年发布 Gemma 4 系列模型,采用 Apache 2.0 开源许可证,提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态,具备函数调用与结构化 JSON 输出,并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…
文章对比Claude Code与OpenClaw两种LLM架构方案,分析复杂度对模型性能的影响。Claude Code采用模块化设计实现功能扩展,但存在参数冗余问题;OpenClaw通过极简架构降低实现难度。重点探讨架构复杂度与模型效率的平衡,提供代码示例和应用场景分析,为LLM开发提供设计思路参考。
Meta开发的自适应排名模型通过动态调整模型复杂度,解决LLM级广告推荐系统的推理三难问题。该模型采用请求中心架构、硬件协同设计和多卡基础设施优化,实现亚秒级延迟与高参数规模。在Instagram部署后,广告转化率提升3%,点击率增长5%,为大规模推荐系统提供高效解决方案。
Mistral推出Voxtral TTS语音合成模型,融合自回归生成与流匹配技术,性能超越ElevenLabs。同时披露Forge编码器、Leanstral轻量化模型及Mistral 4研发方向,强调开源协作与企业应用落地。技术团队通过架构创新提升语音生成准确度与效率,布局AI语音技术全栈发展。
本文介绍LLM推理中KV缓存的优化方法,将每个令牌的存储开销从300KB降至69KB。通过压缩、分块存储和内存管理等技术,显著提升了模型的推理效率和资源利用率,具有重要的技术参考价值。
多技术平台推出基于CLI的新工具,提升开发者效率。同时,语音模型、实时多模态检索、小型化模型及多代理系统等AI技术取得进展,涵盖基础设施、模型训练与应用优化等多个领域,对AI研究和开发具有重要参考价值。
本文提出了一套针对深度代理的评估体系构建方法,强调通过针对性评估优化代理行为。涵盖多个测试类别和指标,如正确性、效率等,并通过开源实现促进社区协作。核心亮点在于评估与实际生产需求的紧密对齐,以及对模型性能的全面度量。
流式专家技术通过按需加载专家权重,使超大规模语言模型能在内存有限的设备上运行。已实现Qwen3.5-397B-A17B和Kimi K2.5模型在MacBook Pro和iPhone上的运行,处理速度逐步提升。该技术为本地化部署和边缘计算提供了新思路,具有较高的实用价值。
SERHANT 是一种用于加速 AI 模型迭代的实用框架,适用于快速实验和优化。其核心亮点包括模块化设计、自动化流程和高效的数据处理能力,为开发者提供了一套完整的工具链,提升模型开发效率。
本文综述了AI助手功能升级与LLM技术进展,涵盖桌面控制、自我优化、编码自动化、中国模型发展、开源竞争、应用场景及安全挑战。Claude等模型在操作自动化方面取得突破,AI在多个领域提升效率,但性能瓶颈和安全性仍是待解决的问题。
MSA是一种新型注意力机制,通过引入记忆稀疏性减少模型对内存的依赖,提升计算效率。适用于NLP和CV等AI领域,有助于加快训练速度并增强模型泛化能力。
OpenAI 推出‘超级应用’,整合多款 AI 产品争夺企业客户。核心亮点包括 API 优化、定制化服务和多模态能力提升,旨在增强其在大模型领域的竞争力。
OpenAI收购Astral,强化技术整合与产品开发能力。Astral在AI模型优化和多模态处理方面有显著技术积累,此次合作或推动AI商业化进程。
Cursor发布Composer 2编码模型,训练成本降低且通过多项基准测试。OpenAI收购Astral团队强化Python工具链,Anthropic升级Claude Code功能。LangChain推出企业级代理管理平台LangSmith Fleet,聚焦安全与权限控制。AI代理领域加速向集群化管理和运行时机制发展,行业技术演进趋势显著。
本文解析Claude Code的开发路线,引用专家观点,探讨AI大模型的工程实践与优化方法,强调技术选型与训练策略的重要性,为模型开发者提供实用参考。
MiniMax M2.7是具备自我进化能力的SOTA开源模型,在SWE-Pro和Terminal Bench 2任务中分别达到56.22%和57.0%的性能表现。其核心优势在于:1)智能指数50分与GLM-5持平,但成本仅为1/3;2)通过递归机制持续优化技能与架构;3)支持Ollama Cloud等平台部署。小米MiMo-V2-Pro和Cartesia …
Meta 推出排名工程师代理(REA),通过自主 AI 代理加速广告排序模型的 ML 实验流程。REA 能够自主生成假设、管理异步工作流、调试故障并优化模型,显著提升准确率和工程效率。其核心亮点在于自主性、假设多样性与系统稳健性,代表 Meta 在 AI 工程化方向的重要进展。
Kimi大模型推出新架构,优化Transformer结构并对比DeepSeek模型。核心亮点包括注意力机制改进、参数量调整和训练方法优化,提升模型效率和性能,适用于多种AI应用场景。
本文分享了 Anthropic 内部团队在构建 Claude Code 时使用 Skills 的实践经验,涵盖 Skills 分类、编写技巧及分发策略,为开发者提供实用指导。