大模型资讯聚合站

专题：model-inference

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

大模型推理中的Token级可观测性工程实践

媒体InfoQ 中文2026/03/26 18:005830

• Token级推理监控方法

• 实现方案与性能挑战

本文介绍大模型推理中Token级可观测性的工程实践，旨在提升模型运行时的监控精度。通过日志追踪、事件记录和嵌入式监控等方法，实现对每个Token的处理状态分析，帮助优化推理性能。文章提供了代码示例和实际部署中的挑战分析，具有较高的技术参考价值。

Token级可观测性模型推理可观测性工程性能优化 AI模型部署

MiroMind发布MiroThinker-1.7，专注复杂推理与验证

媒体量子位2026/03/16 14:507940

• MiroThinker-1.7实现SOTA推理性能

• 模型支持黄金价格与F1赛事预测

MiroMind发布MiroThinker-1.7和H1模型，专注复杂推理与验证。在多个基准测试中取得SOTA成绩，成功预测F1赛事和黄金价格，采用智能体原生训练与验证机制，提升推理深度与准确性。

模型推理重型求解器智能体原生训练验证机制实际应用

Microsoft Foundry 集成 Fireworks AI：开放模型高性能推理新方案

官方Microsoft Azure Blog2026/03/11 15:008920

• Fireworks AI集成Microsoft Foundry

• 支持多模型推理与部署选项

Microsoft Foundry 集成 Fireworks AI，为企业提供统一的开放模型推理平台。该方案支持多款主流模型，包含无服务器部署和 PTU 计费模式，日处理能力达 13 万亿 tokens，每秒处理 18 万请求。核心亮点在于打通模型全生命周期管理，通过 BYOW 功能实现自定义权重部署，解决传统方案中工具碎片化导致的扩展难题，助力开发者高效…

模型部署模型优化 Azure AI平台微软Foundry Fireworks AI

LLM量化：新手困惑与求助

社区Reddit r/LocalLLaMA2026/02/08 18:2530

一位刚接触本地模型运行的用户，对LLM量化技术感到非常困惑。他表示难以理解GGUF及其他常见量化方式，如int4、int8、Q4_K_M、Q5_K_M、iQ4_K_M等具体含义及区别。同时，对于F16、BF16、FP16、FP8等浮点精度格式也一头雾水。尽管查阅了现有解释，但因其复杂性而未能理解，因此寻求社区的帮助与指导。

大模型量化 GGUF格式整数量化浮点精度模型推理