专题：inference

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 6 篇文章。

AWS与NVIDIA深化AI合作，推动生产级AI部署

官方AWS Machine Learning Blog2026/03/17 04:517830

• AWS部署百万级NVIDIA GPU

• EC2支持新型Blackwell GPU

AWS与NVIDIA在2026年GTC大会上深化AI合作，部署百万级GPU、支持新型EC2实例、优化分布式LLM推理及提升Apache Spark性能。此举旨在帮助企业构建稳定、可扩展且合规的AI生产系统，为开发者和研究人员提供更强大的工具。

NVIDIA Blackwell架构 AWS弹性纤维适配器 NIXL 通信库 Nemotron模型强化微调

Microsoft Foundry 集成 Fireworks AI：高性能开放模型推理上云

原文

官方Microsoft Azure Blog2026/03/11 15:007520

• Fireworks AI 集成 Microsoft Foundry

• 高性能开放模型推理服务

微软推出 Fireworks AI 服务，集成于 Microsoft Foundry 平台，为企业提供高性能、低延迟的开放模型推理能力。该服务支持无服务器架构和按令牌计费，允许用户直接部署自定义模型权重，覆盖模型评估、部署、治理等全生命周期管理。核心亮点包括企业级安全合规、灵活定价模式及与 Azure 生态的深度整合，助力开发者高效实现AI应用从实验到生产…

模型部署模型优化 Azure 人工智能微软Foundry Fireworks AI

多AI模型更新与技术进展：Claude Opus、Qwen 3.5、GLM-5及Gemini 3.1 Pro

原文

媒体AINews2026/02/18 13:447830

• Claude Opus/Sonnet 4.6智能指数提升

• Qwen 3.5开源并优化推理效率

多款AI模型更新，包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。

大语言模型自主智能体基准测试检索增强生成推理速度

Anthropic与OpenAI的LLM快速推理技术对比分析

原文

媒体Sean Goedecke2026/02/15 08:006840

本文对比了Anthropic和OpenAI的LLM快速推理技术，分析其速度提升机制与模型能力差异。Anthropic通过小批量处理提升速度，而OpenAI借助Cerebras芯片实现更高加速。尽管快速推理在某些场景有优势，但模型的错误率可能影响用户体验。文章揭示了AI实验室在硬件与算法上的创新方向。

大语言模型推理速度硬件优化小批量处理 Cerebras芯片

NVIDIA 推出 Cosmos Reason 2：提升物理 AI 推理能力的全新平台

原文

媒体Hugging Face Blog2026/01/06 06:565460

NVIDIA 发布的 Cosmos Reason 2 为物理 AI 引入统一、高效的推理框架，支持视觉、触觉和动力学模型的协同计算，并具备自适应环境感知和最新 GPU 加速能力。该平台可提升自动驾驶、机器人和智能制造等场景的决策速度与鲁棒性，为智能系统的下一步发展提供技术支撑。

NVIDIA Cosmos Reason 2 物理AI 推理速度自动驾驶

从零开始理解LLM推理：第一章解析

原文

媒体Ahead of AI2025/03/29 19:114720

本书第一章介绍了LLMs中的推理概念，探讨了推理与模式匹配的区别，以及提升推理能力的关键方法，如性能优化和强化学习。内容为理解LLM推理机制提供了基础，后续章节将通过编码示例展示实际应用。

推理推理速度强化学习 LLM训练自然语言处理