专题:inference

按该标签聚合的大模型资讯列表(自动分类与标签提取)。6 篇文章。

官方AWS Machine Learning Blog2026/03/17 04:517830
AWS部署百万级NVIDIA GPU
EC2支持新型Blackwell GPU

AWS与NVIDIA在2026年GTC大会上深化AI合作,部署百万级GPU、支持新型EC2实例、优化分布式LLM推理及提升Apache Spark性能。此举旨在帮助企业构建稳定、可扩展且合规的AI生产系统,为开发者和研究人员提供更强大的工具。

官方Microsoft Azure Blog2026/03/11 15:007520
Fireworks AI 集成 Microsoft Foundry
高性能开放模型推理服务

微软推出 Fireworks AI 服务,集成于 Microsoft Foundry 平台,为企业提供高性能、低延迟的开放模型推理能力。该服务支持无服务器架构和按令牌计费,允许用户直接部署自定义模型权重,覆盖模型评估、部署、治理等全生命周期管理。核心亮点包括企业级安全合规、灵活定价模式及与 Azure 生态的深度整合,助力开发者高效实现AI应用从实验到生产…

媒体AINews2026/02/18 13:447830
Claude Opus/Sonnet 4.6智能指数提升
Qwen 3.5开源并优化推理效率

多款AI模型更新,包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。

媒体Sean Goedecke2026/02/15 08:006840

本文对比了Anthropic和OpenAI的LLM快速推理技术,分析其速度提升机制与模型能力差异。Anthropic通过小批量处理提升速度,而OpenAI借助Cerebras芯片实现更高加速。尽管快速推理在某些场景有优势,但模型的错误率可能影响用户体验。文章揭示了AI实验室在硬件与算法上的创新方向。

媒体Hugging Face Blog2026/01/06 06:565460

NVIDIA 发布的 Cosmos Reason 2 为物理 AI 引入统一、高效的推理框架,支持视觉、触觉和动力学模型的协同计算,并具备自适应环境感知和最新 GPU 加速能力。该平台可提升自动驾驶、机器人和智能制造等场景的决策速度与鲁棒性,为智能系统的下一步发展提供技术支撑。