NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布,采用 MoE 架构,支持多语言和长上下文。其在多个基准测试中表现优异,具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型,并利用其进行复杂任务如分布式限速服务设计。
专题:bedrock
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 5 篇文章。
媒体AWS Machine Learning Blog2026/03/20 01:257820
• NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出
• 支持多语言和长上下文推理
媒体AWS Machine Learning Blog2026/03/13 05:206840
• 新增CloudWatch指标用于监控AI推理延迟
• 提供实时配额使用估算,避免流量限制
AWS在Amazon Bedrock中新增了两个CloudWatch指标,用于实时监控推理延迟和配额使用。`TimeToFirstToken`反映生成第一个令牌的时间,`EstimatedTPMQuotaUsage`提供更准确的配额消耗估算。这些指标无需配置,自动收集,适用于多种API,有助于性能优化和容量管理。
媒体AWS Machine Learning Blog2026/03/10 23:425830
• Oumi简化LLM微调流程
• 模型存储于Amazon S3
本文介绍如何使用Oumi在EC2上微调Llama模型,并通过Amazon Bedrock部署。Oumi简化模型管理流程,支持灵活微调和数据合成,结合AWS生态实现高效部署,适合开发者和研究人员。
官方AWS Machine Learning Blog2026/02/26 04:566850
本文提出Multi-LoRA技术,通过在模型层插入适配器实现多模型共享GPU资源,显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等,已在vLLM 0.15.0中实现,并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。
媒体AWS Machine Learning Blog2026/02/14 06:574760
Amazon Bedrock AgentCore 浏览器近日推出三项关键新功能,显著增强了AI代理的网页浏览能力。这些功能包括:代理配置,允许流量通过企业代理服务器路由,确保IP稳定性并集成现有网络;浏览器配置文件,支持跨会话持久化Cookie和本地存储,实现免登录的认证工作流;以及浏览器扩展程序,允许加载Chrome扩展以自定义浏览器行为。这些更新共同为…