专题：bedrock

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上正式发布

媒体AWS Machine Learning Blog2026/03/20 01:257820

• NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出

• 支持多语言和长上下文推理

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布，采用 MoE 架构，支持多语言和长上下文。其在多个基准测试中表现优异，具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型，并利用其进行复杂任务如分布式限速服务设计。

NVIDIA Amazon Bedrock Mixture‑of‑Experts 架构 Transformer 架构大语言模型

Amazon Bedrock新增CloudWatch指标，提升AI推理工作负载监控能力

原文

媒体AWS Machine Learning Blog2026/03/13 05:206840

• 新增CloudWatch指标用于监控AI推理延迟

• 提供实时配额使用估算，避免流量限制

AWS在Amazon Bedrock中新增了两个CloudWatch指标，用于实时监控推理延迟和配额使用。`TimeToFirstToken`反映生成第一个令牌的时间，`EstimatedTPMQuotaUsage`提供更准确的配额消耗估算。这些指标无需配置，自动收集，适用于多种API，有助于性能优化和容量管理。

CloudWatch AI 推理 Amazon Bedrock TPM配额全栈可观测性

Oumi助力Llama模型微调与部署至Amazon Bedrock

原文

媒体AWS Machine Learning Blog2026/03/10 23:425830

• Oumi简化LLM微调流程

• 模型存储于Amazon S3

本文介绍如何使用Oumi在EC2上微调Llama模型，并通过Amazon Bedrock部署。Oumi简化模型管理流程，支持灵活微调和数据合成，结合AWS生态实现高效部署，适合开发者和研究人员。

Amazon Bedrock 模型部署模型微调大语言模型 Oumi

vLLM助力高效服务多个微调模型：Multi-LoRA技术详解

原文

官方AWS Machine Learning Blog2026/02/26 04:566850

本文提出Multi-LoRA技术，通过在模型层插入适配器实现多模型共享GPU资源，显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等，已在vLLM 0.15.0中实现，并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。

VLLM 多LoRA Mixture‑of‑Experts 架构 Amazon SageMaker Amazon Bedrock

Amazon Bedrock AgentCore 浏览器升级：为AI代理提供企业级浏览能力（代理、会话与扩展）

原文

媒体AWS Machine Learning Blog2026/02/14 06:574760

Amazon Bedrock AgentCore 浏览器近日推出三项关键新功能，显著增强了AI代理的网页浏览能力。这些功能包括：代理配置，允许流量通过企业代理服务器路由，确保IP稳定性并集成现有网络；浏览器配置文件，支持跨会话持久化Cookie和本地存储，实现免登录的认证工作流；以及浏览器扩展程序，允许加载Chrome扩展以自定义浏览器行为。这些更新共同为…

AgentCore 代理配置会话持久化浏览器扩展 Amazon Bedrock