专题：edge-ai

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 9 篇文章。

AI 领域最新动态：Z.ai 推出 GLM-5V‑Turbo 多模态编码模型、Claude 代码泄露争议与 OpenAI TRL v1.0 更新

媒体Latent Space2026/04/02 15:044600

• Z.ai 发布 GLM-5V‑Turbo 多模态编码模型

• Anthropic Claude 代码泄露引发安全争议

4 月 4 日 AI 领域出现多项技术动态：Z.ai 推出面向 GUI 代理的多模态编码模型 GLM-5V‑Turbo；Anthropic Claude 代码意外泄露，引发安全与开源伦理争议；OpenAI 发布统一的 TRL v1.0 框架，提升后训练效率；同时出现边缘部署工具进展和 Discord 短暂宕机等行业信息。

GLM-5V‑Turbo 多模态模型 Claude 代码泄露 TRL v1.0 框架边缘AI 多模态编码

微软×Armada：在Galleon模块化数据中心部署 Azure Local，实现边缘自主 AI

原文

官方Microsoft Azure Blog2026/04/01 00:007600

• 微软与Armada在Galleon MDC部署 Azure Local

• 支持离线或受限网络的边缘 AI 推理

微软与Armada合作，将 Azure Local 主权私有云嵌入 Galleon 模块化数据中心，实现断网或受限网络环境下的边缘自主 AI。方案提供超融合存储、多链路网络、符合监管的安全体系，使政府和受监管行业能够在本地实时运行 AI 推理，确保数据主权与系统韧性。

边缘AI 数据主权云 Azure Local 主权私有云数据治理边缘计算

TinyLoRA：以13个参数实现高效推理的新型模型架构

原文

社区Hacker News2026/03/27 20:115620

• 参数高效微调技术

• 13参数实现强推理

TinyLoRA是基于Transformer的轻量化模型架构，仅需13个参数即可实现高效推理。通过结构优化降低计算和存储需求，保持高性能，适用于嵌入式设备等资源受限场景。该技术突破传统参数微调范式，为边缘计算提供新思路，具有实际部署价值。

参数高效微调 Transformer架构低功耗计算边缘AI 模型压缩

Cloudflare Workers AI集成Kimi K2.5：256K上下文大模型的边缘推理革命

原文

媒体The Cloudflare Blog2026/03/20 03:536940

• Workers AI上线Kimi K2.5大模型，支持256k上下文

• 新增前缀缓存与会话亲和性提升推理效率

Cloudflare在Workers AI上上线Kimi K2.5大模型，支持256k上下文与多模态输入，专为智能代理优化。通过定制推理栈、前缀缓存与会话亲和性等技术，实现边缘高效推理。实际应用中，代码审查成本降低77%，Agents SDK已默认集成，推动AI代理在边缘端规模化落地。

Workers AI Kimi K2.5 前缀缓存会话亲和性边缘AI

在AI Gateway上部署GPT-5.4 Mini与Nano：轻量级LLM的实战指南

原文

官方Vercel Blog2026/03/17 21:005730

• 部署GPT-5.4 Mini和Nano模型于AI Gateway平台

• 模型经量化压缩，适配低显存环境（8-16GB）

本文介绍在AI Gateway平台部署GPT-5.4 Mini和Nano轻量模型的全流程，适用于资源受限环境。模型通过量化压缩，在低显存下保持接近完整版的NLP性能，支持文本生成与问答任务。核心亮点是实测性能数据与平台集成方案，为边缘AI部署提供可落地参考。

GPT-5.4模型模型量化轻量级大模型 AI Gateway 边缘AI

高通发布骁龙可穿戴平台至尊版：20 亿参数模型落地手表等微型设备

原文

媒体量子位2026/03/04 11:116720

高通在 MWC 推出骁龙可穿戴平台至尊版，采用 3 nm 双核 NPU 架构，提供 10 TOPS 算力，可在手表、眼镜等微型设备本地运行 20 亿参数大模型，实现低功耗本地推理，推动个人 AI 全场景落地。

骁龙可穿戴平台至尊版边缘AI NPU 加速可穿戴设备 3 nm 工艺

Jetson 边缘计算实战：开源视觉语言模型（VLM）部署指南

原文

媒体Hugging Face Blog2026/02/24 08:004650

本文提供在 NVIDIA Jetson 边缘计算设备上部署开源视觉语言模型（VLM）的全面指南。内容涵盖模型选择、针对 Jetson 平台的模型优化（如量化、剪枝）、代码适配以及实际应用中的测试与调优。旨在帮助开发者高效集成 VLM，赋能智能视觉系统，扩展边缘设备的智能能力。

Jetson 视觉语言模型边缘AI 模型部署

AMD NPU赋能SDXL-Turbo：Nexa AI携手加速AI图像生成新纪元

原文

社区Reddit r/LocalLLaMA2026/02/22 16:305630

AMD与Nexa AI合作，成功将SDXL-Turbo图像生成模型部署至AMD NPU。通过Nexa AI的模型优化技术，SDXL-Turbo在AMD NPU上实现了高效推理，为开发者在边缘设备上构建强大的AI应用（如图像生成）提供了可能。此次合作标志着AI模型在终端设备上部署能力的显著提升，有望加速AI技术的普及和应用落地。

AMD NPU SDXL-Turbo Nexa AI AI图像生成边缘AI

专用AI代理盒：Jetson Orin Nano Super，20W功耗实现67 TOPS，全天候运行OpenClaw

原文

社区Reddit r/LocalLLaMA2026/02/08 17:4860

一位用户分享了其基于Jetson Orin Nano Super构建的专用AI代理盒设置。该设备功耗仅20W，提供67 TOPS算力，全天候运行OpenClaw，主要作为AI网关处理消息、浏览器自动化、监控及工具执行等任务，而非本地LLM推理（依赖云API）。尽管8GB内存不足以进行本地大模型推理，但其低功耗和GPU加速使其成为高效、经济的AI代理解决方案…

Jetson Orin Nano Super AI代理 OpenClaw 低功耗边缘AI