专题:edge-ai

按该标签聚合的大模型资讯列表(自动分类与标签提取)。9 篇文章。

媒体Latent Space2026/04/02 15:044600
Z.ai 发布 GLM-5V‑Turbo 多模态编码模型
Anthropic Claude 代码泄露引发安全争议

4 月 4 日 AI 领域出现多项技术动态:Z.ai 推出面向 GUI 代理的多模态编码模型 GLM-5V‑Turbo;Anthropic Claude 代码意外泄露,引发安全与开源伦理争议;OpenAI 发布统一的 TRL v1.0 框架,提升后训练效率;同时出现边缘部署工具进展和 Discord 短暂宕机等行业信息。

官方Microsoft Azure Blog2026/04/01 00:007600
微软与Armada在Galleon MDC部署 Azure Local
支持离线或受限网络的边缘 AI 推理

微软与Armada合作,将 Azure Local 主权私有云嵌入 Galleon 模块化数据中心,实现断网或受限网络环境下的边缘自主 AI。方案提供超融合存储、多链路网络、符合监管的安全体系,使政府和受监管行业能够在本地实时运行 AI 推理,确保数据主权与系统韧性。

社区Hacker News2026/03/27 20:115620
参数高效微调技术
13参数实现强推理

TinyLoRA是基于Transformer的轻量化模型架构,仅需13个参数即可实现高效推理。通过结构优化降低计算和存储需求,保持高性能,适用于嵌入式设备等资源受限场景。该技术突破传统参数微调范式,为边缘计算提供新思路,具有实际部署价值。

媒体The Cloudflare Blog2026/03/20 03:536940
Workers AI上线Kimi K2.5大模型,支持256k上下文
新增前缀缓存与会话亲和性提升推理效率

Cloudflare在Workers AI上上线Kimi K2.5大模型,支持256k上下文与多模态输入,专为智能代理优化。通过定制推理栈、前缀缓存与会话亲和性等技术,实现边缘高效推理。实际应用中,代码审查成本降低77%,Agents SDK已默认集成,推动AI代理在边缘端规模化落地。

官方Vercel Blog2026/03/17 21:005730
部署GPT-5.4 Mini和Nano模型于AI Gateway平台
模型经量化压缩,适配低显存环境(8-16GB)

本文介绍在AI Gateway平台部署GPT-5.4 Mini和Nano轻量模型的全流程,适用于资源受限环境。模型通过量化压缩,在低显存下保持接近完整版的NLP性能,支持文本生成与问答任务。核心亮点是实测性能数据与平台集成方案,为边缘AI部署提供可落地参考。

媒体Hugging Face Blog2026/02/24 08:004650

本文提供在 NVIDIA Jetson 边缘计算设备上部署开源视觉语言模型(VLM)的全面指南。内容涵盖模型选择、针对 Jetson 平台的模型优化(如量化、剪枝)、代码适配以及实际应用中的测试与调优。旨在帮助开发者高效集成 VLM,赋能智能视觉系统,扩展边缘设备的智能能力。

社区Reddit r/LocalLLaMA2026/02/22 16:305630

AMD与Nexa AI合作,成功将SDXL-Turbo图像生成模型部署至AMD NPU。通过Nexa AI的模型优化技术,SDXL-Turbo在AMD NPU上实现了高效推理,为开发者在边缘设备上构建强大的AI应用(如图像生成)提供了可能。此次合作标志着AI模型在终端设备上部署能力的显著提升,有望加速AI技术的普及和应用落地。

社区Reddit r/LocalLLaMA2026/02/08 17:4860

一位用户分享了其基于Jetson Orin Nano Super构建的专用AI代理盒设置。该设备功耗仅20W,提供67 TOPS算力,全天候运行OpenClaw,主要作为AI网关处理消息、浏览器自动化、监控及工具执行等任务,而非本地LLM推理(依赖云API)。尽管8GB内存不足以进行本地大模型推理,但其低功耗和GPU加速使其成为高效、经济的AI代理解决方案…