大模型资讯聚合站

专题：edge-computing

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 9 篇文章。

微软×Armada：在Galleon模块化数据中心部署 Azure Local，实现边缘自主 AI

官方Microsoft Azure Blog2026/04/01 00:007600

• 微软与Armada在Galleon MDC部署 Azure Local

• 支持离线或受限网络的边缘 AI 推理

微软与Armada合作，将 Azure Local 主权私有云嵌入 Galleon 模块化数据中心，实现断网或受限网络环境下的边缘自主 AI。方案提供超融合存储、多链路网络、符合监管的安全体系，使政府和受监管行业能够在本地实时运行 AI 推理，确保数据主权与系统韧性。

边缘AI 数据主权云 Azure Local 主权私有云数据治理边缘计算

从云原生到AI原生：新一代基础设施的模型驱动演进

媒体InfoQ 中文2026/03/27 01:356830

• 云原生向AI原生演进

• 模型驱动提升系统效率

本文探讨了从云原生到AI原生基础设施的演进趋势，强调模型驱动在构建新一代系统中的关键作用。分析了AI原生架构的技术特点、应用场景及面临的挑战，为开发者和研究人员提供了有价值的参考。

AI原生基础设施模型驱动云计算资源优化边缘计算

Cloudflare第13代服务器：核心增倍，缓存优化，边缘计算性能突破

媒体The Cloudflare Blog2026/03/23 21:007960

• Turin处理器核心数翻倍，缓存容量减少

• FL2重构解决缓存瓶颈，提升吞吐量

Cloudflare发布第13代服务器，采用AMD EPYC Turin处理器，通过重构FL1为FL2，实现吞吐量翻倍、延迟降低70%。核心亮点在于硬件与软件协同优化，提升边缘计算性能与能效。

AMD EPYC处理器 Rust 边缘计算性能优化缓存设计

国内首个国产AI推理千卡集群落地，云天励飞全自研芯片助力AI应用加速

媒体InfoQ 中文2026/03/12 19:557830

• 国内首个国产AI推理千卡集群落地

• 采用云天励飞全自研AI推理芯片

国内首个国产AI推理千卡集群落地，采用云天励飞全自研芯片，提升计算效率并降低能耗，已在多个行业场景中测试应用，具备高能效比和稳定性。

AI芯片推理集群云天励飞边缘计算 AI计算硬件

BitNet：面向本地CPU的1000亿参数1位精度AI模型

社区Hacker News2026/03/11 20:277840

• 1000亿参数模型适配本地CPU

• 采用1位精度降低计算需求

BitNet 是一种面向本地 CPU 的 1000 亿参数、1 位精度的 AI 模型。通过极低精度设计和结构优化，它在资源受限设备上实现了高效运行，兼顾性能与计算效率，为边缘计算和嵌入式 AI 提供了新方案。

BitNet 低精度模型 CPU优化大语言模型边缘计算

字节跳动推出CUDA编写代理，推动设备端AI应用

媒体Import AI2026/03/09 20:457820

• AI发展速度远超预期

• 提出14项研发度量指标

本期《Import AI》聚焦AI研发自动化度量、边缘计算应用及代码生成技术。字节跳动推出CUDA Agent模型，用于编写GPU代码，展示了AI在加速核心研发中的潜力。同时，Ajeya Cotra更新AI发展预测，指出AI自我进化能力增强，可能改变经济格局。研究还提出14项指标用于评估AI研发进展，强调治理的重要性。

AI研究 CUDA编写代理边缘计算 AI 治理 AI 自动化

LiteRT：面向设备端AI的下一代框架，性能提升与NPU支持

官方Google Developers Blog2026/03/05 00:336830

LiteRT是TFLite的升级版，专注于设备端AI，提升GPU效率至1.4倍，支持NPU并优化GenAI模型部署。适用于边缘计算场景，增强AI在移动端和嵌入式设备的性能表现。

LiteRT TensorFlow Lite NPU 加速生成式AI 边缘计算

Google推出FunctionGemma：专为移动设备优化的本地AI功能调用模型

官方Google Developers Blog2026/03/05 00:337840

Google推出FunctionGemma，一款2.7亿参数的本地AI模型，支持设备内功能调用，用于构建低延迟、离线运行的AI应用。其核心亮点在于结合AI Edge和LiteRT-LM技术，实现高效操作导向的体验。

FunctionGemma 边缘计算本地AI 移动AI LiteRT-LM

voxtral.c: 使用纯C语言实现Mistral Voxtral实时4B语音到文本模型的推理

媒体Lobsters AI2026/02/06 15:4430

Mistral的voxtral.c是一个基于纯C语言实现的推理引擎，用于Voxtral实时4B语音到文本模型。它旨在提高推理效率并降低成本，适用于语音数据处理场景。该技术为开发者提供了对模型内部逻辑的深入控制，有助于优化性能和资源管理。

语音识别 CPU 推理边缘计算 C 语言编程