官方Engineering at Meta2026/04/03 03:594800
• 自动化内核生成系统
• 跨异构硬件优化
KernelEvolve是Meta开发的代理式内核优化系统,针对异构AI硬件(NVIDIA/AMD GPU、MTIA芯片)实现自动化内核生成。通过LLM合成器、树搜索引擎和检索增强知识库,系统可跨平台优化模型性能,显著提升推理和训练吞吐量。该技术已应用于生产环境,优化每天数万亿次的广告模型推理请求,标志着AI软硬件协同优化的新范式。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
KernelEvolve是Meta开发的代理式内核优化系统,针对异构AI硬件(NVIDIA/AMD GPU、MTIA芯片)实现自动化内核生成。通过LLM合成器、树搜索引擎和检索增强知识库,系统可跨平台优化模型性能,显著提升推理和训练吞吐量。该技术已应用于生产环境,优化每天数万亿次的广告模型推理请求,标志着AI软硬件协同优化的新范式。
smolcluster 是一个基于 Python socket 的教育型分布式训练框架,重新实现了 EDP、SyncPS、FSDP、DP、MP、PP 等主流并行算法,并在 Mac Mini、Raspberry Pi、GPU 与 Jetson 等异构硬件上完成测试。项目以单文件形式提供,旨在帮助学生和研究者从底层网络层面学习分布式系统原理。