专题:distributed-training

按该标签聚合的大模型资讯列表(自动分类与标签提取)。7 篇文章。

官方AWS Machine Learning Blog2026/04/02 21:305910
分布式训练加速模型迭代
上下文窗口扩展提升分析能力

TGS通过AWS SageMaker HyperPod实现地震基础模型的分布式训练优化,将训练周期从6个月缩短至5天,同时扩展模型上下文窗口至4.5倍。该方案采用直接S3流式传输、ZeRO-2框架及环注意力机制,解决了大规模三维地震数据处理的效率与扩展性难题,为能源勘探提供更精准的地质分析能力。

媒体Latent Space2026/04/01 14:245820
Claude代码泄露引关注
技术架构细节公开

Claude代码源代码泄露事件曝光了AI/LLM架构、训练方法、RAG技术、Agent系统等核心技术细节,包含模型结构、缓存机制、内存设计、子代理系统及权限控制等实现方案。该事件为开发者和研究人员提供了深入理解大型语言模型底层技术的参考,尽管OpenAI融资进展与ChatGPT用户增长数据被提及,但核心价值仍聚焦于代码层面的技术分析。

媒体Import AI2026/03/16 20:306830
AI可自主优化其他LLM,但效果仍逊于人类
Covenant-72B实现分布式训练,性能接近前沿模型

导入AI 449探讨了LLM自主训练、720亿参数分布式训练及计算机视觉的复杂性。PostTrainBench实验显示AI在训练后阶段可提升模型性能,但尚未超越人类。Covenant-72B在多个测试中表现优异,而CHMv2展示了视觉任务的挑战。文章强调了验证基础设施的重要性,并提出AI可能主导全球软件开发的未来。

媒体InfoQ2026/03/12 17:004830
解决 AKS 上 Ray GPU 资源限制问题
优化机器学习存储资源管理

本文介绍了在 Azure Kubernetes Service 上大规模部署 Ray 服务的实践指南,重点解决 GPU 资源限制、存储分散和凭据过期等问题。适用于 AI 和 LLM 的分布式训练与部署,提供实用解决方案和最佳实践。

社区Reddit r/LocalLLaMA2026/02/22 17:235740

smolcluster 是一个基于 Python socket 的教育型分布式训练框架,重新实现了 EDP、SyncPS、FSDP、DP、MP、PP 等主流并行算法,并在 Mac Mini、Raspberry Pi、GPU 与 Jetson 等异构硬件上完成测试。项目以单文件形式提供,旨在帮助学生和研究者从底层网络层面学习分布式系统原理。

媒体Import AI2025/09/08 20:353850

本期Import AI聚焦AI前沿应用。Hugging Face发布Jupyter智能代理数据集,赋能AI理解代码;Palisade揭示AI驱动的USB黑客工具,成本低廉且隐蔽;EXO Gym简化分布式训练,降低研究门槛;CMPhysBench基准测试显示LLM在凝聚态物理领域准确率达28.8%。这些进展涵盖AI在代码理解、网络安全、科研效率及专业知识评估…