专题:model-deployment

按该标签聚合的大模型资讯列表(自动分类与标签提取)。13 篇文章。

媒体InfoQ 中文2026/03/31 22:526730
OpenClaw是企业级AI训练框架
支持模型开发到部署的全流程

OpenClaw是一个开源AI训练框架,旨在满足企业对AI技术应用的系统性需求。它通过模块化架构和可扩展性,帮助企业实现从模型开发到部署的全流程管理。文章还探讨了AI落地所需的上岗体系,强调了团队协作和生产环境适配的重要性。

官方Microsoft Azure Blog2026/03/11 15:007520
Fireworks AI 集成 Microsoft Foundry
高性能开放模型推理服务

微软推出 Fireworks AI 服务,集成于 Microsoft Foundry 平台,为企业提供高性能、低延迟的开放模型推理能力。该服务支持无服务器架构和按令牌计费,允许用户直接部署自定义模型权重,覆盖模型评估、部署、治理等全生命周期管理。核心亮点包括企业级安全合规、灵活定价模式及与 Azure 生态的深度整合,助力开发者高效实现AI应用从实验到生产…

媒体Lobsters AI2026/02/28 16:161840

本文探讨了将AI/ML模型打包为Conda包的技术实践,旨在解决模型部署中常见的依赖管理、环境复现性及跨平台兼容性挑战。文章指出,Conda凭借其强大的环境隔离、二进制包管理和精确依赖控制能力,成为MLOps流程中模型分发的理想选择。通过创建Conda Recipe(`meta.yaml`文件)并利用`conda-build`工具,开发者可以定义模型的元数…

媒体Hugging Face Blog2026/02/24 08:004650

本文提供在 NVIDIA Jetson 边缘计算设备上部署开源视觉语言模型(VLM)的全面指南。内容涵盖模型选择、针对 Jetson 平台的模型优化(如量化、剪枝)、代码适配以及实际应用中的测试与调优。旨在帮助开发者高效集成 VLM,赋能智能视觉系统,扩展边缘设备的智能能力。

媒体AWS Machine Learning Blog2026/02/21 04:265670

2025年,Amazon SageMaker AI在模型训练、调优和托管方面取得了显著进展。本文重点介绍了其在可观测性、模型定制和托管功能上的深度升级。通过引入细粒度指标,用户可精准诊断性能瓶颈和资源浪费,并利用CloudWatch实现主动监控与自动响应。无服务器模型定制简化了调优流程,支持RLVR/RLAIF等高级技术,并兼容主流模型。此外,双向流、IP…

社区Reddit r/LocalLLaMA2026/02/15 18:472540

本文探讨了Ring-mini-linear-2.0等浅层混合注意力模型在智能代理应用中的性能与挑战。这类模型,如Ring-V2,以其较小的参数量(仅为Kimi-Linear和Nemotron-3-Nano的一半)和更少的层数(减少约20%)为特点,并声称在智能代理场景下表现良好。然而,有用户反馈在实际部署和运行Ring-V2模型时遇到了困难,未能使其正常工…

社区Reddit r/LocalLLaMA2026/02/10 17:0250

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑…

社区Reddit r/LocalLLaMA2026/02/09 20:3940

本帖提供了一套完整的Python脚本,详细演示了Hugging Face XLM-RoBERTa-Base模型INT8量化过程,旨在解决内存限制。通过将`joeddav/xlm-roberta-large-xnli`模型转换为TensorFlow Lite格式并应用INT8量化,成功将模型大小从约560MB压缩至35MB。内容涵盖TFLite模型生成、验证…

社区Reddit r/LocalLLaMA2026/02/08 19:2840

一位用户发帖询问,是否有社区成员成功在 CPU 上运行过 GLM-OCR 模型。他计划将其与 llama.cpp 结合使用,但发现目前缺乏 GLM-OCR 的 GGUF 格式模型文件,导致集成困难。该用户正在寻求解决方案或替代建议,以在 CPU 环境下部署 GLM-OCR 并实现与 llama.cpp 的兼容性。这反映了在特定硬件和软件生态中部署AI模型时…