首页/详情

Olla v0.0.24:原生 Anthropic Messages API 支持与多后端自动格式转换

Reddit r/LocalLLaMA2026/02/22 19:35机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

Olla v0.0.24 为本地 LLM 部署引入完整的 Anthropic Messages API,支持直接转发和自动 OpenAI↔Anthropic 格式转换,并新增 Docker Model Runner 与 vLLM‑MLX 后端。跨平台轻量代理实现负载均衡、健康检查和故障转移,适合多后端实验室统一管理。

正文

Olla 是一款用 Go 编写的轻量级代理/负载均衡器,专为本地大语言模型()部署而生。它位于 Ollama、vLLM、SGLang、lama.cpp、LM Studio、LiteLLM 等推理后端之前,提供统一的模型管理、健康检查、故障转移以及基于优先级的负载均衡。单实例内存约 50 MB,响应延迟低于毫秒。

关键更新

  1. Anthropic Messages API 完整实现
    • 新增 /olla/anthropic/v1/messages 端点,兼容所有基于 Anthropic SDK 的工具。
    • 两种通信模式
      • Passthrough:后端本身支持 Anthropic 格式(如 vLLM、lama.cpp、LM Studio、Ollama)时,请求原样转发。
      • Translation:后端仅支持 OpenAI 格式时,Olla 自动完成请求/响应的格式转换,且已从实验阶段升为正式功能。
    • 两种模式均支持流式(stream)传输。
    • 提供统计接口,可监控直接转发率与转换率。
  2. 新增后端集成
    • Docker Model Runner(详见文档)
    • vLLM‑MLX(Apple Silicon 专用)
    • 现已支持的后端列表:Ollama、vLLM、LM Studio、lama.cpp、LiteLLM、SGLang、LM Deploy、Lemonade SDK、Docker Model Runner、vLLM‑MLX。
  3. 跨平台兼容
    • 支持 Linux、macOS(Intel 与 Apple Silicon)、Windows 以及 Docker(amd64/arm64)。
  4. 轻量 UI
    • 简洁的网页界面占用极低系统资源,便于实时监控路由与健康状态。

使用场景

在多机多后端的个人实验室中,只需在每台机器上部署 Olla 并统一配置其接口地址,然后把 OpenAI 或 Anthropic 的请求指向 Olla,即可实现自动路由、故障转移和统一的 API 入口。后端状态变化时,Olla 会即时调整路由规则,免去手动切换的繁琐。

进一步了解

  • GitHub 项目:https://github.com/thushan/olla
  • 官方文档:https://thushan.github.io/olla/
  • UI 预览:https://preview.redd.it/2g13csu981lg1.png?width=915&format=png&auto=webp&s=186ae8e32e49b877342c461d579022982f351835

如有疑问或建议,欢迎在项目仓库提交 Issue 或加入社区讨论。

标签