Olla v0.0.24:原生 Anthropic Messages API 支持与多后端自动格式转换
Reddit r/LocalLLaMA2026/02/22 19:35机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
Olla v0.0.24 为本地 LLM 部署引入完整的 Anthropic Messages API,支持直接转发和自动 OpenAI↔Anthropic 格式转换,并新增 Docker Model Runner 与 vLLM‑MLX 后端。跨平台轻量代理实现负载均衡、健康检查和故障转移,适合多后端实验室统一管理。
正文
Olla 是一款用 Go 编写的轻量级代理/负载均衡器,专为本地大语言模型()部署而生。它位于 Ollama、vLLM、SGLang、lama.cpp、LM Studio、LiteLLM 等推理后端之前,提供统一的模型管理、健康检查、故障转移以及基于优先级的负载均衡。单实例内存约 50 MB,响应延迟低于毫秒。
关键更新
- Anthropic Messages API 完整实现
- 新增
/olla/anthropic/v1/messages端点,兼容所有基于 Anthropic SDK 的工具。 - 两种通信模式:
- Passthrough:后端本身支持 Anthropic 格式(如 vLLM、lama.cpp、LM Studio、Ollama)时,请求原样转发。
- Translation:后端仅支持 OpenAI 格式时,Olla 自动完成请求/响应的格式转换,且已从实验阶段升为正式功能。
- 两种模式均支持流式(stream)传输。
- 提供统计接口,可监控直接转发率与转换率。
- 新增
- 新增后端集成
- Docker Model Runner(详见文档)
- vLLM‑MLX(Apple Silicon 专用)
- 现已支持的后端列表:Ollama、vLLM、LM Studio、lama.cpp、LiteLLM、SGLang、LM Deploy、Lemonade SDK、Docker Model Runner、vLLM‑MLX。
- 跨平台兼容
- 支持 Linux、macOS(Intel 与 Apple Silicon)、Windows 以及 Docker(amd64/arm64)。
- 轻量 UI
- 简洁的网页界面占用极低系统资源,便于实时监控路由与健康状态。
使用场景
在多机多后端的个人实验室中,只需在每台机器上部署 Olla 并统一配置其接口地址,然后把 OpenAI 或 Anthropic 的请求指向 Olla,即可实现自动路由、故障转移和统一的 API 入口。后端状态变化时,Olla 会即时调整路由规则,免去手动切换的繁琐。
进一步了解
- GitHub 项目:https://github.com/thushan/olla
- 官方文档:https://thushan.github.io/olla/
- UI 预览:https://preview.redd.it/2g13csu981lg1.png?width=915&format=png&auto=webp&s=186ae8e32e49b877342c461d579022982f351835
如有疑问或建议,欢迎在项目仓库提交 Issue 或加入社区讨论。