Olla v0.0.24：原生 Anthropic Messages API 支持与多后端自动格式转换

Olla 是一款用 Go 编写的轻量级代理/负载均衡器，专为本地大语言模型（）部署而生。它位于 Ollama、vLLM、SGLang、lama.cpp、LM Studio、LiteLLM 等推理后端之前，提供统一的模型管理、健康检查、故障转移以及基于优先级的负载均衡。单实例内存约 50 MB，响应延迟低于毫秒。

关键更新

Anthropic Messages API 完整实现
- 新增 /olla/anthropic/v1/messages 端点，兼容所有基于 Anthropic SDK 的工具。
- 两种通信模式：
  - Passthrough：后端本身支持 Anthropic 格式（如 vLLM、lama.cpp、LM Studio、Ollama）时，请求原样转发。
  - Translation：后端仅支持 OpenAI 格式时，Olla 自动完成请求/响应的格式转换，且已从实验阶段升为正式功能。
- 两种模式均支持流式（stream）传输。
- 提供统计接口，可监控直接转发率与转换率。
新增后端集成
- Docker Model Runner（详见文档）
- vLLM‑MLX（Apple Silicon 专用）
- 现已支持的后端列表：Ollama、vLLM、LM Studio、lama.cpp、LiteLLM、SGLang、LM Deploy、Lemonade SDK、Docker Model Runner、vLLM‑MLX。
跨平台兼容
- 支持 Linux、macOS（Intel 与 Apple Silicon）、Windows 以及 Docker（amd64/arm64）。
轻量 UI
- 简洁的网页界面占用极低系统资源，便于实时监控路由与健康状态。

使用场景

在多机多后端的个人实验室中，只需在每台机器上部署 Olla 并统一配置其接口地址，然后把 OpenAI 或 Anthropic 的请求指向 Olla，即可实现自动路由、故障转移和统一的 API 入口。后端状态变化时，Olla 会即时调整路由规则，免去手动切换的繁琐。

进一步了解

GitHub 项目：https://github.com/thushan/olla
官方文档：https://thushan.github.io/olla/
UI 预览：https://preview.redd.it/2g13csu981lg1.png?width=915&format=png&auto=webp&s=186ae8e32e49b877342c461d579022982f351835

如有疑问或建议，欢迎在项目仓库提交 Issue 或加入社区讨论。

Olla v0.0.24：原生 Anthropic Messages API 支持与多后端自动格式转换

内容评分

摘要

正文

关键更新

使用场景

进一步了解

标签