LLama Swap 与 Ollama Swap：动态上下文优化器，突破本地 LLM 上下文限制的利器

为了解决本地部署的大型语言模型（）在处理长对话或复杂指令时常见的“提示内容过长导致上下文超出限制而服务中断”的问题，一项名为 TBG (O)llama Swap + 提示优化器 的创新中间件应运而生。该工具巧妙地置于代理客户端（如 Claude Code CLI、Codex 风格工具）与本地后端（llama.cpp 或 Ollama）之间，旨在提升代理 CLI 的稳定性与持久性。

该中间件的核心功能基于 Benson Wong 的 llama-swap 项目，并在此基础上进行了扩展，主要增加了以下三项关键能力：

多模型并行支持：允许 Ollama 和 llama.cpp 模型并行运行，避免一个模型的效果被另一个模型“掩盖”，从而充分发挥不同模型的优势。
运行时动态上下文配置：支持通过用户界面（UI）或应用程序接口（API）为每个模型独立设置上下文大小，提供了极大的灵活性。
智能提示优化：这是该工具的一大亮点。它能够自动优化输入提示内容，去除冗余信息，并确保提示在当前模型的上下文限制内。优化策略包括：
- off：禁用提示优化。
- limitonly：仅优化超出上下文限制的部分。
- always：强制压缩所有重复内容。
- llmassisted：利用本身来总结之前的对话内容，同时保留最新的对话记录，实现更智能的上下文管理。

技术细节方面，该中间件提供了清晰的 API 接口来管理模型上下文大小 (/api/model/:model/ctxsize) 和提示优化策略 (/api/model/:model/prompt-optimization)。优化后的提示信息会通过响应头 (X-LlamaSwap-Prompt-Optimization-Policy, X-LlamaSwap-Prompt-Optimized) 反馈给请求者，并可通过 /api/model/:model/prompt-optimization/latest 接口获取最新的优化结果，方便用户使用压缩后的上下文重新启动对话。

该项目鼓励社区成员尝试使用、借鉴并进一步改进，其 GitHub 仓库为 https://github.com/Ltamann/tbg-ollama-swap-prompt-optimizer。通过动态调整上下文大小和智能优化提示，该工具为本地应用的稳定运行和长时交互提供了切实可行的解决方案。

LLama Swap 与 Ollama Swap：动态上下文优化器，突破本地 LLM 上下文限制的利器

内容评分

摘要

正文

标签