本地 LLM 在真实项目管理工具调用上的性能基准测试：单次请求 vs. 智能循环

本文对 17 个本地部署的大型语言模型（）在真实的项目管理工具（MCP）调用任务上的性能进行了详尽的基准测试。测试并非基于模拟函数调用，而是通过生产级 API 进行实际交互，涵盖了 19 个工具，并遵循真实的验证流程获取结果。

测试方法分为两种模式：

测试环境为配备 4080 显卡（16GB 显存）和 64GB 内存的计算机，使用 LM Studio 进行模型部署，并通过自定义 Python 脚本与 Workunit 应用的管理 API（支持 19 个工具）进行交互。

值得注意的是，其中有 5 个模型未经过专门的工具调用训练（根据 LM Studio 元数据标注），旨在考察模型在缺乏特定训练下的自主推理能力。

测试任务根据难度划分为三个级别：

测试结果显示，单次请求与智能循环模式对模型性能影响显著。具体数据对比图表（链接已省略）展示了不同模型在各级别任务上的表现，以及智能循环模式下的得分差异。

内容评分