专题：llm-as-a-judge

开源LLM评判工具：系统化评估本地大模型性能与推理过程

社区Reddit r/LocalLLaMA2026/02/15 16:472840

该开源工具利用“LLM作为评判者”机制，旨在系统化评估本地大语言模型（如LLaMA-3、Qwen-Coder）在RAG和代码任务中的性能。它提供多模型对比、LLM智能评分、推理过程记录及结果导出等功能，可用于代码模型评估、回归测试和生成微调偏好数据。作者强调提示词敏感性和中间步骤记录的重要性，并呼吁社区分享可复用评估工具的经验。

LLM-as-a-Judge 模型评估本地大型语言模型检索增强生成开源工具