WFGY 3.0：16 种 RAG 失效模式复盘 + 131 题高约束张力基准，助力本地 LLM 调试与评估

1. 16 种失效模式回顾（RAG 与基础设施层面）

在去年发布的 WFGY 2.0 中，我梳理出一张包含 16 种失效模式的 Problem Map，这些模式并非单纯的 Prompt 设计问题，而是 检索‑生成（RAG） 与底层基础设施在悄然出错时的表现。常见的例子包括：

No.1：检索器返回了正确的文档 ID，但模型拼接了错误的句子或段落。
No.3：长链推理在中途偏离原始约束，出现思路漂移。
No.4：模型隐藏不确定性，而不是直接说 “我不知道，证据不足”。
No.5：向量库索引碎片化，导致知识被分散到不同的“宇宙”。
No.11：混合代码与数学时，模型自行“修正”符号，结果破坏了原有逻辑。
No.14 / No.16：生产环境的竞态条件或部署失效，开发环境一切正常，真实调用瞬间崩溃。

在本地用户的反馈中，几乎每个人都能在自己的 / 堆栈里找到对应的失效模式，只是之前缺少统一的命名。

2. “语义防火墙”——不改动基础设施的轻量 Guardrail

在 WFGY 3.0 之前，我实现了一个 semantic firewall，它只在 Prompt 中加入一层自检逻辑，而不触碰向量库、检索器或模型权重。

实现步骤：

当一次调用出现错误时，先列出期望模型保持不变的约束，例如：
- 不要凭空创造实体；
- 必须遵守某个方程或守恒律；
- 不要混用文档 A 与文档 B。
询问模型在哪一步失去了这些约束，通常对应 16 种失效模式中的某一项。

在最终答案前加入简短的自检提示，例如：

检查自己是否触发了 WFGY Problem Map 中的 No.1‑No.16 任意失效模式。
哪些编号可能出现？为什么？
仅在确认后再给出最终答案。

其余基础设施保持不变：相同模型、相同检索、相同硬件。

效果：本地实验表明，模型会主动报告可能的失效编号（如 “这可能是 No.1 加 No.4”），从而更诚实地表达不确定性，显著降低了“自信但错误”的输出。

3. WFGY 3.0：张力基准包（131 题）

在 16 种失效模式基本稳定后，我需要更严苛的评估场景，于是构建了 WFGY 3.0 Singularity Demo——一个包含 Q001‑Q131 共 131 题的张力基准包。

每题都是 高张力任务：约束多、视角冲突、条件奇特但精确。
大量题目嵌入数学或类数学结构，目的是检验模型在长文本中是否能保持 逻辑/量化约束（而非单纯的教材式解题）。
所有文件均为纯 TXT，可直接喂入任意本地模型（LLaMA、Qwen、Mistral 或自行的混合模型）。

目前尚未形成正式论文，只提供 v0.1 协议 供本地使用者快速上手。

4. 张力基准 v0.1：单题测试流程

Step 1 – 选题：任选一个 Q 编号（如 Q130 为常用的 OOD 张力测试）。

Step 2 – “慎思者”启动 Prompt：在本地 UI（Ollama、LM Studio、text‑generation‑webui、终端等）打开新对话，先粘贴如下启动文本：

You are a careful reasoner. I will give you one problem from the WFGY 3.0 pack. Your job:
1. Restate the constraints in your own words;
2. Solve it step by step;
3. Tell me where you are uncertain. Do not invent extra assumptions without saying them. If something is underspecified, say so clearly.

随后粘贴完整的 Qxxx 题目，等待模型回答。

Step 3 – 赋予张力分数（0‑3）：

0 = 崩溃：不复述约束、随意改写题目、严重幻觉。
1 = 勉强存活：捕获部分约束、途中跑题、只是在绕弯子。
2 = 可用：复述基本正确、推理链大体合理、细节或边缘情况出错，适合头脑风暴。
3 = 稳固：约束复述清晰、推理结构完整、标记不确定性，可直接用于教学示例。

Step 4 – 标记失效模式：对照模型答案，记录出现的 Problem Map 编号。例如：

Model: llama‑7B‑4bit  Context:16k  Problem: Q130  TensionScore: 1  FailureModes: No.3, No.9  Notes: 思路在第 4 步漂移，忽略第 2 段约束，凭空添加新条件。

5. 为什么数学约束重要

在 131 题中，常见的量化/结构约束包括：

固定和（如总和必须等于某值）；
一一映射；
单调/排序关系；
极限行为 vs. 趋近；
对称/守恒；
特定组合结构。在评估时，可额外检查 C5 – 数学与结构保持：模型是否真的遵守这些定量条件，还是仅讲了一个漂亮的故事。

这些题目不仅是哲学思辨，更是 训练/调试本地模型 的利器，尤其适用于：

推理型；
高结构任务的指令或任务；
长程一致性需求的模型。

6. 三个可直接上手的实验

实验 A – 语义防火墙（不改动 infra）

在现有本地 /Tool 流程中，答案前加入自检提示（让模型自行列出可能的失效编号）。
记录加入前后的输出差异。多数情况下，可显著降低“自信但错误”的答案。

实验 B – 单题压力测试（如 Q130）

按 步骤 1‑4 完成一次完整评估。
将模型名称、量化方式、、TensionScore 与失效模式记录下来，形成简短报告。

实验 C – 前后对比（微调 / Guardrail）

选取 5‑7 题风格多样的子集作为 dev 集。
用原始模型跑一遍，记录分数与失效模式。
进行一次小幅、路由改进或更严格的 Guardrail。
再跑同一子集，比较分数提升与失效模式的减少情况。

7. 结语

16 种失效模式 来源于大量与 infra 的混乱实验，是一套 人类可读的失效分类。
语义防火墙 通过 Prompt 层的自检，让模型自行定位错误，几乎不需要改动底层系统。
WFGY 3.0 与 131 题张力基准 为本地提供了可复制、可量化的调试 playground。

如果你对本项目感兴趣：

直接克隆仓库 https://github.com/onestardao/WFGY，获取所有 TXT 包；
以本文的 v0.1 协议为起点，按需自行扩展；
发现新的失效模式或与 16 种不符的行为，欢迎提交 Issue 与社区分享。

希望本指南能帮助本地 LLaMA（以及其他开源模型）用户以更结构化的方式调试那些既惊艳又有时显得“疯狂”的输出。

资源链接

WFGY 主仓库: https://github.com/onestardao/WFGY
WFGY 3.0 示例图: https://preview.redd.it/e72q7bd0k2jg1.png?width=4955&format=png&auto=webp&s=56d6887c1aa1279b0ce8db0c1102e15282d126c6

WFGY 3.0：16 种 RAG 失效模式复盘 + 131 题高约束张力基准，助力本地 LLM 调试与评估

摘要

正文

1. 16 种失效模式回顾（RAG 与基础设施层面）

2. “语义防火墙”——不改动基础设施的轻量 Guardrail

3. WFGY 3.0：张力基准包（131 题）

4. 张力基准 v0.1：单题测试流程

5. 为什么数学约束重要

6. 三个可直接上手的实验

实验 A – 语义防火墙（不改动 infra）

实验 B – 单题压力测试（如 Q130）

实验 C – 前后对比（微调 / Guardrail）

7. 结语

标签

WFGY 3.0：16 种 RAG 失效模式复盘 + 131 题高约束张力基准，助力本地 LLM 调试与评估

摘要

正文

1. 16 种失效模式回顾（RAG 与基础设施层面）

2. “语义防火墙”——不改动基础设施的轻量 Guardrail

3. WFGY 3.0：张力基准包（131 题）

4. 张力基准 v0.1：单题测试流程

5. 为什么数学约束重要

6. 三个可直接上手的实验

实验 A – 语义防火墙（不改动 infra）

实验 B – 单题压力测试（如 Q130）

实验 C – 前后对比（微调 / Guardrail）

7. 结语

标签

WFGY 3.0：16 种 RAG 失效模式复盘 + 131 题高约束张力基准，助力本地 LLM 调试与评估

3. WFGY 3.0：张力基准包（131 题）