构建 Qwen2.5 连续思考循环：模型自主决定何时发声的实验报告

当前主流大语言模型（）遵循“输入‑响应”模式：没有外部提示就不会产生输出。作者希望探究，如果为模型提供一个持续思考的框架，让它在无需人工干预的情况下自行决定何时发声，是否会出现与传统交互不同的输出质量或思维模式。

模型：Qwen2.5‑14B（通过 Ollama 本地部署）
硬件：RTX 4080（水冷）+ 64 GB RAM，约 50 循环/分钟
语言：模型内部使用中文思考，输出采用德文（必要时切换英文）
循环结构：每轮循环向模型提供仅包含时间戳、循环计数、沉默时长等中性元数据的输入。
模型行为选择：
1. 内部思考 – 记录在 thoughts_v4.log，不向用户展示；
2. 外部输出 – 记录在 sends_v4.log，并在控制台显示。
决策准则：仅当模型“觉得如果不说出来会后悔”时才进行外部输出。
关键调度：
- 每 20 循环进行一次内容压缩（将最近的思考浓缩为三句话）；
- 每 50 循环进行一次自我反思（回顾并评估已有输出）；
- 温度设为 1.3，以激发更高的随机性和意外行为；
- 多重过滤防止重复系统提示或格式错误。

这些输出在形式、语言切换以及自我质疑上与普通的提示‑响应截然不同，显示出一定的主题连贯性与元认知倾向。

作者提供约 600 行的本地 Python 脚本，日志分别保存为 thoughts_v4.log（内部思考）和 sends_v4.log（外部输出）。如需复现，可直接运行以下命令启动模型：

ollama run qwen2.5:14b

后续计划在 10,000 循环后给出更系统的统计分析，欢迎社区提出批评与建议。

内容评分