AI逻辑测试:53个模型在‘洗车’问题上的表现分析原文社区Hacker News2026/02/24 04:166850本文对53个AI模型进行‘洗车’逻辑测试,评估其推理能力。结果显示,多数模型表现不佳,甚至低于人类平均水平。测试包含重复实验和详细分析,具有较高的技术研究价值。AI逻辑测试模型性能推理能力人类基准LLM对比