专题:model-evaluation

按该标签聚合的大模型资讯列表(自动分类与标签提取)。12 篇文章。

媒体InfoQ 中文2026/03/23 23:006860
构建大模型对话评估闭环
提升客服机器人测试效率

DoorDash构建了一个基于大模型的对话模拟与评估闭环,用于客服机器人的规模化测试。该系统通过生成模拟对话数据,评估AI客服性能,并实现自动化优化。核心亮点包括高效的数据生成、多维度评估指标和闭环反馈机制,有助于提升用户体验并降低成本。

媒体Latent Space2026/03/04 11:114740

近期AI/LLM领域动态频发,Anthropic凭借190亿美元年化收入展现强劲商业化能力,预示大模型市场竞争白热化。同时,Google的Gemini 3.1 Flash-Lite和OpenAI的GPT-5.3 Instant等轻量级、高效率模型加速迭代,推动AI应用向更低延迟、更广场景渗透。开源社区方面,Qwen团队成员的离职引发对开源项目稳定性和人才流…

社区Reddit r/LocalLLaMA2026/02/22 18:375760

作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端,对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示,IQ2 版在 20 K+ 上下文下实现约 100 TPS,速度是 Q4_K_M 的 5 倍,且显存占用仅 10 GB。质量方面,高中‑大学题目几乎与 Q4 持平,只有极端学术题目略有差距。…

社区Reddit r/LocalLLaMA2026/02/15 16:472840

该开源工具利用“LLM作为评判者”机制,旨在系统化评估本地大语言模型(如LLaMA-3、Qwen-Coder)在RAG和代码任务中的性能。它提供多模型对比、LLM智能评分、推理过程记录及结果导出等功能,可用于代码模型评估、回归测试和生成微调偏好数据。作者强调提示词敏感性和中间步骤记录的重要性,并呼吁社区分享可复用评估工具的经验。

社区Reddit r/LocalLLaMA2026/02/15 08:442540

LM Arena 评测揭示了一个名为 'rotten-apple' 的模型,其表现远低于预期。该模型疑似基于 Llama 2 7B 进行深度安全对齐调优,虽然一致性极高,但整体性能却如同小模型,在对战模式中屡战屡败。此评测对关注模型对齐技术和性能评估的开发者及研究人员具有参考价值,揭示了过度对齐可能带来的性能瓶颈。

社区Reddit r/LocalLLaMA2026/02/09 18:5230

一位研究人员声称成功越狱了52个最新AI模型中的43个,并指出GPT-5在第二级安全防护中被攻破。该研究者发布了详细的越狱报告,并表示将持续更新此基准测试,纳入更多模型进行评估。这一发现揭示了当前AI模型在安全性和鲁棒性方面存在的潜在漏洞,对AI伦理和安全防护提出了新的挑战,值得业界关注和深入探讨。

社区Reddit r/LocalLLaMA2026/02/08 20:5340

一位用户分享了其为大语言模型(LLM)构建的个人基准测试,旨在评估模型在逐步推理、数学、指令遵循、歧义处理、解释能力及在线搜索等多个维度的表现。测试结果令人意外:在约15个问题中,GPT-OSS:20b在用户标准下常优于OpenAI和Mistral模型。同时,GLM-4.7-REAP-23b-a3b表现远逊于QWEN-3-VL-8b。该非正式测试揭示了大型…

媒体Latent Space2026/02/05 16:267860

2026年2月AI领域动态涵盖融资、代理架构、多模态生成与模型评测。Cerebras融资突破230亿美元,VS Code和GitHub Copilot集成Claude与Codex代理,METR评估GPT-5.2表现,Perplexity发布DRACO基准,vLLM在GB200上实现性能飞跃,同时多模态生成和研究进展显著,推动AI技术向更实用、更智能的方向发…