DoorDash构建了一个基于大模型的对话模拟与评估闭环,用于客服机器人的规模化测试。该系统通过生成模拟对话数据,评估AI客服性能,并实现自动化优化。核心亮点包括高效的数据生成、多维度评估指标和闭环反馈机制,有助于提升用户体验并降低成本。
专题:model-evaluation
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 12 篇文章。
本文评估了在电商搜索中微调的SPLADE稀疏嵌入模型,通过基准测试和难例挖掘分析其性能。文章提供了完整的评估代码和工具,对开发者和研究人员具有实际参考价值。
DeepBench是一个开源AI工作台,旨在简化大型语言模型的评估流程。它支持模型搜索、消融实验、对战测试和VRAM预测,结合PyTorch、HuggingFace Hub、Streamlit等技术栈,为开发者提供统一的控制面板。项目鼓励社区贡献,具有较高的实用价值。
近期AI/LLM领域动态频发,Anthropic凭借190亿美元年化收入展现强劲商业化能力,预示大模型市场竞争白热化。同时,Google的Gemini 3.1 Flash-Lite和OpenAI的GPT-5.3 Instant等轻量级、高效率模型加速迭代,推动AI应用向更低延迟、更广场景渗透。开源社区方面,Qwen团队成员的离职引发对开源项目稳定性和人才流…
本文分析了模型蒸馏技术在中国LLMs中的应用及其重要性,同时探讨了SWE-Bench测试中模型的‘作弊’行为,揭示了AI训练与评估中的关键问题与趋势。
作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端,对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示,IQ2 版在 20 K+ 上下文下实现约 100 TPS,速度是 Q4_K_M 的 5 倍,且显存占用仅 10 GB。质量方面,高中‑大学题目几乎与 Q4 持平,只有极端学术题目略有差距。…
该开源工具利用“LLM作为评判者”机制,旨在系统化评估本地大语言模型(如LLaMA-3、Qwen-Coder)在RAG和代码任务中的性能。它提供多模型对比、LLM智能评分、推理过程记录及结果导出等功能,可用于代码模型评估、回归测试和生成微调偏好数据。作者强调提示词敏感性和中间步骤记录的重要性,并呼吁社区分享可复用评估工具的经验。
LM Arena 评测揭示了一个名为 'rotten-apple' 的模型,其表现远低于预期。该模型疑似基于 Llama 2 7B 进行深度安全对齐调优,虽然一致性极高,但整体性能却如同小模型,在对战模式中屡战屡败。此评测对关注模型对齐技术和性能评估的开发者及研究人员具有参考价值,揭示了过度对齐可能带来的性能瓶颈。
本文聚焦AI代理的可观测性与评估方法,探讨如何通过数据收集与分析提升代理的透明度和可靠性。介绍了任务评估与模型评估两种方式,为开发者提供系统优化的思路。
一位研究人员声称成功越狱了52个最新AI模型中的43个,并指出GPT-5在第二级安全防护中被攻破。该研究者发布了详细的越狱报告,并表示将持续更新此基准测试,纳入更多模型进行评估。这一发现揭示了当前AI模型在安全性和鲁棒性方面存在的潜在漏洞,对AI伦理和安全防护提出了新的挑战,值得业界关注和深入探讨。
一位用户分享了其为大语言模型(LLM)构建的个人基准测试,旨在评估模型在逐步推理、数学、指令遵循、歧义处理、解释能力及在线搜索等多个维度的表现。测试结果令人意外:在约15个问题中,GPT-OSS:20b在用户标准下常优于OpenAI和Mistral模型。同时,GLM-4.7-REAP-23b-a3b表现远逊于QWEN-3-VL-8b。该非正式测试揭示了大型…
2026年2月AI领域动态涵盖融资、代理架构、多模态生成与模型评测。Cerebras融资突破230亿美元,VS Code和GitHub Copilot集成Claude与Codex代理,METR评估GPT-5.2表现,Perplexity发布DRACO基准,vLLM在GB200上实现性能飞跃,同时多模态生成和研究进展显著,推动AI技术向更实用、更智能的方向发…