专题：model-comparison

阿里千问发布Qwen3.5-Max预览版，在权威盲测平台LMArena中击败所有国际与国产模型，登顶中国最强AI模型。其在数学与文本能力子榜均居中国第一，总榜全球第六，首次实现对GPT-5.4和Claude 4.6的超越。该模型延续‘小参数大性能’策略，8款开源模型全系SOTA，标志着中国大模型正式进入全球第一梯队。

Qwen3.5 LMArena盲测榜模型对比阿里云AI 开源模型

Apple Silicon M3 Ultra 上的 LLM 性能实测：GPT-OSS:120B 领跑，Nemotron Nano 潜力初显

原文

社区Reddit r/LocalLLaMA2026/02/15 11:284830

本文对 Apple Silicon M3 Ultra 平台上的大型语言模型（LLM）进行了性能实测。在 llama.cpp 环境下，使用 10000 token 的深度上下文生成任务作为评测标准，GPT-OSS:120B 以其出色的速度和通用性脱颖而出，成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM…

推理性能 Apple Silicon llama.cpp 模型对比

Amazon SageMaker AI推出基于Amazon Nova的LLM评判器，实现动态评分标准与精准模型评估

原文

媒体AWS Machine Learning Blog2026/02/07 00:2940

Amazon SageMaker AI推出基于Amazon Nova的LLM评判器，支持动态评分标准生成，可精准评估生成式AI模型输出。该评判器通过自动生成评估规则，提升模型迭代和数据质量控制的效率，具备可解释性、灵活性和高准确性三大核心亮点，适用于多种AI应用场景。

LLM评估 Amazon Nova Amazon SageMaker AI 动态评分模型对比

AI道德预测实验：人类与机器的伦理分歧

原文

媒体Dynomight2025/06/19 08:007840

文章通过道德情景测试AI模型对人类价值观的理解，对比AI与人类预测结果，揭示AI在伦理判断上的局限性。涉及普通与极端道德问题，提供数据与分析，对AI伦理研究具有参考价值。

伦理考量模型对比 AI伦理道德困境 LLM预测