专题:llm-training

按该标签聚合的大模型资讯列表(自动分类与标签提取)。7 篇文章。

媒体AWS Machine Learning Blog2026/03/26 01:307950
Amazon Bedrock支持RFT训练,无需端点配置
使用OpenAI API进行模型强化微调

Amazon Bedrock推出强化微调功能,支持OpenAI兼容API,简化LLM训练流程。通过奖励函数和自动化训练,开发者可高效定制模型,适用于数学推理等任务。文章提供完整代码示例和监控方法,适合开发者和研究人员参考。

媒体Lobsters AI2026/03/11 04:126840
无需调整参数提升模型性能
分析LLM神经架构优化方法

本文介绍了一种无需调整模型参数即可提升大型语言模型在AI排行榜表现的方法。通过深入分析模型的神经架构,作者提出了一种创新的训练或优化策略,展示了如何在不改变权重的情况下实现性能突破。核心亮点在于对模型结构的利用和实验验证。

媒体机器之心2026/02/20 22:404850

香港中文大学与美团联合提出的 Reagent 框架,旨在解决 Agent 训练中奖励信号稀疏的问题。该框架引入了 Agent-RRM 模型,能够对 Agent 的推理过程和工具使用进行细粒度评估,并生成过程分数和文本批评。通过将这些反馈整合到训练中(Reagent-C, Reagent-R, Reagent-U),Reagent 框架显著提升了 Agent…

社区Reddit r/LocalLLaMA2026/02/15 17:154770

本文深度对比了Runpod、Vast.ai和GPUHub三大主流GPU云平台,强调选择不应仅基于价格或硬件规格,而应考量平台架构、目标用户、稳定性、优化潜力及运营责任。Runpod以其易用性成为新手和短期项目的首选,但规模化成本较高。Vast.ai提供极致灵活性和成本效益,适合技术熟练、能自行管理技术栈的用户。GPUHub则专注于企业级应用,提供高可靠性、…