深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐-复旦大学现代语言学研究院

科研动态

当前位置: 首　　页 > 学术研究 > 科研动态

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

浏览量：时间：2024-05-22

随着 ChatGPT、GPT-4 等大型语言模型的技术创新和广泛应用，这些模型已成为当下的技术热点，革新了我们与机器互动的方式，为各行各业提供了前所未有的模型支持。这些模型在解决复杂问题、自动生成内容和理解复杂指令方面展现出巨大价值。然而这些模型在在对齐人类价值观和偏好方面，仍有所局限。2024年2月，桂韬与自然语言处理实验室团队于深度学习领域国际顶级会议“国际表征学习大会”（The Twelfth International Conference on Learning Representations）发表文章：Improving Generalization of Alignment with Human Preferences through Group Invariant Learning。该文提出了一个全新的技术方法，使基于语言模型的人工智能助手（AI assistants）通过强化学习（RL）在各种数据组或领域中学习一致，并自动将数据分类为不同的组，以最大限度地提高性能差异。该方法自适应地调整探索空间，为更具挑战性的数据分配更多的学习能力，并防止模型对简单数据进行过度优化。实验结果表明，该方法显著提高了训练的稳定性和模型的泛化能力。

链接：https://openreview.net/forum?id=fwCoLe3TAX