OpenAI近期在紧凑型推理模型o4-mini上引入了强化微调技术(RFT),为开发者提供了一种全新的工具,旨在帮助他们将基础模型定制化以适应特定任务需求。这一技术的推出,标志着OpenAI在模型微调领域迈出了重要一步。
RFT技术巧妙地将强化学习原理应用于语言模型的微调过程中,打破了传统微调模式的局限。以往,开发者主要依赖标注数据来调整模型,而现在,他们可以通过设计任务特定的评分函数来评估模型输出。这些评分函数基于自定义标准,如准确性、格式或语气,为模型表现打分。模型则通过优化奖励信号,逐步学习并生成符合期望的行为。
o4-mini是OpenAI于今年4月发布的一款紧凑型推理模型,具备文本和图像输入功能,尤其擅长结构化推理和链式思维提示。RFT技术在o4-mini上的应用,为开发者提供了一个既轻量又强大的基础模型,非常适合处理高风险、领域特定的推理任务。其高效的计算能力和快速的响应速度,使得o4-mini在实时应用场景中表现出色。
使用RFT技术需要经历四个关键步骤:首先,开发者需要设计评分函数;其次,准备高质量的数据集;然后,通过OpenAI API启动训练任务;最后,持续评估和优化模型表现。这一流程使得RFT技术在处理复杂任务时尤为有效,尤其是在那些难以定义标准答案的领域,如医疗和法律等。
在医疗领域,开发者可以通过程序评估解释的清晰度和完整性,从而指导模型不断改进。同样,在法律和代码生成等领域,RFT技术也展现出了其定制化优势。多家早期采用者已经成功在o4-mini上应用了RFT技术,并取得了显著成果。
目前,RFT技术已经向认证组织开放。训练费用为每小时100美元,若使用GPT-4o等模型作为评分工具,则还需按标准推理费率额外计费。为了鼓励数据共享,OpenAI还推出了激励措施。同意共享数据集用于研究的组织,可以享受50%的训练费用折扣。这一举措不仅降低了使用RFT技术的成本,还促进了学术界和工业界的合作与交流。