只用 5% 的参数,数学和代码智商的确卓著满血 DeepSeek?
北京大学杨仝训诲团队近期发布了其在高效大型话语模子斟酌标的的一项新恶果——FairyR1-32B 模子。
该模子基于 DeepSeek-R1-Distill-Qwen-32B 基座,通过联接微调与模子归拢本事构建。
斟酌探索了在参数目大幅减少的情况下,模子在特定任务上终了与更大模子相配甚而更优性能的可能性。
以上模子已在 Huggingface 开源。
模子地址:https://huggingface.co/PKU-DS-LAB/FairyR1-32B
FairyR1-32B 模子贯通
FairyR1-32B 模子是在团队前期 TinyR1 责任基础上进行的进一步探索,沿用了"分合蒸馏"的斟酌想路,提议了多种改良步伐,包括自我归拢、多西宾交叉蒸馏、轻蒸馏等步伐,并在数据处置进行了优化,模子精度有了显贵普及。
本次责任要点改良了蒸馏数据的构建历程,对起原于AI-MO/NuminaMath-1.5(数学)和open-thoughts/OpenThoughts-114k(代码)等数据集的原始数据,通过多个"西宾模子"生成谜底,随后对问答数据进行全心筛选、结构转机与想维链优化,并进行多阶段筛选。
筛选过程包括基于谜底的正确性考证(针对数学数据),以及基于长度的筛选(数学数据保留 2k-8k tokens 范围,代码数据保留 4k-8k tokens 范围),最终构建了更具针对性的约6.6k条数学数据和约3.8k条代码数据用于检察。
在模子结构方面,斟酌团队尝试检察两个范畴(数学和代码)的专科模子进行归拢,旨在进一步优化历程和资源耗尽。
这两个专科模子在一致的检察参数下(举例疏浚的学习率和批次大小)颓败检察约 5 个周期后,讹诈AcreeFusion 用具进行了归拢。
本质放弃
在多个公开基准测试中,FairyR1 展现出了在低参数目下的竞争力推崇。以下为 FairyR1 与 DeepSeek-R1-671B 及 DeepSeek-R1-Distill-Qwen-32B 在部分基准上的得分对比:
基准测试
DeepSeek-R1-671B(满血版)
DeepSeek-R1-Distill-Qwen-32B
FairyR1-32B ( 北京大学 )
数学智商 AIME 2024
79.8
72.6
80.4
数学智商 AIME 2025
70.0
52.9
75.6
代码智商 LiveCodeBench
65.9
57.2
67.7
科常识答智商 GPQA-Diamond
71.5
62.1
59.6
从测试放弃不错看出,FairyR1-32B 在 AIME 2025 和 LiveCodeBench 基准上得分略高于 DeepSeek-R1-671B,在 AIME 2024 上推崇接近。在 GPQA-Diamond 科学基准上,FairyR1 的得分低于 DeepSeek-R1-671B。
这些放弃标明,FairyR1 在聘任 DeepSeek-R1-Distill-Qwen-32B 基座并经过特定本事处置后,好像在约 5% 参数目的情况下,在数理和编程等范畴终了与大型模子相配或略优的性能水平,但在科学等其他范畴可能存在差距。
这项责任探索了通过优化的数据处置和模子和会本事,在保证特定任务性能的前提下,大幅镌汰模子范畴和潜在推理资本的可能性。
北京大学杨仝训诲团队暗意:" FairyR1-32B 模子是咱们探索高效大型话语模子本事道路的阶段性恶果。通过对蒸馏和归拢步伐的改良,咱们初步考证了在有限资源下终了高性能模子的可行性。"
团队成员:李旺、周俊廷、刘文睿、姚一伦、王融乐、杨仝
一键三连「点赞」「转发」「注重心」
接待在评述区留住你的观点!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见赌钱赚钱软件官方登录