前言
Tsinghua University MiniCPM 论文的学习笔记。
操作系统:Windows 11 家庭中文版
信息
论文题目:MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies
发表年份:2024
论文地址:https://arxiv.org/abs/2404.06395
pdf 地址:https://arxiv.org/pdf/2404.06395
为了个人学习研究,论文 pdf 删减版:
- https://github.com/LuYF-Lemon-love/paper-is-all-you-need/blob/main/papers/00003-MiniCPM/colm2024_conference.pdf
- https://cdn.jsdelivr.net/gh/LuYF-Lemon-love/paper-is-all-you-need/papers/00003-MiniCPM/colm2024_conference.pdf
内容
摘要
在这种情况下,我们引入了MiniCPM,特别是1.2B和2.4B非嵌入参数变量,不仅在各自的类别中表现出色,而且展示了与7B-13BLLM相当的能力。在模型缩放方面,我们采用了广泛的模型风洞经验来实现稳定和最佳的缩放。对于数据缩放,我们引入了Warmup-Stable-Decay(WSD)学习速率调度器(LRS),有利于持续训练和域适应。借助WSD LRS,我们现在能够有效地研究数据模型缩放规律,而无需在模型和数据的两个轴上进行大量的重训练实验,从中我们获得了比Chinchilla Optimal更高的计算最佳数据模型比率。MiniCPM模型可公开获得。
结语
第一百二十四篇博文写完,开心!!!!
今天,也是充满希望的一天。