00122 神经语言模型的缩放定律 (论文学习笔记)


前言

OpenAI 神经语言模型的缩放定律论文论文的学习笔记。

操作系统:Windows 11 家庭中文版

信息

论文题目:Scaling Laws for Neural Language Models

发表年份:2020

论文地址:https://arxiv.org/abs/2001.08361

pdf 地址:https://arxiv.org/pdf/2001.08361

为了个人学习研究,论文 pdf 删减版:

  1. https://github.com/LuYF-Lemon-love/paper-is-all-you-need/blob/main/papers/00001-scaling-laws/main.pdf
  2. https://cdn.jsdelivr.net/gh/LuYF-Lemon-love/paper-is-all-you-need/papers/00001-scaling-laws/main.pdf

内容

摘要

我们研究了交叉熵损失对语言模型性能的经验缩放规律。损失与模型大小数据集大小用于训练的计算量成幂法则,一些趋势跨越七个数量级以上。其他架构细节,如网络宽度或深度,在很宽的范围内影响最小。较大的模型明显更具样本效率,因此最佳计算效率的训练包括在非常适中的数据量上训练非常大的模型,并在收敛前明显停止。

结语

第一百二十二篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录