前言
在第三章中,我们探讨了如何在给定任务上微调模型。当我们这样做时,我们使用与模型预训练时相同的标记器——但是,当我们想从头开始训练一个模型时,我们该怎么办呢?在这些情况下,使用在其他领域或语言语料库上预训练的标记器通常不是最佳选择。例如,在一个英语语料库上训练的标记器在对日语文本语料库进行标记时会表现得很差,因为这两种语言在空格和标点符号的使用上有很大的不同。
在本章中,你将学习如何在一个文本语料库上训练一个全新的标记器,这样它就可以用来预训练一个语言模型。这一切都将借助🤗 Tokenizers库来完成,该库提供了🤗 Transformers库中的“快速”标记器。我们将仔细研究这个库提供的特性,并探讨快速标记器与“慢速”版本的区别。
我们将讨论的主题包括:
- 如何训练一个新的标记器,类似于在新的文本语料库上使用的给定检查点的标记器
- 快速标记器的特殊特性
- 当今NLP中使用的三种主要子词标记算法之间的区别
- 如何使用🤗 Tokenizers库从头开始构建一个标记器并在一些数据上训练它
本章介绍的技术将为你准备第七章中创建Python源代码语言模型的部分。让我们首先看看“训练”标记器意味着什么。
src link: https://huggingface.co/learn/nlp-course/chapter6/1
Operating System: Ubuntu 22.04.4 LTS
参考文档
结语
第二百五十篇博文写完,开心!!!!
今天,也是充满希望的一天。