00266 NLP Course - Byte-Pair Encoding tokenization


前言

字节对编码(Byte-Pair Encoding,BPE)最初是作为一种文本压缩算法开发的,然后被OpenAI用于在预训练GPT模型时进行分词。它被许多Transformer模型使用,包括GPT、GPT-2、RoBERTa、BART和DeBERTa。

💡 本节深入介绍了BPE,甚至展示了一个完整的实现。如果你只想了解分词算法的概览,可以跳到结尾部分。

src link: https://huggingface.co/learn/nlp-course/chapter6/5

Operating System: Ubuntu 22.04.4 LTS

参考文档

  1. NLP Course - Byte-Pair Encoding tokenization

训练算法

结语

第二百六十六篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录