LuYF-Lemon-love の Blog
00266 NLP Course - Byte-Pair Encoding tokenization 00266 NLP Course - Byte-Pair Encoding tokenization
前言字节对编码(Byte-Pair Encoding,BPE)最初是作为一种文本压缩算法开发的,然后被OpenAI用于在预训练GPT模型时进行分词。它被许多Transformer模型使用,包括GPT、GPT-2、RoBERTa、BART和D
00264 处理文本数据 00264 处理文本数据
前言本指南展示了处理文本数据集的特定方法。学习如何: 使用 map() 对数据集进行分词。 为 NLI 数据集将数据集标签与标签 ID 对齐。 有关如何处理任何类型数据集的指南,请查看通用处理指南。 src link: https://
00263 NLP Course - Normalization and pre-tokenization 00263 NLP Course - Normalization and pre-tokenization
前言在深入探讨 Transformer 模型中常用的三种最常见的子词分词算法(Byte-Pair Encoding [BPE],WordPiece 和 Unigram)之前,我们首先来看看每个分词器对文本应用的预处理步骤。以下是分词管道中步
00254 NLP Course - Fast tokenizers in the QA pipeline 00254 NLP Course - Fast tokenizers in the QA pipeline
前言我们现在将深入问答管道,看看如何利用偏移量从上下文中抓取手头问题的答案,就像我们在上一节中对分组实体所做的那样。然后,我们将了解如何处理被截断的非常长的上下文。如果你对问答任务不感兴趣,可以跳过这一节。 src link: https:
00252 NLP Course - Fast tokenizers’ special powers 00252 NLP Course - Fast tokenizers’ special powers
前言在本节中,我们将更深入地了解🤗 Transformers中的分词器的功能。到目前为止,我们只使用它们来分词输入或将ID解码回文本,但分词器——特别是那些由🤗 Tokenizers库支持的分词器——可以做更多的事情。为了说明这些附加功
00251 NLP Course - Training a new tokenizer from an old one 00251 NLP Course - Training a new tokenizer from an old one
前言如果你感兴趣的语言中没有语言模型,或者你的语料库与你的语言模型训练的语料库非常不同,你很可能会想使用适合你数据的标记器从头开始重新训练模型。这将需要在你的数据集上训练一个新的标记器。但这究竟意味着什么呢?当我们在第二章中第一次查看标记器
00250 NLP Course - Introduction 00250 NLP Course - Introduction
前言在第三章中,我们探讨了如何在给定任务上微调模型。当我们这样做时,我们使用与模型预训练时相同的标记器——但是,当我们想从头开始训练一个模型时,我们该怎么办呢?在这些情况下,使用在其他领域或语言语料库上预训练的标记器通常不是最佳选择。例如,
00249 NLP Course - 🤗 Datasets, check! 00249 NLP Course - 🤗 Datasets, check!
前言哇,这真是一次穿越🤗 Datasets库的旅程——恭喜你走了这么远!从本章中获得的知识,你应该能够: 从任何地方加载数据集,无论是Hugging Face Hub、你的笔记本电脑,还是你公司的远程服务器。 使用Dataset.map
00243 NLP Course - Semantic search with FAISS 00243 NLP Course - Semantic search with FAISS
前言在第5节中,我们创建了来自🤗 Datasets仓库的GitHub问题和评论的数据集。在本节中,我们将使用这些信息构建一个搜索引擎,帮助我们找到关于库的最紧迫问题的答案! src link: https://huggingface.co
00242 vLLM 学习笔记 00242 vLLM 学习笔记
前言vLLM是一个快速且易于使用的LLM推理和服务库。 vLLM速度很快: 最先进的服务吞吐量 使用PagedNote有效管理注意力键和值内存 传入请求的连续批处理 使用CUDA/HIP图快速执行模型 量化:GPTQ、A
00241 NLP Course - Creating your own dataset 00241 NLP Course - Creating your own dataset
前言有时,构建一个自然语言处理(NLP)应用程序所需的数据集并不存在,因此你需要自己创建它。在本节中,我们将向你展示如何创建一个GitHub问题的语料库,这些问题通常用于跟踪GitHub仓库中的错误或特性。这个语料库可以用于多种目的,包括:
00240 NLP Course - Big data? 🤗 Datasets to the rescue! 00240 NLP Course - Big data? 🤗 Datasets to the rescue!
前言如今,发现自己正在处理多吉字节数据集的情况并不少见,特别是如果你计划从头开始预训练像 BERT 或 GPT-2 这样的变压器模型。在这些情况下,即使是加载数据也可能是一个挑战。例如,用于预训练 GPT-2 的 WebText 语料库包含
1 / 8