分类: 大语言模型 | LuYF-Lemon-love の Blog

文章分类
计算机基础 29 实用技巧 9 C/C++和Python混合编程 6 硬件 1 博客 4 C++ 14 杂项 19 Python 48 Paper 16 大语言模型 88 PyTorch 9 动态壁纸 4 干饭 9 Linux 7 算法 1 人工智能 2 Verilog 1 刷题 2
                            
                            00266 NLP Course - Byte-Pair Encoding tokenization
                        
                                前言字节对编码（Byte-Pair Encoding，BPE）最初是作为一种文本压缩算法开发的，然后被OpenAI用于在预训练GPT模型时进行分词。它被许多Transformer模型使用，包括GPT、GPT-2、RoBERTa、BART和D
                            
                                2025-01-12
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00264 处理文本数据
                        
                                前言本指南展示了处理文本数据集的特定方法。学习如何：

使用 map() 对数据集进行分词。
为 NLI 数据集将数据集标签与标签 ID 对齐。

有关如何处理任何类型数据集的指南，请查看通用处理指南。
src link: https://
                            
                                2025-01-11
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00263 NLP Course - Normalization and pre-tokenization
                        
                                前言在深入探讨 Transformer 模型中常用的三种最常见的子词分词算法（Byte-Pair Encoding [BPE]，WordPiece 和 Unigram）之前，我们首先来看看每个分词器对文本应用的预处理步骤。以下是分词管道中步
                            
                                2025-01-11
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00254 NLP Course - Fast tokenizers in the QA pipeline
                        
                                前言我们现在将深入问答管道，看看如何利用偏移量从上下文中抓取手头问题的答案，就像我们在上一节中对分组实体所做的那样。然后，我们将了解如何处理被截断的非常长的上下文。如果你对问答任务不感兴趣，可以跳过这一节。
src link: https:
                            
                                2025-01-01
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00252 NLP Course - Fast tokenizers’ special powers
                        
                                前言在本节中，我们将更深入地了解🤗 Transformers中的分词器的功能。到目前为止，我们只使用它们来分词输入或将ID解码回文本，但分词器——特别是那些由🤗 Tokenizers库支持的分词器——可以做更多的事情。为了说明这些附加功
                            
                                2024-12-24
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00251 NLP Course - Training a new tokenizer from an old one
                        
                                前言如果你感兴趣的语言中没有语言模型，或者你的语料库与你的语言模型训练的语料库非常不同，你很可能会想使用适合你数据的标记器从头开始重新训练模型。这将需要在你的数据集上训练一个新的标记器。但这究竟意味着什么呢？当我们在第二章中第一次查看标记器
                            
                                2024-12-22
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00250 NLP Course - Introduction
                        
                                前言在第三章中，我们探讨了如何在给定任务上微调模型。当我们这样做时，我们使用与模型预训练时相同的标记器——但是，当我们想从头开始训练一个模型时，我们该怎么办呢？在这些情况下，使用在其他领域或语言语料库上预训练的标记器通常不是最佳选择。例如，
                            
                                2024-12-22
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00249 NLP Course - 🤗 Datasets, check!
                        
                                前言哇，这真是一次穿越🤗 Datasets库的旅程——恭喜你走了这么远！从本章中获得的知识，你应该能够：

从任何地方加载数据集，无论是Hugging Face Hub、你的笔记本电脑，还是你公司的远程服务器。
使用Dataset.map
                            
                                2024-12-22
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00243 NLP Course - Semantic search with FAISS
                        
                                前言在第5节中，我们创建了来自🤗 Datasets仓库的GitHub问题和评论的数据集。在本节中，我们将使用这些信息构建一个搜索引擎，帮助我们找到关于库的最紧迫问题的答案！
src link: https://huggingface.co
                            
                                2024-12-12
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00242 vLLM 学习笔记
                        
                                前言vLLM是一个快速且易于使用的LLM推理和服务库。
vLLM速度很快：

最先进的服务吞吐量

使用PagedNote有效管理注意力键和值内存

传入请求的连续批处理

使用CUDA/HIP图快速执行模型

量化：GPTQ、A
                            
                                2024-12-08
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            00241 NLP Course - Creating your own dataset
                        
                                前言有时，构建一个自然语言处理（NLP）应用程序所需的数据集并不存在，因此你需要自己创建它。在本节中，我们将向你展示如何创建一个GitHub问题的语料库，这些问题通常用于跟踪GitHub仓库中的错误或特性。这个语料库可以用于多种目的，包括：
                            
                                2024-12-08
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface
                        
                            00240 NLP Course - Big data? 🤗 Datasets to the rescue!
                        
                                前言如今，发现自己正在处理多吉字节数据集的情况并不少见，特别是如果你计划从头开始预训练像 BERT 或 GPT-2 这样的变压器模型。在这些情况下，即使是加载数据也可能是一个挑战。例如，用于预训练 GPT-2 的 WebText 语料库包含
                            
                                2024-12-08
                            
                                    大语言模型
                                
                            深度学习
                        
                            大语言模型
                        
                            huggingface