00225 NLP Course - Introduction


前言

在第三章中,你首次体验了🤗 Datasets库,并看到了微调模型时的三个主要步骤:

  1. 从Hugging Face Hub加载一个数据集。
  2. 使用Dataset.map()预处理数据。
  3. 加载并计算指标。

但这只是🤗 Datasets库功能的一小部分!在本章中,我们将深入探讨这个库。在这个过程中,我们将找到以下问题的答案:

  • 当你的数据集不在Hub上时,你该怎么办?
  • 你如何切割和细分一个数据集?(如果你真的需要使用Pandas呢?)
  • 当你的数据集非常大,会耗尽你笔记本电脑的内存时,你该怎么办?
  • “内存映射”和Apache Arrow到底是什么?
  • 你如何创建自己的数据集并将其推送到Hub?

你在这里学到的技术将为你准备第6章和第7章中的高级标记化和微调任务——所以,拿一杯咖啡,让我们开始吧!

src link: https://huggingface.co/learn/nlp-course/chapter5/1

Operating System: Ubuntu 22.04.4 LTS

参考文档

  1. NLP Course - Introduction

结语

第二百二十五篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录