主页

索引

模块索引

搜索页面

resources

  • Transformers Examples includes scripts to train common NLP tasks in PyTorch and TensorFlow.

  • Transformers Notebooks contains various notebooks on how to fine-tune a model for specific tasks in PyTorch and TensorFlow.

huggingface

huggingface/label-files

huggingface/label-files这个repo提供了一系列常用数据集的标签文件,可以方便地用于构建数据集。 其中包含了如下数据集的标签:

- GLUE数据集: CoLA、SST-2、MRPC、STSB、QQP、MNLI、QNLI、RTE、WNLI等
- SuperGLUE数据集: BoolQ、CB、COPA、MultiRC、ReCoRD、RTE、WiC、WSC等
- SQuAD问答数据集
- XNLI跨语言文本分类数据集
- CONLL NER命名实体识别数据集
- WMT机器翻译数据集
以及其他一些常见语音和视觉数据集。

每个数据集会提供一个json文件,包含id到标签的映射,例如:

{"0": "entailment", "1": "not_entailment"}

我们可以直接使用这些文件中的id到标签的映射,快速构建分类等任务的数据集,不需要手动制作标签文件。 这个repo极大地方便了基于huggingface数据集构建下游任务的流程。我们可以借助已有的标签文件快速组装数据集。

GLUE数据集中的GLUE是General Language Understanding Evaluation的缩写,意为“通用语言理解评估”。 GLUE是一个由九个语言理解任务构成的基准测试,用于评估自然语言理解系统的性能。其包含以下九个子任务:

- CoLA: 句法一致性判断
- SST-2: 情感分析(二分类)
- MRPC: 语义等价判断
- STS-B: 句子相似度评估
- QQP: 问句对判断
- MNLI: 自然语言推理
- QNLI: 问答自然语言推理
- RTE: 文本蕴含
- WNLI: Winograd模式挑战

这些任务涵盖了句法、语义、推理等不同方面的语言理解能力评估。整个GLUE基准要求参与系统在所有九项任务上进行多任务学习,最终得到在GLUE上的加权平均表现分数。GLUE的提出推动了预训练语言模型在通用语言理解任务上的应用研究,是NLP领域很重要的基准之一。

示例:

import json
from huggingface_hub import cached_download, hf_hub_url

repo_id = "huggingface/label-files"
filename = "ade20k-id2label.json"
id2label = json.load(open(cached_download(hf_hub_url(repo_id, filename, repo_type="dataset")), "r"))
id2label = {int(k): v for k, v in id2label.items()}
label2id = {v: k for k, v in id2label.items()}
num_labels = len(id2label)


>>> id2label
{
 0: 'wall',
 1: 'building',
 2: 'sky',
 ...
}
>>> num_labels
150

数据集

智能家居数据集

开放数据集平台

  • https://data.mendeley.com/

  • Mendeley Data是一个性价比很高的开放数据集平台,研究者可以免费访问海量数据,也可以在这里发布和维护自己的数据集,推动科研发展。

  • Mendeley Data是Elsevier出品的一个研究数据集存储和共享平台

主页

索引

模块索引

搜索页面