resources ######### * `Transformers Examples `_ includes scripts to train common NLP tasks in PyTorch and TensorFlow. * `Transformers Notebooks `_ contains various notebooks on how to fine-tune a model for specific tasks in PyTorch and TensorFlow. huggingface =========== huggingface/label-files ----------------------- huggingface/label-files这个repo提供了一系列常用数据集的标签文件,可以方便地用于构建数据集。 其中包含了如下数据集的标签:: - GLUE数据集: CoLA、SST-2、MRPC、STSB、QQP、MNLI、QNLI、RTE、WNLI等 - SuperGLUE数据集: BoolQ、CB、COPA、MultiRC、ReCoRD、RTE、WiC、WSC等 - SQuAD问答数据集 - XNLI跨语言文本分类数据集 - CONLL NER命名实体识别数据集 - WMT机器翻译数据集 以及其他一些常见语音和视觉数据集。 每个数据集会提供一个json文件,包含id到标签的映射,例如:: {"0": "entailment", "1": "not_entailment"} 我们可以直接使用这些文件中的id到标签的映射,快速构建分类等任务的数据集,不需要手动制作标签文件。 这个repo极大地方便了基于huggingface数据集构建下游任务的流程。我们可以借助已有的标签文件快速组装数据集。 GLUE数据集中的GLUE是General Language Understanding Evaluation的缩写,意为“通用语言理解评估”。 GLUE是一个由九个语言理解任务构成的基准测试,用于评估自然语言理解系统的性能。其包含以下九个子任务:: - CoLA: 句法一致性判断 - SST-2: 情感分析(二分类) - MRPC: 语义等价判断 - STS-B: 句子相似度评估 - QQP: 问句对判断 - MNLI: 自然语言推理 - QNLI: 问答自然语言推理 - RTE: 文本蕴含 - WNLI: Winograd模式挑战 这些任务涵盖了句法、语义、推理等不同方面的语言理解能力评估。整个GLUE基准要求参与系统在所有九项任务上进行多任务学习,最终得到在GLUE上的加权平均表现分数。GLUE的提出推动了预训练语言模型在通用语言理解任务上的应用研究,是NLP领域很重要的基准之一。 示例:: import json from huggingface_hub import cached_download, hf_hub_url repo_id = "huggingface/label-files" filename = "ade20k-id2label.json" id2label = json.load(open(cached_download(hf_hub_url(repo_id, filename, repo_type="dataset")), "r")) id2label = {int(k): v for k, v in id2label.items()} label2id = {v: k for k, v in id2label.items()} num_labels = len(id2label) >>> id2label { 0: 'wall', 1: 'building', 2: 'sky', ... } >>> num_labels 150 数据集 ====== 智能家居数据集 -------------- * Continuous In-the-wild Smartwatch Activity Data: https://github.com/WSU-CASAS/smartwatch-data * https://casas.wsu.edu/datasets/ 开放数据集平台 -------------- * https://data.mendeley.com/ * Mendeley Data是一个性价比很高的开放数据集平台,研究者可以免费访问海量数据,也可以在这里发布和维护自己的数据集,推动科研发展。 * Mendeley Data是Elsevier出品的一个研究数据集存储和共享平台