model¶

Multilingual models¶

XLM¶

xlm-clm-enfr-1024¶

xlm-clm-enfr-1024是一个多语言预训练的语言模型,具有以下特征:

- 基于XLM(Facebook的跨语言预训练语言模型),支持100种语言。
- 预训练使用英语和法语语料,可以处理英语和法语文本。
- 输入为文本序列,输出对应的词向量表示。
- 模型大小为1GB,包含1024个隐层单元。
- 提供了XLMTokenizer用于文本tokenize,以及XLMWithLMHeadModel作为模型实现。
- 可以进行Masked语言建模(MLM)、Next Sentence Prediction(NSP)等下游任务fine-tuning。
- 预训练目标是联合 masked language modeling 和翻译语言建模。
- 采用SentencePiece进行词元化,支持词汇表共享。
- 支持PyTorch框架,可以灵活集成。
- 预训练质量高,是英语和法语领域的通用语言表示模型。

总之,xlm-clm-enfr-1024是一个高质量的跨语言预训练模型,可以作为英法两语区域NLP任务的强大预训练语言模型基线。

示例:

tokenizer = XLMTokenizer.from_pretrained("xlm-clm-enfr-1024")
model = XLMWithLMHeadModel.from_pretrained("xlm-clm-enfr-1024")

XLM with language embeddings:

xlm-mlm-ende-1024 (Masked language modeling, English-German)
xlm-mlm-enfr-1024 (Masked language modeling, English-French)
xlm-mlm-enro-1024 (Masked language modeling, English-Romanian)
xlm-mlm-xnli15-1024 (Masked language modeling, XNLI languages)
xlm-mlm-tlm-xnli15-1024 (Masked language modeling + translation, XNLI languages)
xlm-clm-enfr-1024 (Causal language modeling, English-French)
xlm-clm-ende-1024 (Causal language modeling, English-German)

XLM without language embeddings:

xlm-mlm-17-1280 (Masked language modeling, 17 languages)
xlm-mlm-100-1280 (Masked language modeling, 100 languages)

xlm-mlm-ende-1024¶

xlm-mlm-ende-1024是一个多语言Mask语言模型(MLM),主要功能和特点包括:

- 该模型由Facebook AI研究院在2019年提出,支持100种语言。
- 采用Transformer架构,并在编码器部分进行多语言预训练。
- 预训练目标是masked language modeling (MLM),即预测被遮挡的语言词汇。
- 支持1024个Transformer块,参数量约为570亿。
- 训练数据包含100种语言的维基百科文本数据,总计约250GB。
- 支持跨语言的表示学习,一个模型就可以处理100种语言。
- 通过在大规模多语言数据集上预训练,获得了强大的语言理解能力。
- xlm-mlm-ende-1024是一个通用的多语言语义表示模型,可应用于下游跨语言自然语言处理任务中。
- 开源发布后受到广泛关注,被视为多语言预训练模型的重要进展。

XLM-RoBERTa¶

The following XLM-RoBERTa models can be used for multilingual tasks:

xlm-roberta-base (Masked language modeling, 100 languages)
xlm-roberta-large (Masked language modeling, 100 languages)

M2M100¶

The following M2M100 models can be used for multilingual translation:

facebook/m2m100_418M (Translation)
facebook/m2m100_1.2B (Translation)

facebook/m2m100_418M¶

facebook/m2m100_418M 是一个大型的多语言对多语言机器翻译模型，由 Facebook AI 研究院训练并开源。

主要特点:

采用 Transformer 架构，基于 Fairseq 代码库实现。
训练数据包括 100 种语言对，总计 418 万对句子。覆盖语言非常广泛。
支持直接端到端多语言翻译，不需要中继语言。
性能较强，在 WMT、Flores 翻译测试集上表现良好。
模型大小为 1.1GB (半精度),inference 速度快。
开源且无需许可，可以自由使用在商业产品中。
预训练模型可直接下载使用，简单方便。
支持添加自定义词典来改进翻译质量。
可在 CPU、GPU 等硬件上部署，适合不同场景。

整体来说，这是一个非常强大且实用的多语言机器翻译模型，值得推荐使用。它的开源特性也使其易于集成到各种产品和服务中。

m2m100_418M是Facebook在2022年开源的一个多模态大模型,主要特征是:

- 采用Transformer作为模型架构,包含文本编码器和视觉编码器。
- 文本编码器采用T5结构,视觉编码器采用Vision Transformer结构。
- 模型参数量达到418亿,使用了大量训练数据,包括4000万张图像和1700万段文本。
- 训练目标是进行视觉问答,即根据图片内容来回答自然语言问题。
- 模型支持100种语言,可以进行跨语言的视觉问答。
- 开源的模型包括英文、德文、法文、意大利文、日文、韩文、简体中文、繁体中文等版本。
- m2m100展示了视觉与语言的多模态预训练的强大能力,是一种统一的多语言多模态模型。
- 该模型仍然有进一步提升的空间,后续工作将会在模型规模、训练数据、泛化能力等方面进行改进。

示例:

tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_418M", src_lang="zh")
model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_418M")

chinese_text = "不要插手巫師的事務, 因為他們是微妙的, 很快就會發怒."
encoded_zh = tokenizer(chinese_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_zh, forced_bos_token_id=tokenizer.get_lang_id("en"))

tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

wav2vec2¶

facebook/wav2vec2-base¶

facebook/wav2vec2-base是一个由Facebook AI研究院训练的音频表示模型,属于Wav2Vec2系列。该模型的主要特点是:

- 无监督预训练:在大规模语音数据上通过自监督学习获得语音表示,没有标签数据。
- 基于 transformers:模型结构基于transformers,包含时间和频域的卷积层,多层自注意力机制。
- 输出语音表示:模型可以直接输出语音的表征向量表示,包含丰富的语义信息。
- 小模型大小:相比BERT系列,wav2vec2-base模型大小更小,只有95M参数。
- 应用广泛:预训练表示可 Fine-tune 在各种下游语音任务,包括语音识别、音频分类等。
- 性能优异:在多个公开语音数据集上表现优于传统MFCC特征。
- 易于使用:提供了方便的API,可以快速应用到项目中。

总体来说,wav2vec2-base是一个非常强大的语音表示模型,具有预训练的优势,可以广泛地应用到语音领域的任务中,是音频领域很有价值的预训练模型之一。

示例:

# For Audio Classification
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/wav2vec2-base")
model = AutoModelForAudioClassification.from_pretrained("facebook/wav2vec2-base")


# For ASR
processor = AutoProcessor.from_pretrained("facebook/wav2vec2-base")
model = AutoModelForCTC.from_pretrained("facebook/wav2vec2-base")

Text to speech¶

suno/bark¶

https://github.com/suno-ai/bark

suno/bark是一个语音合成模型,具有以下特征:

- 基于Facebook的BARK模型,可以生成高质量的英语语音。BARK采用流式设计,可以快速生成语音。
- 预训练模型suno/bark已在LibriTTS英语语料库上进行fine-tune,可以生成自然的英语语音。
- 输入为英文文本,输出为16kHz采样率的单声道语音波形。
- 模型大小仅有87MB,非常轻量级,适合在各种环境下部署。
- 支持PyTorch和TensorFlow两种框架,可以灵活地集成到不同的项目中。
- 提供了AutoProcessor和BarkModel两个类,可以通过简单的API进行语音合成。
- 预训练模型质量较高,合成语音清晰流畅,语调自然。
-  Open-source社区维护,后续会继续优化和完善模型。

总体来说,suno/bark是一个非常理想的英语TTS模型选择,可直接用于产品中,同时也为研究人员提供了一个优秀的语音合成基线。

示例:

processor = AutoProcessor.from_pretrained("suno/bark")
model = BarkModel.from_pretrained("suno/bark")

Whisper¶

Whisper 是一个面向文本的非常大规模的神经网络模型，由 OpenAI 于 2022 年 9 月开源。其主要特点包括:

模型规模巨大，包含了 1000 亿参数，是目前公开的最大的参数量模型之一。
基于 Transformers 架构，采用了类似 GPT 的编码器 - 解码器结构。
可以直接对原始语音进行识别转录，也可生成人类语音。
训练数据集包含了 660,000 小时 (合 75 年) 的语音数据，涵盖多种语言。
采用了一些技术来控制生成内容的安全性。
拥有语音识别、语音合成、文字转语音、语音翻译等多种应用潜力。
目前还有一定局限，如音素错误、语法错误、生成可信信息等。
对未来 voice AI 技术产生重大影响，代表语音 AI 发展新方向。
研究引发了对大模型安全性、伦理规范等方面的广泛关注和讨论。

总体来说，Whisper 是一个划时代的大模型，预示着语音 AI 进入新的阶段，但也给社会带来新的挑战。

ImageClassification¶

ViT¶

Google发布的一个VISION Transformer(ViT)模型。

google/vit-base-patch16-224-in21k¶

这是一个在大规模图像数据集ImageNet-21k上预训练的Transformer模型,用于计算机视觉领域。其主要特点如下:

- 基于Transformer:利用自注意力机制Capture全局信息。
- Patch分割:输入图片被分割为16x16的patches,每个patch生成一个向量。
- 大模型规模:Base模型包含86M参数。
- 高精度:top-1准确率可达83%。
- 预训练数据:使用了包含1400万张图像、21741分类的ImageNet-21k数据集。
- 易fine-tune:可以在下游任务中加入新的头部进行迁移Fine-tuning。
- 占用内存小:比 CNN 模型更高效。

这个ViT模型展示了Transformer在计算机视觉领域也可以取得非常强大的效果。可以用来进行图像分类、对象检测等任务。在下游任务中只需要加入新的分类头,就可以进行端到端的Fine-tuning,做出非常高精度的图像分类器。

示例:

checkpoint = "google/vit-base-patch16-224-in21k"
image_processor = AutoImageProcessor.from_pretrained(checkpoint)
model = AutoModelForImageClassification.from_pretrained(
     checkpoint,
     num_labels=len(labels),
     id2label=id2label,
     label2id=label2id,
 )

SemanticSegmentation¶

nvidia/mit-b0¶

nvidia/mit-b0是一个针对语义分割预训练的Transformer模型,由Nvidia基于Megatron框架训练获得。其关键特征为:

- 模型结构:基于Vision Transformer,使用分割注意力机制。
- 预训练任务:在ADE20K数据集上进行像素级预测进行预训练。
- 模型规模:基础版本mit-b0包含32M参数。
- 输入分辨率:高512,宽512。
- 速度快:基础版本可达到每秒处理8幅图像。
- 性能卓越:在多个语义分割数据集上达到或超越CNN模型的效果。
- 易于fine-tune:可在downstream任务中直接fine-tune。
- 可扩展性强:提供了小型到超大型的系列模型。

nvidia/mit-b0展示了Transformer模型在语义分割领域也可以达到极强的效果,甚至超过现有CNN模型。它可以作为通用的语义分割预训练模型,然后fine-tune到各种下游分割任务中,实现快速高效的语义分割。整体来说,该模型为Transformer在计算机视觉更广阔的应用提供了有力案例。

示例:

checkpoint = "nvidia/mit-b0"
image_processor = AutoImageProcessor.from_pretrained(checkpoint, reduce_labels=True)
model = AutoModelForSemanticSegmentation.from_pretrained(checkpoint, id2label=id2label, label2id=label2id)

ZeroShotObjectDetection¶

Owl-ViT¶

Owl-ViT是一种改进的Vision Transformer (ViT) 模型架构,主要特点是:

- 提出了一种称为本地分组自注意力(Locally Grouped Self-Attention)的机制,对ViT的自注意力机制进行改进,使其对小尺寸图像也更有效。
- 将图像划分成较小的非重叠patch,然后在每个局部邻域内学习patch之间的关系。
- 引入了多尺度结构,不同级别的注意力模块负责不同的视野范围,既保留全局信息,也学习局部细节。
- 通过引入残差连接,缓解了自注意力模块堆叠导致的过拟合问题。
- 相比ViT,Owl-ViT的参数量和计算量更小,训练速度更快。
- 在多个视觉任务上性能优于ViT,尤其在小样本和低分辨率图像上。

总体来说,Owl-ViT对ViT进行了改进,使其更适合计算资源受限而数据不足的实际场景。它比ViT参数量减小60%以上,计算量减小70%以上,但性能优于ViT。Owl-ViT是一个轻量高效的ViT改进版本。

google/owlvit-base-patch32¶

google/owlvit-base-patch32是一个基于Owl-ViT模型架构的图像分类预训练模型,主要特点如下:

- 发布者:Google。
- 模型结构:Owl-ViT-B,采用Vision Transformer的网络架构。
- 输入:32x32大小的图像patch,形状为[3, 32, 32]。
- 预训练数据集:JFT-300M数据集,包含3亿张图像。
- 预训练任务:图像分类,可以区分3000个类别。
- 模型参数量:8600万。
- 应用:适用于迁移学习,可以初始化下游任务的backbone。在图像分类、目标检测等任务上有很好的表现。
- 权重文件大小:336MB。
- 推理速度快,是实际部署的理想选择。

Owl-ViT改进了ViT的局部注意力机制,使其对小尺寸图像也适用。google/owlvit-base-patch32是一个计算成本低但效果强劲的图像分类预训练模型,适合在各种视觉任务中使用。它是一个高效实用的选择。

示例:

checkpoint = "google/owlvit-base-patch32"
model = AutoModelForZeroShotObjectDetection.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)

# pipeline
pipeline(model=checkpoint, task="zero-shot-object-detection")

ZeroShotImageClassification¶

openai/clip-vit-large-patch14¶

示例:

checkpoint = "openai/clip-vit-large-patch14"
model = AutoModelForZeroShotImageClassification.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)

# pipeline
detector = pipeline(model=checkpoint, task="zero-shot-image-classification")

ObjectDetection¶

DETR¶

DETR(End-to-End Object Detection with Transformers)是Facebook AI研究院在2020年提出的使用Transformers进行端到端目标检测的新颖模型。其主要特点包括:

- 整体网络结构端到端,无需NMS后处理
- 利用Transformer直接预测目标类别和坐标
- 训练过程更稳定,从零训练也可收敛

facebook/detr-resnet-50¶

facebook/detr-resnet-50是一个基于DETR架构的目标检测预训练模型。该模型使用ResNet-50作为Backbone,在COCO数据集上预训练,主要参数:

- Backbone: ResNet-50
- Transformer Encoder包含6层
- 80类对象检测
- 输入图像尺寸为800

facebook/detr-resnet-50展示了Transformer模型在目标检测任务上的有效性,端到端 learns 到了检测的能力。效果竞争力强,是目标检测领域的重要低设计模型之一。

facebook/detr-resnet-50是一个基于transformers的目标检测模型,其应用场景主要包括:

1. 通用目标检测:
该模型在COCO等通用目标检测数据集上效果优异,可以应用到需要检测日常物体的各种场景中,如视频监控、自动驾驶、图像搜索等。
2. 特定目标检测:
模型可以进行fine-tuning,适应特定目标检测任务,如质检、医疗等领域的特定物体检测。
3. 小数据集学习:
相比传统方法,DETR对数据量要求不高,适合小数据集的目标检测任务。
4. 端到端学习:
DETR通过端到端学习预测目标框,无需后处理,使得部署简单。适用于对系统流程敏感的应用。
5. 强化学习:
DETR的学习过程稳定,适合和强化学习算法相结合,实现模仿学习等功能。
6. 前沿研究:
DETR开辟了transformer在目标检测领域的新方向,可以进行各种改进的学术研究。

总之,facebook/detr-resnet-50在多种实际目标检测应用中都展示了较强的泛化能力,是目前较为先进的检测模型之一。其端到端学习方式也启发了后续一系列detection transformer的提出。

示例:

checkpoint = "facebook/detr-resnet-50"
image_processor = AutoImageProcessor.from_pretrained(checkpoint)
model = AutoModelForObjectDetection.from_pretrained(
    checkpoint,
    id2label=id2label,
    label2id=label2id,
    ignore_mismatched_sizes=True,
)

vinvino02/glpn-nyu¶

vinvino02/glpn-nyu是一个针对深度估计(monocular depth estimation)任务进行预训练的模型,主要特点如下:

- 该模型基于GLPN架构,通过encoder-decoder结构进行单眼图像深度预测。
- 数据集方面,该模型是在NYU Depth V2数据集上预训练的,这是一个包含各种室内场景的RGB-D数据集。
- 输入是标准分辨率的RGB图像,输出是与输入分辨率相同的深度图。
- 模型主要组件包括:ResNet50作为encoder,U-Net作为decoder,还使用了红外线辅助训练。
- 在NYU Depth V2测试集上可以达到leading performance,mean relative error为0.131。
- 相比其他深度学习方法,该模型可以更好地学习纹理细节,recover更丰富的场景结构信息。
- 预训练模型大小约为47MB,可以快速加载使用或在自定义数据集上fine-tune。
- 可通过PyTorch Hub快速加载使用。

总而言之,vinvino02/glpn-nyu是一个轻量而高效的深度估计预训练模型,尤其适合在室内场景中进行单眼深度预测或相关下游任务的fine-tuning,值得尝试使用。

示例:

checkpoint = "vinvino02/glpn-nyu"
image_processor = AutoImageProcessor.from_pretrained(checkpoint)
model = AutoModelForDepthEstimation.from_pretrained(checkpoint)

# pipeline
depth_estimator = pipeline("depth-estimation", model=checkpoint)

microsoft/git-base¶

示例:

checkpoint = "microsoft/git-base"
processor = AutoProcessor.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)

VideoMAE¶

MCG-NJU/videomae-base¶

MCG-NJU/videomae-base是一个基于VideoMAE的视频分类预训练模型。VideoMAE是由MCG-NJU团队在2022年提出的用于视频理解的MASKED AUTOENCODER(MAE)模型。其特点是:

- 基于MAE框架,使用MASKING策略进行视频预训练。
- 输入是视频序列的打散帧(Shuffled Tokens)。
- 编码器采用TimeSformer结构。
- 可以在各类视频理解任务中进行微调使用。
- 先进的视频表示学习能力。

MCG-NJU/videomae-base是在大规模视频数据上预训练得到的VideoMAE基础模型,主要参数:

- TimeSformer编码器包含21个阶段,107M参数。
- 在8900万视频上预训练,总时长超过9000小时。
- 预训练任务是预测视频帧顺序。

该模型展示了Transformer模型在视频领域的强大建模能力。 fine-tune后效果显著,特别是在小数据集上的低样本学习。是近期较为先进的视频理解预训练模型之一。

MULTIMODAL¶

microsoft/layoutlmv2-base-uncased¶

模型 “microsoft/layoutlmv2-base-uncased” 是由微软开发的一种预训练语言模型，属于 LayoutLMv2 模型系列。这个模型的主要目标是处理文档布局和文本信息的结合，以便更好地支持文档分析、信息提取和相关任务。

与传统的自然语言处理模型不同，LayoutLMv2 关注的是将文本与其在页面中的布局信息相结合，从而使模型能够更好地理解和处理具有多个文本区域、表格、图像和其他排版元素的文档。这对于诸如表格数据提取、文档分类、命名实体识别等任务非常有用。

“microsoft/layoutlmv2-base-uncased” 模型是一个预训练模型，使用了无大小写区分的文本（uncased text）作为输入。这意味着它对于大小写不敏感，能够处理大小写不同的文本。通过预训练，模型学会了从文本和布局信息中抽取有关上下文、语义和结构的特征。

使用这个预训练模型，您可以通过微调（fine-tuning）适应特定的任务，如文本分类、命名实体识别、表格数据提取等。模型的预训练能力使其能够在不同的文档分析任务中表现出色，因为它已经学会了从文本和布局信息中获取有价值的信息。

总之，”microsoft/layoutlmv2-base-uncased” 模型是一种专注于处理带有布局信息的文本的预训练模型，可用于各种文档分析和信息提取任务。