5.15.1. 常用¶
安装:
pip install gensim
API Reference: https://radimrehurek.com/gensim/apiref.html
API Reference-Word2vec embeddings: https://radimrehurek.com/gensim/models/word2vec.html
Data repository for pretrained NLP models and NLP corpora: https://github.com/piskvorky/gensim-data
https://raw.githubusercontent.com/RaRe-Technologies/gensim-data/master/list.json
简介¶
Gensim 是一个免费的开源 Python 库,用于将文档表示为语义向量,尽可能高效(计算机方面)且轻松(人类方面)。
Gensim 旨在使用无监督机器学习算法处理原始、非结构化数字文本(“纯文本”)。
Gensim 中的算法,例如 Word2Vec、FastText、潜在语义索引(LSI、LSA、LsiModel)、潜在狄利克雷分配(LDA、LdaModel)等,通过检查训练文档中语料库的统计共现模式来自动发现文档的语义结构。这些算法是无监督的,这意味着不需要人工输入 —— 您只需要纯文本文档的语料库。一旦找到这些统计模式,任何纯文本文档(句子、短语、单词……)都可以用新的语义表示形式简洁地表达,并查询与其他文档(单词、短语……)的主题相似性。
Gensim 最初是 2008 年捷克数字数学图书馆 dml.cz 项目的 Python 脚本集合。这些脚本用于生成与给定文章最相似的数学文章的简短列表。
From ChatGPT¶
主题建模:gensim 最著名的特性之一是支持主题建模,尤其是 Latent Dirichlet Allocation(LDA)算法。这使得用户能够从大量文本中发现主题和模式。
相似性分析:gensim 提供了用于计算文档之间相似性的工具,这对于文本聚类、检索和推荐系统等任务非常有用。
文本向量化:gensim 允许将文本转换为向量表示,这对于机器学习任务如分类、聚类等是关键的步骤。Word2Vec 模型是 gensim 中一个常用的工具,用于学习词向量。
语料库处理:gensim 提供了用于处理大规模语料库的工具,包括内存友好的数据结构和流式处理的能力。这使得处理大量文本数据变得更加高效。
多核心支持:gensim 能够充分利用多核心处理器,提高训练和处理速度。
易用性和扩展性:gensim 的 API 设计简单,易于使用。同时,它也是一个可扩展的框架,允许用户以插件的形式添加新的特征和算法。
开源社区支持:作为一个开源项目,gensim 有一个活跃的社区,用户可以在社区中获取支持、提出问题,并参与到 gensim 的开发中。
兼容性:gensim 可以与其他 Python 库(如 NumPy、SciPy)和机器学习框架(如 Scikit-learn)良好集成,方便用户在复杂的数据分析和建模任务中使用。
语料库格式¶
Market Matrix format: https://math.nist.gov/MatrixMarket/formats.html
Joachim’s SVMlight format: https://www.cs.cornell.edu/people/tj/svm_light/
Blei’s LDA-C format: https://github.com/blei-lab/lda-c
GibbsLDA++ format: https://gibbslda.sourceforge.net/