分享好友 最新动态首页 最新动态分类 切换频道
NLP算法-关键词提取之Gensim算法库
2024-11-01 23:25

书接上回,我们讲到关键词提取常用的Jieba算法库
我们接着讲基于主题模型的关键词提取(LDA),为啥我要用两个博客来讲述这个关键词提取呢

NLP算法-关键词提取之Gensim算法库

因为我打算换一个库来讲讲这个模型,之前TF-IDF算法我们采取的是库,这篇博客我们介绍一下这个算法库

Gensim 是一款开源的第三方 Python 工具包,用于对原始的非结构化的文本进行无监督地学习,从而得到文本隐层的主题向量表达。它支持包括 , 和 在内的多种主题模型算法支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的接口。

Gensim 包含有以下特征

  • 内存独立
  • 有效实现了许多流行的向量空间算法
  • 对流行的数据格式进行了 IO 封装和转换
  • 在其语义表达中,可以相似查询
  • 语料( Corpus :一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在 Gensim 中,Corpus 通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量
  • 向量( Vector :由一组文本特征构成的列表。是一段文本在 Gensim 中的内部表达
  • 稀疏向量( Sparse Vector :通常,我们可以略去向量中多余的 0 元素。此时,向量中的每一个元素是一个( key, value )的 tuple
  • 模型( Model :是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

**训练语料的预处理指的是将文档中原始的字符文本转换成 Gensim 模型所能理解的稀疏向量的过程。**通常,我们要处理的原生语料是一堆文档的集合,每一篇文档又是一些原生字符的集合。

在交给 Gensim 的模型训练之前,我们需要将这些原生字符解析成 Gensim 能处理的稀疏向量的格式,然后,可以调用 Gensim 提供的 API 建立语料特征的索引字典,并将文本特征的原始表达转化成词袋模型对应的稀疏向量的表达。

示例:构建词袋模型

对文本向量的变换是 Gensim 的核心
通过挖掘语料中隐藏的语义结构特征,最终可以变换出一个简洁高效的文本向量。在 Gensim 中,每一个向量变换的操作都对应着一个主题模型,每一个模型又都是一个标准的 Python 对象。

首先是模型对象的初始化。通常,Gensim 模型都接受一段训练语料(在 Gensim 中,语料对应着一个稀疏向量的迭代器)作为初始化的参数。显然,越复杂的模型需要配置的参数越多。

示例1:TF-IDF 模型

其中,corpus 是一个返回 bow 向量的迭代器。这两行代码将完成对 corpus 中出现的每一个特征的 IDF 值的统计工作。

示例2:LSI 模型

函数中各个参数的具体含义为
tfidf_corpus 参数代表 tf-idf 模型生成的统计量
id2word 参数代表词袋向量
num_topics 表示选取的主题词个数。

LSI 训练的独特之处是能够继续“训练”,仅需提供更多的训练文本,这是通过对底层模型进行增量更新实现的,这个过程称为“在线训练”。

示例3:LDA 模型

函数中各个参数的具体含义为
bow_corpus 参数代表模型生成的统计量
id2word 参数代表词袋向量
num_topics 表示选取的主题词个数。

LDA 是 LSA 的概率扩展,因此 LDA 的主题可以被解释为词语的概率分布。这些分布式从训练语料库中自动推断的,就像 LSA 一样。

测试输入
实录|疫情下的美院师生书信:网课、绘本、互动与写作
美国学生怎么上网课?
网课开展这么久后:为何大家想回到教室了?
“洋学生”网课记:跨越万水千山 携手漫步“云端”
高校优质网课怎么打造?河南高校教师探索创新“线上教学”模式

输出
网课

LSA 即潜在语义分析,也被称为 LSI
是 Scott Deerwester,Susan T. Dumais 等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型一样使用向量来表示词和文档,并通过向量间的关系(如夹角)来判断词及文档间的关系;不同的是,LSA 将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

LSA 潜在语义分析的目的,就是要找出在文档和查询中的真正含义,也就是潜在语义
我们希望找到一个模型,能够获取单词之间的相似性。如果两个单词之间有很强的相关性,那么当一个单词出现时,往往意味着另一个单词也应该出现( 同义词 ;反之,如果查询语句或者文档中的某个单词和其他单词的相关性都不大,那么这个单词可能表达的就是另外一个意思。

LSA 的核心思想是将词和文档映射到潜在语义空间,再比较其相似性。

LSA( LSI )使用 SVD( 奇异值分解 )对单词文档矩阵进行分解。SVD 可以看作是从单词-文档矩阵中发现部相关的索引变量( 因子 ,将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档,可能在语义空间内比较相似。

如图所示,在算法模型中,第一个矩阵 U 中的每一行表示意思相关的一类词,其中的每个非零元素表示这类词中每个词的重要性( 或者说相关性 ,数值越大越相关。最后一个矩阵 V 中的每一列表示同一主题的一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵 D 则表示类词和文章类之间的相关性。

因此,我们只要对关联矩阵 X 进行一次奇异值分解,我们就可以同时完成了近义词分类和文章的分类,同时得到每类文章和每类词的相关性。

  1. 使用 BOW 模型将每个文档表示为向量
  2. 将所有的文档词向量拼接构成词-文档矩阵(m*n
  3. 对词-文档矩阵进行 SVD 操作
  4. 根据 SVD 的结果,将词-文档矩阵进行奇异值分解到更低维度的近似 SVD 结果中,每个词和文档均可表示为k个主题构成的空间中的一个点,通过计算每个词和文档的相似度( 余弦相似度或KL相似度 ,然后得到每个文档中对每个词的相似度结果,取相似度最高的一个词即为文档关键词。

LSA 的优点包括

  • 低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题
  • 降维可去除部分噪声,是特征会更明显
  • 充分利用冗余数据
  • 无监督/完全自动化
  • 与语言无关。

LSA 的缺点包括

  • LSA 可以处理向量空间模型无法解决的一义多词问题,但不能解决一词多义问题。因为 LSA 将每一个词映射为潜在语义空间中的一个点,也就是说一个词的多个意思在空间中对于的是同一个点,并没有被区分
  • 特征向量的方向没有对应的物理解释
  • SVD 的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练
  • 没有刻画 term 出现次数的概率模型。
最新文章
贾扬清的Lepton:真把AI开发门槛打下来了?盘一盘大模型应用最新方向;大多数AI初创公司注定死去;神经网络与生成式AI;这就是ChatGPT(中文版下载)
www.lepton.ai2023年3月,阿里巴巴集团副总裁 贾扬清 宣布离职,创立 Lepton AI;2023年10月,Lepton AI 发布了其公开测试版本 (public beta)。 Lepton AI 是一个云原生AI平台,提供了一系列工具和服务ÿ
便宜好用的 B2C 销售管理策略
便宜好用的 B2C 策略包括:使用优化流程、专注于客户体验、利用社交媒体营销、提供个性化服务、采用数据分析、提供多渠道支持、实施忠诚度计划、自动化营销、优化移动端体验。其中,使用简道云优化流程可以显著提高销售管理的效率和准确性
云国际代理商
如何在全球市场中通过精准引流成为腾讯云国际代理商的成功者 在全球数字化转型的浪潮中,云计算已经成为企业信息化建设的核心。腾讯云作为中国领先的云计算服务提供商,正在积极扩展国际市场,为全球各地的企业提供高效
鄭欽文奪冠“點燃”成都網球熱情
當地時間8月3日,鄭欽文在巴黎奧運會網球女單決賽中直落兩盤擊敗克羅地亞選手維基奇,拿到中國和亞洲首枚奧運會網球單打金牌,創造了歷史。鄭欽文奪冠后,不僅網球的討論熱度飆升,相關消費與產品的搜索也直線上漲。在某社交平台上,標注“
资本市场助力撬动循环经济,深企格林美“变废为宝”跃升创新优势企业,重金投向研发增强核心竞争力
开栏语:数据显示,深市公司2022年实现营业总收入20万亿元,同比增长7%,近六成公司收入正增长,其中研发投入超6600亿元,同比增长15%,近七成研发资金投向先进制造、数字经济、绿色低碳领域,成为企业保持长期增长的稳定动力。积极投入技
精灵SEO统计,网站优化利器,揭秘搜索引擎排名提升秘籍
精灵SEO统计,一款专为网站优化设计的高效工具,助您快速提升搜索引擎排名,成为网站优化的秘密武器。在互联网时代,搜索引擎优化(SEO)已经成为和不可或缺的一部分,为了帮助广大网站管理者更高效地进行SEO工作,众多SEO工具应运而生,我
推荐三款小说生成工具:一键生成故事与的软件,轻松创作独特作品
在如今这个信息爆炸的时代文学创作不再是少数人的专利。无论是小说家、家还是业余创作者都可借助科技的力量轻松打造出属于本人的独到作品。小说生成工具的出现为广大创作者提供了无限的可能性,只需一键操作,就能生成故事大纲、人物关系甚
ChatGPT中文版网页
ChatGPT中文版网页是一款十分好用的ai聊天软件,在ChatGPT中文版网页中,软件涵盖了多种智能聊天功能,多元化的服务,满足各用户不同需求,用户可以随意提问题,流畅回复,感受智能的对话服务。软件内存很小,不会占用手机太多的内存空间,
开服即被挤爆,AI新拐点来临!
昨日,OpenAI视频生成模型Sora正式版终于发布!此次发布的Sora Turbo,为原始Sora模型的全新高端加速版本,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。作为OpenAI“王炸”产品,So
【经验分享】含多酚多糖植物材料RNA的提取方法
观察与问题笔者在2023年10月至2024年6月跟随师兄对番茄中某转录因子进行研究,研究过程中笔者提取了模式番茄(Solanum lycopersicum)多个生长阶段中各器官RNA超60组。在使用TIANGEN公司RNAprep Pure多糖多酚植物总RNA提取试剂盒(离心柱型
相关文章
推荐文章
发表评论
0评