分享好友 最新动态首页 最新动态分类 切换频道
中文文本相似度计算工具集
2024-12-27 23:13

一、基本工具集

1.分词工具

a.jieba

结巴中文分词

https://github.com/fxsjy/jieba

b.HanLP

自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/

https://github.com/hankcs/HanLP

c.盘古分词-开源中文分词组件

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

https://archive.codeplex.com/

d.pullword

Pullword-永久免费的可自定义的中文在线分词API

http://pullword.com/

e.BosonNLP

玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

https://bosonnlp.com/

f.HIT-SCIR/ltp

Language Technology Platform http://ltp.ai

https://github.com/HIT-SCIR/ltp

2.关键词提取

TF-IDF

技术原理:https://dl.acm.org/citation.cfm?id=866292

gensim

https://radimrehurek.com/gensim/models/tfidfmodel.html

 

TextRank

技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

TextRank4ZH-从中文文本中自动提取关键词和摘要

https://github.com/letiantian/TextRank4ZH

3.词向量

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

GloVe

Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

 

4.距离计算

word2vec-gensim

Topic modelling for humans - Radim Řehůřek

https://radimrehurek.com/gensim/index.html

 

二、常用算法

 

1.中文分词+TF-IDF+word2vec+cosine 距离计算

 

2.doc2vec

原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf

 

3.simhash

原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html

技术实现:https://github.com/yanyiwu/simhash

 

三、文本相似度计算综述

A Survey of Text Similarity Approaches

https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf

《中文信息处理发展报告(2016)》

http://cips-upload.bj.bcebos.com/cips2016.pdf

以上论文下载地址:

最新文章
天天 AI-241211:今日热点- 谷歌量子芯片引爆热议:5分钟算完10²⁵年任务,Nature加急发表
2AGI.NET | 探索 AI 无限潜力,2AGI 为您带来最前沿资讯。 2024年,人工智能领域迎来了一系列令人瞩目的突破和创新。从谷歌量子芯片的惊人计算能力到AI视频生成技术的进步,再到AI Agent的商业化,每一项技术的发
Universal Extractor(万能解包提取工具) v2.0.04
Universal Extractor(万能解包提取工具) v2.0.04 和行麻雀虽小,五脏俱全动迟缓风细雨7. 黑夜落下了帷幕,天空还剩一丝残阳,最后的一抹,征兆黑暗即将称霸天空。远处的灯火,橘色地闪耀在每户人家家里。温暖总与灯光相称,徒留黑夜在悲伤
百度强引蜘蛛池,解锁搜索引擎优化的新维度,百度强引蜘蛛池代发
百度强引蜘蛛池是一种创新的搜索引擎优化工具,通过模拟搜索引擎爬虫行为,吸引更多蜘蛛访问网站,提高网站权重和排名。该工具可代发文章、图片、视频等,提升网站流量和曝光率。使用百度强引蜘蛛池,可以解锁搜索引擎优化的新维度,让网站
成人如何提高注意力和记忆力
时间: 2024-12-19 16:35:53(部分内容来自网络,其真实性存疑,为了避免对您造成误导,请谨慎甄别。)成人在提高注意力和记忆力方面可以采取一系列有效的方法,以下是一些建议:1. 充足的睡眠:睡眠对于大脑的功能至关重要。成人每晚应该保证
百度蜘蛛池价格:蜘蛛池链接,揭秘搜索引擎优化背后的秘密武器
百度蜘蛛池价格解析:揭示搜索引擎优化工具——蜘蛛池的链接价格,揭开SEO领域的不传之秘。本文目录导读:什么是蜘蛛池链接?蜘蛛池链接的作用如何构建蜘蛛池链接?蜘蛛池链接的风险随着互联网的普及,搜索引擎已经成为人们获取信息的主要
外贸独立站制作外贸网站优化常见误区
企业在做外贸网站推广渠道时,往往更更倾向于选择外贸网站优化来获取更多海外客户。因为外贸网站优化本身不需要向谷歌付费,成本较低,排名一旦上去较为稳定,可以帮助企业获得源源不断的流量。但是如果不懂优化,那么就很容易陷入以下误区
瑞虎航系统的使用方法是什怎么?如何优化导航体验?
瑞虎导航系统:使用方法与导航体验优化指南输入目的地是使用导航的关键步骤。您可以通过以下几种方式输入目的地:1. 直接在搜索框中输入目的地的详细地址,如“XX 市 XX 区 XX 路 XX 号”。2. 输入目的地的名称,如“XX 商场”、“XX 公园
励志语录摘录
2024年常用励志语录摘录83句  做自己生命与事业的主人,就在于掌握自己身心与情绪能量。以下是小编为大家提供的励志语录83句,仅供参考,大家一起来看看吧。1、在顺境中把握当下是一种功夫,在逆境中活在当下更是一种境界。固执己见,容易
文心大模型4.0发布,百度全力拼应用
(文/陈炳欣)10月17日,百度举办了以“生成未来(PROMPT THE WORLD)”为主题的技术论坛——百度世界大会2023。今年以来,生成式AI和大语言模型形成热潮,数量众多的大模型被训练和推出,并向公众及许多行业渗透,提供了重大的市场机会。
言简意赅,话说商业智能BI
数据分析将不再是专业技术人员或数据分析师的专利,商业智能 BI 可以帮助企业增强数据可视化分析能力,为管理层提供决策支持。商业智能BI的概念商业智能BI的定义其实很简单,简单概括一下就是,商业智能BI是一套完整的由数据仓库、查询报表
相关文章
推荐文章
发表评论
0评