分享好友 最新动态首页 最新动态分类 切换频道
知识图谱学习(一):知识提取
2024-12-27 09:33

1.1.1 regex语法
推荐网站http://pythex.org/,不但有语法,还可以在线测试

知识图谱学习(一):知识提取

1.1.2 match匹配模式
re.match(pattern,string,flags)尝试从字符串的开始匹配一个模式,flags是匹配模式,可以使用按位或’|’表示同时生效,也可以在正则表达式字符串中指定。
1).re.I(re.IGNORECASE): 忽略大小写
2).re.M(MULTILINE): 多行模式,改变’^’和’$’的行为
3).re.S(DOTALL): 点任意匹配模式,改变’.’的行为
4).re.L(LOCALE): 使预定字符类 w W b B s S 取决于当前区域设定
5).re.U(UNICODE): 使预定字符类 w W b B s S d D 取决于unicode定义的字符属性

1.1.3 search匹配模式
若string中包含pattern子串,则返回Match对象,否则返回None,注意,如果string中存在多个pattern子串,只返回第一个。

1.1.4 group提取数据

分词也是后续处理的基础。分词做得好,核心秘密在词库,算法的影响反而不太大。分词是会出错的。不过有些场合(比如检索排序,只要错误是一贯的,影响也不是太大。分词后面可以用规则来弥补。工程上很丑陋,上不了台面,但对早期的小项目可能够用了。
推荐工具: jieba/PyNLPIR/Hanlp

2.1.1 jieba.cut
方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型

2.1.2 jieba.cut_for_search
方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

2.1.3 jieba.cut 以及 jieba.cut_for_search
返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

2.2.1 jieba.load_userdict(file_name)
#file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略,用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。词频省略时使用自动计算的能保证分出该词的词频。

2.2.2 使用 add_word(word, freq=None, tag=None) 和 del_word(word)
可在程序中动态修改词典。使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。jieba 分词前需要建立一个Trie 树字典来帮助其分词

2.3.1 jieba.posseg.POSTokenizer(tokenizer=None)
新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。标注句子分词后每个词的词性,采用和 ictclas (中科院分词)兼容的标记法。

2.3.2 并行分词:jieba.enable_parallel()

2.4.1 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
默认每行为一个文件(跟读取方式有关)
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

2.4.2 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
直接使用,接口相同,注意默认过滤词性。jieba.analyse.TextRank() 新建自定义 TextRank 实例

ws[n]为weight_sum表示单词n的权重,outsum[n]为从单词n到其他单词的权重的和,graph[n]表示[(n,n’,weight)]的list,n’为其他单词.根据jieba源码,窗口大小为5,只考虑单向(n’出现在n后面5个单词内).

命名实体识别(Named Entity Recognition,简称NER,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

Stanford NLP小组提供了大量NLP相关的工具,github上还有相关Python接口.

最新文章
暴风影音5电脑版
暴风影音破解版是一款破解了VIP的暴风影音客户端,暴风影音具有强悍的解码能力,可以播放任何格式的视频,并且暴风影音破解版还没有广告,可以开启VIP功能,是很多用户喜欢的一款版本,有需要的朋友不要错过哦。一、左眼技术。采用左眼专利
杨姓股民向退市中昌发起索赔 罗建欣律师接受咨询
  12月11日消息,新浪股民维权平台今日收到杨姓股民针对退市中昌的维权申请,目前该维权咨询已被罗建欣律师接受。新浪股民维权平台将关注该股民的索赔进程,相关维权持续征集中。  新浪股民维权平台目前有4名专业律师可代理该公司维权
考研英语一难度趋势分析
一、文章选材方面21年分别涉及了三大母题,政策与民生(英国铁路涨价、印尼CCT与环保、英国粮食问题)、企业与社会(宽带商中立问题、员工再培训、巨头吞并小公司)和社会科学与科技反思(维多利亚人不笑的原因、直觉的威力),以及英语一
抖音小视频怎么去水印
方法一:古月水印助手(小程序)古月水印助手是一款专门针对抖音视频去水印的小程序,用户只需简单几步,就能轻松去除视频中的水印。在抖音平台上,很多用户喜欢将自己喜欢的短视频保存下来,然而,这些视频常常带有水印,影响了观看体验或后
首个AI程序员Devin全面开放:可独立开发/排除bug,月费500美元
12 月 12 日消息,全球首个“AI 程序员”Devin 于 12 月 11 日全面开放,距离其初次亮相尚不到一年。其开发商 Cognition Labs 宣布,个人开发者和工程团队可以每月 500 美元(备注:当前约 3635 元人民币)获得完整访问权限,订阅还包括 Sl
通达信股票软件里面的人气排名在哪里可以找到?
在股票投资中,一个重要的指标是人气排名。它能够反映出投资者对于某只股票的关注度和情绪状况。在通达信股票软件中,也提供了人气排名的功能,让投资者能够更好地了解市场的热点和人气股票。那么,在通达信股票软件中,我们应该如何找到人
阿里闲鱼新首页灰度测试:简化设计提升用户体验,强化兴趣圈层个性化定制
阿里闲鱼新首页灰度测试:简化设计提升用户体验,强化兴趣圈层个性化定制近日,有消息称,阿里巴巴淘天集团旗下闲鱼已启动新首页灰度测试。据我们观察,新版首页进行了大幅简化,提升了用户体验,并给予信息流更多位置,方便用户浏览和消费
第一人称射击游戏有哪些好玩 十大必玩第一人称射击游戏排行
探寻游戏世界巅峰之作!第一人称射击游戏有哪些好玩?十大必玩经典排行榜带你领略激烈枪战与策略并存的刺激体验。无论是老牌劲旅如《使命召唤》还是创新之作《守望先锋》,这份精选清单不容错过,满足你对FPS热爱的所有幻想,立即加入这场
淘宝宝贝标题快速优化的四个核心技巧
说到宝贝标题优化,相信很多卖家都不陌生吧,优化好宝贝标题,不仅能够让你的宝贝更容易提升搜索排名,而且还更容易吸引到买家的注意呢。但是要怎么样才能快速优化宝贝标题呢?今天跟大家分享一下宝贝标题优化的四个核心技巧,希望能够帮到
百度网盘 V7.39.1.1 2024最新版
  百度网盘2024最新版为用户们带来了十分便利的网盘软件,用户们可以快速的在这里体验到安全、快捷的数据存储工具或者是共享体验,让用户们能够尽情的在这里玩耍。用户们还能多端登录,让你可以随时随地的上传或者是下载你想要的资料等等
相关文章
推荐文章
发表评论
0评