nltk(3)——语料库

核心提示：NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库，例如：nltk.corpus

nltk(3)——语料库

每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表，可以通过语料库的fileids()方法。

import nltk.corpus.brown #导入brown语料库

brown.fileids()

每一个语料库都提供了众多的多去数据的方法。例如：对于文档类型的语料库提供读取原始为加工过的文本信息，文本的单词列表，句子列表，段落列表

from nltk.corpus import brown

brown.raw(brown.fileids()[1]) #读取brown中第二个文本的信息

brown.words(brown.fileids()[1]) #读取brown中第二个文本的单词

brown.sents(brown.fileids()[1]) #读取brown中第二个文本的句子

brown.paras(brownfileids()[1]) #读取brown中第二个文本的段落

每一个方法的参数都可以提供多个文档名称或单个，当提供多个文档名称并用逗号隔开时，获取的文档将是单个文档的链接总和。

brown.words(["ca02",brown.fileids()[3]]) #获取文档ca02和文档四的单词，此处注意，当多个文档时，传入的参数是一个list

获取文本单词词频

from nltk.corpus import brown

news_text = brown.words(categories='nes')

fdist = FreqDist(news_text)

modals = ['can','must','could','willl,''might']

for m in modals:

print(m + ":", fdist[m])

FreqDist() 方法获取到每个单词的出现次数

FreqDist({'the': 5580, ',': 5188, '.': 4030, 'of': 2849, 'and': 2146, 'to': 2116, 'a': 1993, 'in': 1893, 'for': 943, 'The': 806, ...})

fdist.keys() #获取所有的键

fdist['the'] #获取对应的键的值

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

最新资讯

点击排行

• #### 文案生成器免费版：无需投资即可享受智能	• 再看快速排序（QuickSort）
• 阿里伴侣配合阿里巴巴打造全方位线上推广	• Python大数据分析&人工智能教程 - Scrapy工作原
• AI智能写作助手：一站式解决内容创作、文章润色	• 你的站点抗压么？推荐一款超方便的开源压测工具
• 【系统架构设计】计算机网络	• 全世界规模最大战争排名，第一名居然是清朝时期
• python tk随机内容生成器	• ai自动写文章在线在线写文章自动生成器