分享好友 最新资讯首页 最新资讯分类 切换频道
NLTK(语料库)
2024-11-07 21:38

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41

NLTK(语料库)

古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称

utenberg是NLTK预先帮我们加载的语料库,我们可以把gutenberg看做是一个PlaintextCorpusReader对象。

PlaintextCorpusReader::fileids():该方法返回语料库中的文本标识列表。

PlaintextCorpusReader::words(fileids):该方法接受一个或多个文本标识作为参数,返回文本单词列表

PlaintextCorpusReader::raw(fileids):该方法接受一个或多个文本标识为参数,返回文本原始字符串。

PlaintextCorpusReader::sents(fileids):该方法接受一个或多个文本标识为参数,返回文本中的句子列表。

平均词长、平均句子的长度、文本中每个词出现的平均次数

网络文本语料库中包括火狐交流论坛、在纽约无意听到的话、加勒比海盗电影剧本、个人广告以及葡萄酒评论等等。 webtext同样可以看做是一个PlaintextCorpusReader对象。

语料库被分成15个文件,每个文件包含几百个按特定日期和特定年龄的聊天室收集的帖子,例如:10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。

nps_chat可以看做是一个NPSChatCorpusReader对象。

NPSChatCorpusReader::fileids():该方法返回语料库中的文本标识列表。

NPSChatCorpusReader::posts(fileids):该方法接受一个或多个文本标识作为参数,返回一个包含对话的列表,每一个对话又同时是单词的列表。

布朗语料库是一个百万词级的英语电子语料库,这个语料库包含500个不同来源的文本,按照文体分类,如:新闻、社论等。我们可以先看看布朗语料库中包含哪些类别

brown可以看做是一个CategorizedTaggedCorpusReader对象。

CategorizedTaggedCorpusReader::categories():该方法返回语料库中的类别标识。

CategorizedTaggedCorpusReader::fileids(categories):该方法接受一个或多个类别标识作为参数,返回文本标识列表。

CategorizedTaggedCorpusReader::words(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本单词列表。

CategorizedTaggedCorpusReader::sents(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本句子列表,句子本身是词列表。

路透社语料库包含10,788个新闻文档,共计130万字。文档被分成了90个主题,按照训练和测试分为两组。路特社语料库中的类别是项目重叠的,因为新闻报道往往涉及多个主题。

reuters也可以看做是一个CategorizedTaggedCorpusReader对象。

该语料库是55个文本的集合,每个文本都是一个总统的演说。这个集合的一个显著特性是时间维度。

inaugural同样可以看做是一个PlaintextCorpusReader对象。

。。。未完

gutenberg、webtext和inaugural是PlaintextCorpusReader的实例对象。

PlaintextCorpusReader成员方法

 

nps_chat是NPSChatCorpusReader的实例对象。

NPSChatCorpusReader成员方法

 

brown和reuters是CategorizedTaggedCorpusReader的实例对象。

CategorizedTaggedCorpusReader成员方法


最新文章
速递|刚刚,OpenAI 官宣完成 66 亿美元融资!最新估值 1570 亿美元;核心技术人员曝光,研究副总裁计划 AI 创业
10 月 2 日,OpenAI 官宣已筹集到 66 亿美元新一轮资金,融资后估值达到 1570 亿美元,这笔资金将加快推动其进程,继续巩固在
全站搜索,全站搜索网页
全站搜索的重要性全站搜索对于任何网站来说都是至关重要的,它不仅提高了用户体验,也增强了网站的功能性。用户依赖搜索功能来快
三款同阶天花板车型的智能语音对比,有点东西在身上
张张嘴就能控制空调+1度或者-1度;上一句歌词没听清,马上让智能语音助手倒退三秒进度;车窗要开13%才是与阳光共舞的黄金角度?
阿里游戏林永颂:应用商店也要像手淘一样向千人千面演变
  阿里游戏总裁林永颂接受新浪科技等媒体采访时表示,阿里游戏之前大部分的精力是在做国内的,实际上在国际上也做了很多的事,
这几个网站太好用了,建议收藏!
4.开发网站的时候,在关键的地方加点精致的动画会让网站显得更高级。今天推荐一本介绍CSS动画的开源电子书:《css-animation-101
AI智能文案生成工具:一键自动创作,解决多场景文案需求与高效写作难题
在数字化时代内容创作已成为企业和个人塑造的要紧手。高效且高品质的文案创作往往耗时耗力让多创作者陷入困境。智能文案生成工具
探索Midjourney中文绘画的无限潜力
在当今数字创作的时代,拥有一款强大的绘图工具无疑是每位艺术创作者的梦想。那么如何能够轻松获取这款工具呢?我最近发现了一
深圳SEO优化秘诀,揭秘高效提升网站流量与排名之道
深圳SEO网站优化,通过深度研究搜索引擎算法,结合关键词布局、内容优化、外部链接建设等策略,有效提升网站流量与排名。掌握SEO
体验AI写作助手的自由:免费开启您的写作天赋
在当今信息爆炸的时代,写作已经成为人们交流和表达的重要方式之一。然而,不是每个人都能轻松地完成一篇流畅、有逻辑的文章。这
网站推广软件免费版大全:如何选择适合的免费软件助力网站营销推广?
在现今的互联网时代,网站推广对于企业来说至关重要。为了帮助网站更好地进行营销推广,许多免费的网站推广软件应运而生。本文将