分享好友 最新动态首页 最新动态分类 切换频道
语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)
2024-11-07 21:16

准备:wikipedia-parallel-titles项目(老师给的

语料库技术与应用—基于维基百科构建日语平行语料并爬取谷歌翻译语音(mp3)

          This document describes how to use these tools to build a parallel corpus (for a specific language pair) based on article titles across languages in Wikipedia.

          本文档描述了如何使用这些工具基于维基百科中不同语言的文章标题构建并行语料库(针对特定的语言对)。

首先第一步

  1. 确定自己选的小语种的 639-1码, 例如 日语的 639-1码为 “ja”
  2. 把 “ja” 与单词 “wiki”拼接得到 “jawiki”

然后访问 http://dumps.wikimedia.org/jawiki ,如图

可到” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码

 

3.选择 “201903XX” 或 “latest” ,进去下载以 “-page.sql.gz” 和 “-langlinks.sql.gz” 结尾的两个压缩包

4.提取并行标题语料:运行该脚本命令

 

并出现如图

1: 下载下来的两个.gz压缩包需和 build-corpus.sh 脚本在同一个路径下

2: 若执行了脚本后 titles.txt 什么都没有并出现如图所示

 

解决方法: 打开scripts目录下的 extract.pl 、utf8-normalize.sh 这两个文件,把其中的

“iconv -f utf8 -t utf8 –c” 语句 修改为 “iconv -f utf-8 -t utf-8 –c” (其他地方的”utf8”不用改

4:生成 titles.txt 可能需要几分钟,请耐心等待。

 

 

出来是这个样子的。

步骤二

把语料放到谷歌翻译上并下载其朗读语音

 

https://blog.csdn.net/qq_40224992/article/details/88546823

参考的是这篇文章,不过也需要作些修改。(感谢作者,不然就要动用按键精灵了

日语的

说一下这个url如何找,谷歌浏览器

谷歌翻译,在左侧输入日语,点击进入检查(F12,再点击发音那个按钮

 

右侧那个链接就是了。

最后mp3(女声

到此,感觉这个项目sese的有没有。。。

总结:别再犯list[]01的错误

总结:别再犯list[]01的错误

总结:别再犯list[]01的错误

第一个下标是0

第一个下标是0

第一个下标是0

还有,文件夹要先创。

 

 

最新文章
推荐三款小说生成工具:一键生成故事与的软件,轻松创作独特作品
在如今这个信息爆炸的时代文学创作不再是少数人的专利。无论是小说家、家还是业余创作者都可借助科技的力量轻松打造出属于本人的独到作品。小说生成工具的出现为广大创作者提供了无限的可能性,只需一键操作,就能生成故事大纲、人物关系甚
ChatGPT中文版网页
ChatGPT中文版网页是一款十分好用的ai聊天软件,在ChatGPT中文版网页中,软件涵盖了多种智能聊天功能,多元化的服务,满足各用户不同需求,用户可以随意提问题,流畅回复,感受智能的对话服务。软件内存很小,不会占用手机太多的内存空间,
开服即被挤爆,AI新拐点来临!
昨日,OpenAI视频生成模型Sora正式版终于发布!此次发布的Sora Turbo,为原始Sora模型的全新高端加速版本,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。作为OpenAI“王炸”产品,So
【经验分享】含多酚多糖植物材料RNA的提取方法
观察与问题笔者在2023年10月至2024年6月跟随师兄对番茄中某转录因子进行研究,研究过程中笔者提取了模式番茄(Solanum lycopersicum)多个生长阶段中各器官RNA超60组。在使用TIANGEN公司RNAprep Pure多糖多酚植物总RNA提取试剂盒(离心柱型
生成式AI新时代:OpenAI、DeepMind与端侧智能的巨变
随着生成式AI技术的不断演进,我们见证了多个重量级产品和平台的重大进展。从OpenAI发布的新模型到DeepMind的视觉语言模型,再到国内端侧智能公司的融资动态,AI领域正迎来一场竞争与创新的热潮。OpenAI的猎户座模型泄露最新消息显示,Open
SEO网站关键词排名优化,提升网站流量与转化率的秘籍解析,揭秘SEO,关键词优化秘籍,助你网站流量与转化率双提升
SEO网站关键词排名优化秘籍解析:通过深入分析关键词策略、优化网站结构和内容质量,有效提升网站在搜索引擎中的排名,从而增加流量和转化率。 *** 包括合理布局关键词、优化页面加载速度、增强用户体验等。掌握这些技巧,助力网站在竞争中
成品网站1.1.719:全流程智能建站工具,让网站优化和流量提升一步到位!
网站制作总是让人望而却步?技术门槛、设计难度、时间成本,这些问题让许多人迟迟未能实现自己的建站计划。然而,一款名为成品网站1.1.719的工具正在悄然改变这一切。它通过简洁的设计和强大的功能,为用户带来了全新的建站体验。不同于传统
谷歌浏览器苹果手机版
谷歌浏览器苹果手机版是针对苹果ios平台而推出的一款移动浏览器,其官方名称又叫做chrome手机浏览器,该软件的性能丝毫不比电脑版差,图片清晰无水印,而且信息很准确,没有其他不相关的内容;新版本更是加入了语音搜索功能、用户无需输入
第49章邪王追妻
  因为通过刚才破妄法眼的透视,王乐根本就没发现进入地下遗址空间的门户。《帝国之雪洗天下》第五卷《血色象牙塔》完。  王乐可不想把这大好时光浪费在等待上面,毕竟这个档口上还远远不是休息的时候。邪王追ࣹ
无需谷歌搜索,教你11个高级搜索技巧!
我是汤老师一个放纵不羁爱自由的人在这里我希望你们不受约束尽情嗨众所周知,谷歌搜索在中国无法使用,鉴于国内的搜索引擎搜索命中率的问题,很多用户在怀念谷歌,也有很多用户仍然在通过各种方式使用谷歌,在大多数情况下用户都是通过基本
相关文章
推荐文章
发表评论
0评