当前位置:首页>文章 > 

免费中文语音数据集

免费中文语音数据集

免费中文语音数据集

本文核心词:

作者:帅帅家的人工智障

欢迎关注vx公众号、围脖、bilibili同名号

授权后可转载

本文会简单介绍一下目前开源或者可以免费申请的中文语音数据集,同时还会提供下载的链接,方便大家申请或者下载。

忍不住放一张好看的ctc + Attention组合,当然要是加上transformer会更好~

01: AISHELL1

AISHELL1:178h,16khz,16bit,400人录制,涉及智能家居、无人驾驶、工业生产等11个领域。

下载链接:

AISHELL2:1000h,16khz,16bit,1911人录制,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。

下载链接:

注意:AISHELL2需要用学校相关信息免费申请

02:THCHS-30

THCHS-30:30h,16khz,30人录制,清华大学30小时中文语音库。安静的办公室环境下,通过单个碳粒麦克风录取,文本选取自大容量的新闻。

下载链接:

03: ST-CMDS:

500h,16khz,16bit,855人录制,全称Free ST Chinese Mandarin Corpus。安静的室内环境下,通过单个碳粒麦克风录取,文本选取网络聊天智能音箱控制等。

下载链接:

04:Primewords Chinese Corpus Set 1

Primewords Chinese Corpus Set 1:100h,使用智能手机录制,296个说话人,可以免费用于学术用途。

下载链接:

05:aidatatang_200zh

aidatatang_200zh:200h,16khz,16bit,600人录制,Android和iOS手机录制。安静的室内环境下录制。

下载链接:

06:hkust

hkust:200h,16khz,16bit。中文电话数据集,电话对话,espnet,kaldi里面都有egs。

下载链接:

中文语音数据集很多,如gale_mandarin: 中文新闻广播数据集等,上面几个基本是大家比较常用的,如使用kaldi、espnet等工具会有相应的egs baseline,配好环境直接上手就能跑。

另外可能要注意的是,有些免费指的是学术研究免费~

好啦,以上就是免费中文语音数据集全部内容,都看到这里了还不收藏一下??搜索()还能找到更多精彩内容。