中文的开源音频数据集 | 盛溪的博客

type

status

date

slug

summary

tags

category

icon

password

在深度学习和自然语言处理的研究中，开源音频数据集非常重要，特别是在语音识别、语音合成和情感分析等任务中。对于中文音频数据集，以下是一些知名的开源项目，这些数据集可以用于研究和开发各种语音相关的应用：

1. AISHELL系列

AISHELL系列是目前最常用的中文开源语音数据集之一，适用于语音识别任务。

AISHELL-1：

描述：包含约178小时的中文普通话语音，录制环境为安静的办公室。
链接：AISHELL-1

AISHELL-2：

描述：包含约1000小时的中文普通话语音，涵盖更多的发音和环境变异。
链接：AISHELL-2

2. THCHS-30

THCHS-30 是由清华大学提供的中文开源语音数据库，广泛用于语音识别研究。

描述：包含约30小时的中文普通话语音，涵盖多种发音和语速。

链接：THCHS-30

3. Primewords Chinese Corpus Set 1

Primewords 提供的中文语音数据集，适用于语音识别和其他语音处理任务。

描述：包含约100小时的中文语音数据，录制内容多样，包括新闻、故事和对话等。

链接：Primewords

4. ST-CMDS (ST Chinese Mandarin Corpus)

这个数据集由Microsoft提供，适用于语音识别和语音合成任务。

描述：包含约100小时的中文普通话语音，录制自多个说话者。

链接：ST-CMDS

5. MagicData-RAMC

MagicData-RAMC是一个大规模的中文语音数据集，适用于语音识别、语音合成等任务。

描述：包含约1800小时的中文普通话语音，来自不同性别和年龄段的说话者。

链接：MagicData-RAMC

6. WenetSpeech

WenetSpeech是一个大规模的中文语音数据集，适用于语音识别和其他语音处理任务。

描述：包含约10000小时的中文普通话语音，涵盖广泛的领域和环境。

链接：WenetSpeech

使用注意事项

数据许可：在使用这些数据集时，请务必遵守相应的许可协议和使用条款。

数据预处理：根据具体任务的需求，对音频数据进行预处理（如降噪、切分等）可能是必要的。

数据增强：为了提高模型的鲁棒性，可以考虑对数据进行增强处理，如添加背景噪音、改变语速等。

这些数据集为中文语音处理提供了丰富的资源，研究人员和开发者可以根据具体的应用需求选择合适的数据集进行训练和评估。

Author:盛溪
URL:https://tangly1024.com/article/%E4%B8%AD%E6%96%87%E7%9A%84%E5%BC%80%E6%BA%90%E9%9F%B3%E9%A2%91%E6%95%B0%E6%8D%AE%E9%9B%86
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

这就是Chatgpt 阅读笔记

Lazy loaded image

Lazy loaded image

华裔科学家李飞飞：她看见的世界和她改变的世界

Lazy loaded image

史蒂夫·沃兹尼亚克

Lazy loaded image

Lazy loaded image

《终极算法》阅读笔记（一）

Lazy loaded image

知网如何查重？论文查重5大规则！快速降重6大技巧！有了AI，你会越活越惨!

Loading...

Catalog

0%

盛溪

盛溪的学习&生活博客

Latest posts

墨尔本大学与悉尼大学IT入学要求

北京切除：京林公寓最后一夜，最后一人

Research about Computational Economics

Announcement

🌟 欢迎来到盛溪的博客！🌟

大家好，我是盛溪。在这里，我将分享我的生活感悟、学习心得以及其他一些有趣的发现。希望我的文章能为你的生活带来一点启发和乐趣。

📅 更新通知：

我会定期更新博客，分享新的内容。你可以通过RSS订阅或关注我的社交媒体账号来及时获取更新通知。

💬 互动环节：

如果你有任何问题或想法，欢迎在评论区留言。我非常期待与你的互动！

📚 推荐阅读：

不定期推荐一些我觉得有价值的书籍或资源，希望能对你有所帮助。

感谢你的访问和支持，希望你能常来逛逛！

盛溪敬上

Catalog

0%