自然语言处理数据集

作者： Jason Brownlee 发布于 2020年8月14日在深度学习在自然语言处理中的应用 68条评论

开始深度学习处理自然语言处理任务时，你需要数据集进行练习。

最好使用可以快速下载且训练模型时间不会太长的小型数据集。此外，使用那些被充分理解和广泛使用的标准数据集也很有帮助，这样你就可以比较自己的结果，看看是否取得了进展。

在这篇文章中，你将发现一套标准的自然语言处理数据集，可用于深度学习入门。

概述

这篇文章分为7个部分，它们是：

文本分类
语言建模
图像字幕
机器翻译
问答
语音识别
文档摘要

我尝试提供了一些在学术论文中流行且规模适中的混合数据集。

几乎所有数据集今天都可以免费下载。

如果你最喜欢的数据集没有列出，或者你认为你知道有更好的数据集应该列出，请在下面的评论中告诉我。

通过我的新书《深度学习在自然语言处理中的应用》启动你的项目，书中包含分步教程和所有示例的Python源代码文件。

让我们开始吧。

Datasets for Natural Language Processing

自然语言处理数据集
图片由Grant提供，部分权利保留。

1. 文本分类

文本分类是指对句子或文档进行标注，例如电子邮件垃圾邮件分类和情感分析。

以下是一些不错的初学者文本分类数据集。

路透社新闻主题分类 (Reuters-21578)。1987年路透社发布的新闻文档集合，按类别索引。另请参阅 RCV1、RCV2 和 TRC2。
IMDB 电影评论情感分类 (stanford)。来自 imdb.com 网站的电影评论集合及其正面或负面情感。
新闻组电影评论情感分类 (cornell)。来自 imdb.com 网站的电影评论集合及其正面或负面情感。

欲了解更多信息，请参阅此帖子

用于单标签文本分类的数据集。

2. 语言模型

语言建模涉及开发一个统计模型，用于预测给定此前内容后的句子的下一个单词或单词的下一个字母。它是语音识别和机器翻译等任务的预备任务。

它是语音识别和机器翻译等任务的预备任务。

以下是一些适合初学者的语言建模数据集。

古腾堡计划，一个大型免费书籍集合，可以纯文本形式获取多种语言的书籍。

还有更多经过深入研究的正式语料库；例如：

布朗大学当代美式英语标准语料库。大量英文单词样本。
Google 10亿词语料库.

需要深度学习处理文本数据的帮助吗？

立即参加我的免费7天电子邮件速成课程（附代码）。

点击注册，同时获得该课程的免费PDF电子书版本。

3. 图像字幕

图像字幕是为给定图像生成文本描述的任务。

以下是一些适合初学者的图像字幕数据集。

上下文中的常见对象 (COCO)。一个包含超过12万张带描述图像的集合。
Flickr 8K。从 flickr.com 收集的8千张带描述图像。
Flickr 30K。从 flickr.com 收集的3万张带描述图像。

更多内容请参阅此文章：

探索图像字幕数据集, 2016

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些适合初学者的机器翻译数据集。

加拿大第36届议会会议记录对齐语料库。英语和法语的句子对。
欧洲议会会议记录平行语料库 1996-2011。一套欧洲语言的句子对。

有大量的标准数据集用于年度机器翻译挑战；请参阅

统计机器翻译

5. 问答

问答任务是指提供一个句子或一段文本，然后从中提出问题并必须回答。

以下是一些适合初学者的问答数据集。

斯坦福问答数据集 (SQuAD)。关于维基百科文章的问答。
Deepmind 问答语料库。关于《每日邮报》新闻文章的问答。
亚马逊问答数据。关于亚马逊产品的问答。

欲了解更多信息，请参阅此帖子

数据集：如何获取Quora、Yahoo Answers或Stack Overflow等问答网站的语料库，以分析回答质量？

6. 语音识别

语音识别是将口语音频转换为人类可读文本的任务。

以下是一些适合初学者的语音识别数据集。

TIMIT 声学-语音连续语音语料库。非免费，但因其广泛使用而列出。口语美式英语及相关转录。
VoxForge。一个旨在构建语音识别开源数据库的项目。
LibriSpeech ASR 语料库。从LibriVox获取的大量英语有声读物集合。

你还知道其他好的自动语音识别数据集吗？
请在评论中告诉我。

7. 文档摘要

文档摘要是创建较长文档的简短有意义描述的任务。

以下是一些适合初学者的文档摘要数据集。

法律案例报告数据集。包含4000个法律案例及其摘要的集合。
TIPSTER 文本摘要评估会议语料库。包含近200份文档及其摘要的集合。
AQUAINT 英文新闻文本语料库。非免费，但被广泛使用。新闻文章语料库。

更多内容请参阅

进一步阅读

本节提供了额外的数据集列表，如果你想深入了解。

你知道其他好的自然语言处理数据集列表吗？
在下面的评论中告诉我。

总结

在这篇文章中，你发现了一套标准的自然语言处理数据集，可用于深度学习入门。

你选择了一个数据集吗？你正在使用上述数据集中的一个吗？
在下面的评论中告诉我。

关于此主题的更多信息

深度学习在自然语言处理中的前景

如何使用scikit-learn对文本数据进行机器学习编码

《自然语言处理数据集》的68条回复

birol 2017年9月28日凌晨3:51 #

https://github.com/karthikncode/nlp-datasets
https://github.com/caesar0301/awesome-public-datasets#natural-language

回复
- Jason Brownlee 2017年9月28日凌晨5:28 #
  
  太棒了，谢谢分享！
  
  回复
Anthony Rousseau 2017年10月8日下午5:09 #

对于ASR，你还有基于TED演讲的TEDLIUM语料库。
2014年的第二个版本在这里：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
（当然，我有点在为自己游说，但嘿！）

回复
- Jason Brownlee 2017年10月9日凌晨5:47 #
  
  太棒了，谢谢安东尼。
  
  回复
Ahmed 2017年12月12日下午7:12 #

非正式文本数据集用于文本规范化怎么样？

回复
- Jason Brownlee 2017年12月13日凌晨5:30 #
  
  你是什么意思，艾哈迈德？
  
  回复
  - Ahmed 2017年12月21日上午9:02 #
    
    非正式文本基本上是社交媒体（如推特甚至短信）中使用的文本。它包含非正式缩写、不同单词的不同拼写以及拼写错误。
    
    回复
    - Jason Brownlee 2017年12月21日下午3:34 #
      
      不错。
      
      回复
AB 2018年2月4日下午6:17 #

大家好，这些似乎都是带有单一标签的完整文章或完整文档，全部存储在各自标签的文件夹中。我正在寻找的是文件中每一行文本都有一个标签，文件格式如下：

行1 标签
行2 标签
行3 标签
…

因为我编写了一个预处理算法，专门接收这种格式的文件，以输入我正在构建的玩具逻辑回归模型。你知道有没有这种特定文件格式的数据集吗？或者我基本上必须自己动手？

谢谢。

回复
- Jason Brownlee 2018年2月5日早上7:44 #
  
  你可以编写代码来加载任何你想要的数据。
  
  回复
  - pierre 2019年3月25日晚上10:49 #
    
    你好，Jason Brownlee先生，我目前正在做一个关于Facebook数据情感分析的项目，我的大问题是数据没有标签，所以我无法应用机器学习模型
    你有什么技巧吗？谢谢你，你的帮助对我来说将非常有价值
    
    回复
    - Jason Brownlee 2019年3月26日早上8:07 #
      
      如果数据未标注，你可以用它来准备一个无监督模型，这可能是一个有用的起点，以便以后用于监督模型。
      
      或者你可以标注部分数据？
      
      回复
Riyadh 2018年3月20日晚上11:26 #

先生，请问“获取具有代表性的(!)原始数据集的正确查询词是什么”是什么意思？
数据集”

诚挚地

回复
- Jason Brownlee 2018年3月21日早上6:36 #
  
  抱歉，我不明白你的问题，你能换个说法吗？
  
  回复
Manuel 2018年4月1日早上5:14 #

你好，

你漏掉了蕴含数据集。

祝贺论坛。我总能在这里找到好材料。

回复
- Jason Brownlee 2018年4月1日早上5:51 #
  
  感谢您的建议。
  
  回复
s.murugesh 2018年4月19日晚上11:35 #

亲爱的 Jason 先生，

感谢你的倡议与祝贺。

我目前正在从纯文本中收集需求，你能帮我找一个数据集，其中包含关于软件如何开发的自然语言描述，即它可以是任何应用程序，如银行、图书馆管理系统、课程管理系统等。

在此先感谢您
此致 s.murugesh

回复
- Jason Brownlee 2018年4月20日早上5:54 #
  
  我在这里回答这个问题
  https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
  
  回复
turistinfo 2018年7月28日早上7:33 #

如果你像我一样追求最佳内容，只需每天快速访问这个网站，因为它提供特色内容，谢谢 – Beth
访问这个网站，因为它呈现特色内容，谢谢 – Beth

回复
- Jason Brownlee 2018年7月28日早上7:37 #
  
  很高兴它有帮助。
  
  回复
Lamin Dibba 2018年7月29日早上5:54 #

杰森，你的帖子总是信息量很大，而且自成体系。

回复
- Jason Brownlee 2018年7月29日早上6:13 #
  
  谢谢你。
  
  回复
Roland Fernandez 2018年7月29日上午9:50 #

很棒的文章。我还会将对话系统作为另一个关键的NLP任务，以及QA任务的bAbI QA数据集https://research.fb.com/downloads/babi/
—— 罗兰

回复
- Jason Brownlee 2018年7月30日早上5:43 #
  
  谢谢罗兰。
  
  回复
Parth Pandya 2018年9月4日下午4:07 #

是否有可用于分类的数据集，例如文档是关于会议、任务更新还是需要回复等？？

回复
- Jason Brownlee 2018年9月5日早上6:28 #
  
  你可以将其定义为一个预测建模问题。
  
  回复
HUI-YING LU 2018年9月18日凌晨1:17 #

我查看了1)文本分类和2)你提供的IMDB电影评论（大型电影评论数据集）链接。看起来有很多关于RNN模型构建的帖子——几乎所有人都取得了很好的结果（准确率超过85%）。然而，几乎所有人都使用Keras API imdb.load_data 来获取训练/测试集，这些数据集已经用词ID（词汇表中的索引与imdb.load_data一起提供）进行了格式化。这意味着我们不必自己进行数据处理、构建词汇表和嵌入矩阵等。我想知道有没有帖子展示了构建词汇表和嵌入矩阵的技巧（包括形成X_train、y_train、X_test、y_test数据以供Keras的嵌入层使用）。如果我们有好的嵌入矩阵和格式良好的训练/测试数据，创建预测模型看起来并不困难。我尝试自己构建训练/测试数据并使用预训练的Glove，但结果很差。如果不填补这些缺失的部分，我们就无法推广这些技术，因为我们依赖Keras提供好的API，这已经为我们提供了良好预测结果的基础。

回复
- Jason Brownlee 2018年9月18日早上6:19 #
  
  是的，我有很多关于这方面的资料，还有一本关于这个主题的书，从这里开始
  https://machinelearning.org.cn/start-here/#nlp
  
  回复
HUI-YING LU 2018年9月18日凌晨3:55 #

关于1)文本分类，第二个链接：IMDB电影评论情感分类，使用Keras API imdb.load_data，我还有另一个问题：我们如何查看Keras imdb API构建的词汇表？如果这个IMDB评论是一个大型数据集，那么构建的词汇表是否可以用于其他情感分类问题，而不仅仅是针对这部电影评论？（这意味着，我们有一个大型语料库，可以用它来制作一个通用情感分类器）。

回复
- Jason Brownlee 2018年9月18日早上6:21 #
  
  我不确定你是否可以。我相信这只是一个演示数据集。
  
  回复
Debayan Chakraborty 2018年11月12日下午5:07 #

先生，我如何为语言翻译制作自己的数据集？

回复
- Jason Brownlee 2018年11月13日早上5:43 #
  
  你必须收集有权使用的示例，或者使用现有的数据集。
  
  回复
MD 2018年12月5日凌晨2:49 #

嗨，杰森，你有没有关于法语情感分析数据集的建议？

回复
- Jason Brownlee 2018年12月5日早上6:20 #
  
  手头没有，也许可以尝试谷歌搜索？
  
  回复
Ramendra Singla 2019年2月3日晚上9:44 #

嗨，杰森，我需要一个数据集来根据词汇质量（好、非常好、优秀）对英语数据集进行分类。有什么建议吗？

回复
- Jason Brownlee 2019年2月4日早上5:46 #
  
  不，抱歉。也许可以搜索合适的数据集？
  
  回复
Chris 2019年3月10日晚上9:23 #

嗨，

我正在寻找一个包含文档和标签的数据集。对于两者，我都需要文本信息和网络信息。例如，bioasq数据集有文档和标签，但只有标签有文本信息和网络信息。文档只有文本信息。

有人知道这样的数据集吗？

此致，
克里斯

回复
- Jason Brownlee 2019年3月11日早上6:51 #
  
  也许从这里开始
  https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
  
  回复
Marta Schilling 2019年3月31日早上6:00 #

尊敬的詹森先生，

您有没有关于短语动词的数据集？

你的帖子太棒了！非常感谢你分享你的精彩知识。

上帝保佑，

玛尔塔

回复
- Jason Brownlee 2019年3月31日早上9:32 #
  
  手头没有，抱歉。
  
  回复
Nart 2019年9月9日晚上10:36 #

Common Voice 是 Mozilla 的一个项目，用于 CC0 语音转文本数据集
https://voice.mozilla.org/en

回复
- Jason Brownlee 2019年9月10日早上5:46 #
  
  感谢分享。
  
  回复
Nisaruddin 2020年2月5日晚上7:43 #

尊敬的詹森先生，

您是否有关于意图提取和分类的数据集？

你的帖子太棒了！非常感谢你分享你的精彩知识。

尼萨鲁丁

回复
- Jason Brownlee 2020年2月6日早上8:22 #
  
  好建议，谢谢！
  
  回复
Ana Rodríguez 2020年2月18日下午3:41 #

尊敬的詹森先生，

您是否有关于意图自动文本摘要的数据集，用于
使用深度学习方法处理西班牙语文本？ (
大量数据)

非常感谢您的分享…

安娜

回复
- Jason Brownlee 2020年2月19日早上7:56 #
  
  也许在这里搜索
  https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
  
  回复
Anirudh Kumar 2020年2月28日晚上11:25 #

杰森，太棒了。我正在寻找可用于训练我的模型进行个人身份信息 (PII) 分类的文本数据集。你知道我可以在哪里获取它吗？

回复
- Jason Brownlee 2020年2月29日早上7:13 #
  
  这个可能会有帮助
  https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
  
  回复
  - Simna Ashraf 2020年6月5日晚上11:03 #
    
    我需要代码从文本数据集中选择句子，用于社交媒体新闻生成项目
    
    回复
    - Jason Brownlee 2020年6月6日早上7:50 #
      
      听起来不错，祝你好运！
      
      回复
Moteel 2020年2月29日早上9:25 #

https://wiki.korpus.cz/doku.php/en:cnk:uvod
捷克语语料库。他们的工具令人印象深刻。

回复
- Jason Brownlee 2020年3月1日早上5:18 #
  
  感谢分享。
  
  回复
Artur Poniedzialek 2020年3月16日下午2:57 #

还值得一提的是 Mozilla Voice 项目，该项目于2018年启动。你可以加入该项目，帮助为多种语言构建最大的语音数据集。更多详情请访问：https://bestin-it.com/help-to-build-common-voice-datasets-with-mozilla/。尝试查找你的语言，如果找不到，请请求添加新语言。在“数据集”书签中，你可以下载所选语言的音频样本包。

回复
- Jason Brownlee 2020年3月17日早上8:09 #
  
  感谢分享。
  
  回复
dodo 2020年4月1日凌晨12:53 #

干得好！

我正在寻找一个包含战争、体育、经济等类别的文本分类数据集。

有人知道这样的数据集吗？

谢谢！

回复
- Jason Brownlee 2020年4月1日早上5:52 #
  
  这个可能会有帮助
  https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
  
  回复
mutaz 2020年7月10日下午4:53 #

你好

我正在研究一个 SDN 冲突项目，我想使用一个数据集，但我遇到了问题，我希望使用 SDN 数据集，但我无法获得 SDN 数据集。我在 SDN 中寻找的数据必须包含以下特征（优先级、动作、IP源、IP目的、MAC和流协议）。我想知道你是否能在这个问题上帮助我。
我想使用机器学习算法来检测SDN中的冲突，所以我必须在数据集中包含以下特征（优先级、协议、动作、源IP/空间地址、mac地址）。在我通过网站和研究找到的所有数据集中，它们都没有提到我正在寻找的这些特征。

· 在这种情况下，我必须创建并形成一个SDN中冲突流条目或流规则的数据集。就像Brew：一个用于分布式SDN云环境的安全策略分析框架文档中的生成一样。（100000条流）来自斯坦福拓扑。我将我用作项目基准的论文附给你。

生成流必须包含表中所示的以下冲突策略

· 冲突策略类型总结

此致

回复
- Jason Brownlee 2020年7月11日早上6:04 #
  
  这或许能帮助你找到合适的数据集
  https://machinelearning.org.cn/faq/single-faq/where-can-i-get-a-dataset-on-___
  
  回复
Rafael 2020年11月22日晚上10:53 #

嗨！我正在寻找自然语言处理数据集，我在 Curated NLP Database https://metatext.io/datasets 上找到了近1000个数据集

回复
- Jason Brownlee 2020年11月23日早上6:13 #
  
  感谢分享。
  
  回复
Arushi 2020年12月16日下午1:27 #

你好，

我正在思考语言建模、掩码语言建模和机器翻译数据集之间的差异。在语言建模部分，你提到“它是语音识别和机器翻译等任务的预备任务”。
这是否意味着你可以使用语言建模学习目标预训练模型，然后使用平行语料库或类似方法进行微调？尽管我不确定这会如何工作，它会在目标语言上进行训练吗？

回复
- Jason Brownlee 2020年12月16日下午1:44 #
  
  是的，你可以训练一个通用语言模型，并在特定的问题领域中重复使用和完善它。
  
  回复
George Benetti 2020年12月22日凌晨4:40 #

https://metatext.io/datasets 自然语言处理存储库。1000+数据集……他们的工具令人印象深刻。

回复
- Jason Brownlee 2020年12月22日早上6:50 #
  
  感谢分享。
  
  回复
Abdullahi Abba Abdullahi 2021年8月8日晚上10:08 #

你好，Jason Brownlee，我想处理低资源语言，比如我在非洲使用的豪萨语。我遇到的问题是缺乏数据集或语料库来构建模型或自然语言处理应用程序。请问我该如何完成这项任务或构建数据集？如果你能指导我，我将不胜感激。谢谢。

回复
- Jason Brownlee 2021年8月9日早上5:56 #
  
  第一步是定义你的问题，你要预测什么。然后收集你的数据集，或者找到拥有你可以使用/许可的数据集的人。
  
  回复
maryam 2022年1月29日凌晨12:17 #

你好
我的项目需要原始数据集，我的项目是关于研究论文聚类的，我在哪里可以找到它？

回复
- James Carmichael 2022年1月29日下午1:33 #
  
  嗨，Maryam……以下内容可能对你感兴趣
  
  https://pub.towardsai.net/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
  
  回复

导航

自然语言处理数据集

概述

1. 文本分类