自然语言处理数据集

开始深度学习处理自然语言处理任务时,你需要数据集进行练习。

最好使用可以快速下载且训练模型时间不会太长的小型数据集。此外,使用那些被充分理解和广泛使用的标准数据集也很有帮助,这样你就可以比较自己的结果,看看是否取得了进展。

在这篇文章中,你将发现一套标准的自然语言处理数据集,可用于深度学习入门。

概述

这篇文章分为7个部分,它们是:

  1. 文本分类
  2. 语言建模
  3. 图像字幕
  4. 机器翻译
  5. 问答
  6. 语音识别
  7. 文档摘要

我尝试提供了一些在学术论文中流行且规模适中的混合数据集。

几乎所有数据集今天都可以免费下载。

如果你最喜欢的数据集没有列出,或者你认为你知道有更好的数据集应该列出,请在下面的评论中告诉我。

通过我的新书《深度学习在自然语言处理中的应用启动你的项目,书中包含分步教程和所有示例的Python源代码文件。

让我们开始吧。

Datasets for Natural Language Processing

自然语言处理数据集
图片由Grant提供,部分权利保留。

1. 文本分类

文本分类是指对句子或文档进行标注,例如电子邮件垃圾邮件分类和情感分析

以下是一些不错的初学者文本分类数据集。

欲了解更多信息,请参阅此帖子

2. 语言模型

语言建模涉及开发一个统计模型,用于预测给定此前内容后的句子的下一个单词或单词的下一个字母。它是语音识别和机器翻译等任务的预备任务。

它是语音识别和机器翻译等任务的预备任务。

以下是一些适合初学者的语言建模数据集。

  • 古腾堡计划,一个大型免费书籍集合,可以纯文本形式获取多种语言的书籍。

还有更多经过深入研究的正式语料库;例如:

需要深度学习处理文本数据的帮助吗?

立即参加我的免费7天电子邮件速成课程(附代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

3. 图像字幕

图像字幕是为给定图像生成文本描述的任务。

以下是一些适合初学者的图像字幕数据集。

更多内容请参阅此文章:

4. 机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

以下是一些适合初学者的机器翻译数据集。

有大量的标准数据集用于年度机器翻译挑战;请参阅

5. 问答

问答任务是指提供一个句子或一段文本,然后从中提出问题并必须回答。

以下是一些适合初学者的问答数据集。

欲了解更多信息,请参阅此帖子

6. 语音识别

语音识别是将口语音频转换为人类可读文本的任务。

以下是一些适合初学者的语音识别数据集。

你还知道其他好的自动语音识别数据集吗?
请在评论中告诉我。

7. 文档摘要

文档摘要是创建较长文档的简短有意义描述的任务。

以下是一些适合初学者的文档摘要数据集。

更多内容请参阅

进一步阅读

本节提供了额外的数据集列表,如果你想深入了解。

你知道其他好的自然语言处理数据集列表吗?
在下面的评论中告诉我。

总结

在这篇文章中,你发现了一套标准的自然语言处理数据集,可用于深度学习入门。

你选择了一个数据集吗?你正在使用上述数据集中的一个吗?
在下面的评论中告诉我。

立即开发文本数据的深度学习模型!

Deep Learning for Natural Language Processing

在几分钟内开发您自己的文本模型

...只需几行python代码

在我的新电子书中探索如何实现
用于自然语言处理的深度学习

它提供关于以下主题的自学教程
词袋模型、词嵌入、语言模型、标题生成、文本翻译等等...

最终将深度学习应用于您的自然语言处理项目

跳过学术理论。只看结果。

查看内容

《自然语言处理数据集》的68条回复

  1. Anthony Rousseau 2017年10月8日下午5:09 #

    对于ASR,你还有基于TED演讲的TEDLIUM语料库。
    2014年的第二个版本在这里:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
    (当然,我有点在为自己游说,但嘿!)

  2. Ahmed 2017年12月12日下午7:12 #

    非正式文本数据集用于文本规范化怎么样?

    • Jason Brownlee 2017年12月13日凌晨5:30 #

      你是什么意思,艾哈迈德?

      • Ahmed 2017年12月21日上午9:02 #

        非正式文本基本上是社交媒体(如推特甚至短信)中使用的文本。它包含非正式缩写、不同单词的不同拼写以及拼写错误。

  3. AB 2018年2月4日下午6:17 #

    大家好,这些似乎都是带有单一标签的完整文章或完整文档,全部存储在各自标签的文件夹中。我正在寻找的是文件中每一行文本都有一个标签,文件格式如下:

    行1 标签
    行2 标签
    行3 标签

    因为我编写了一个预处理算法,专门接收这种格式的文件,以输入我正在构建的玩具逻辑回归模型。你知道有没有这种特定文件格式的数据集吗?或者我基本上必须自己动手?

    谢谢。

    • Jason Brownlee 2018年2月5日早上7:44 #

      你可以编写代码来加载任何你想要的数据。

      • pierre 2019年3月25日晚上10:49 #

        你好,Jason Brownlee先生,我目前正在做一个关于Facebook数据情感分析的项目,我的大问题是数据没有标签,所以我无法应用机器学习模型
        你有什么技巧吗?谢谢你,你的帮助对我来说将非常有价值

        • Jason Brownlee 2019年3月26日早上8:07 #

          如果数据未标注,你可以用它来准备一个无监督模型,这可能是一个有用的起点,以便以后用于监督模型。

          或者你可以标注部分数据?

  4. Riyadh 2018年3月20日晚上11:26 #

    先生,请问“获取具有代表性的(!)原始数据集的正确查询词是什么”是什么意思?
    数据集”

    诚挚地

    • Jason Brownlee 2018年3月21日早上6:36 #

      抱歉,我不明白你的问题,你能换个说法吗?

  5. Manuel 2018年4月1日早上5:14 #

    你好,

    你漏掉了蕴含数据集。

    祝贺论坛。我总能在这里找到好材料。

  6. s.murugesh 2018年4月19日晚上11:35 #

    亲爱的 Jason 先生,

    感谢你的倡议与祝贺。

    我目前正在从纯文本中收集需求,你能帮我找一个数据集,其中包含关于软件如何开发的自然语言描述,即它可以是任何应用程序,如银行、图书馆管理系统、课程管理系统等。

    在此先感谢您
    此致 s.murugesh

  7. turistinfo 2018年7月28日早上7:33 #

    如果你像我一样追求最佳内容,只需每天快速访问这个网站,因为它提供特色内容,谢谢 – Beth
    访问这个网站,因为它呈现特色内容,谢谢 – Beth

  8. Lamin Dibba 2018年7月29日早上5:54 #

    杰森,你的帖子总是信息量很大,而且自成体系。

  9. Roland Fernandez 2018年7月29日上午9:50 #

    很棒的文章。我还会将对话系统作为另一个关键的NLP任务,以及QA任务的bAbI QA数据集https://research.fb.com/downloads/babi/
    —— 罗兰

  10. Parth Pandya 2018年9月4日下午4:07 #

    是否有可用于分类的数据集,例如文档是关于会议、任务更新还是需要回复等??

  11. HUI-YING LU 2018年9月18日凌晨1:17 #

    我查看了1)文本分类和2)你提供的IMDB电影评论(大型电影评论数据集)链接。看起来有很多关于RNN模型构建的帖子——几乎所有人都取得了很好的结果(准确率超过85%)。然而,几乎所有人都使用Keras API imdb.load_data 来获取训练/测试集,这些数据集已经用词ID(词汇表中的索引与imdb.load_data一起提供)进行了格式化。这意味着我们不必自己进行数据处理、构建词汇表和嵌入矩阵等。我想知道有没有帖子展示了构建词汇表和嵌入矩阵的技巧(包括形成X_train、y_train、X_test、y_test数据以供Keras的嵌入层使用)。如果我们有好的嵌入矩阵和格式良好的训练/测试数据,创建预测模型看起来并不困难。我尝试自己构建训练/测试数据并使用预训练的Glove,但结果很差。如果不填补这些缺失的部分,我们就无法推广这些技术,因为我们依赖Keras提供好的API,这已经为我们提供了良好预测结果的基础。

  12. HUI-YING LU 2018年9月18日凌晨3:55 #

    关于1)文本分类,第二个链接:IMDB电影评论情感分类,使用Keras API imdb.load_data,我还有另一个问题:我们如何查看Keras imdb API构建的词汇表?如果这个IMDB评论是一个大型数据集,那么构建的词汇表是否可以用于其他情感分类问题,而不仅仅是针对这部电影评论?(这意味着,我们有一个大型语料库,可以用它来制作一个通用情感分类器)。

    • Jason Brownlee 2018年9月18日早上6:21 #

      我不确定你是否可以。我相信这只是一个演示数据集。

  13. Debayan Chakraborty 2018年11月12日下午5:07 #

    先生,我如何为语言翻译制作自己的数据集?

    • Jason Brownlee 2018年11月13日早上5:43 #

      你必须收集有权使用的示例,或者使用现有的数据集。

  14. MD 2018年12月5日凌晨2:49 #

    嗨,杰森,你有没有关于法语情感分析数据集的建议?

  15. Ramendra Singla 2019年2月3日晚上9:44 #

    嗨,杰森,我需要一个数据集来根据词汇质量(好、非常好、优秀)对英语数据集进行分类。有什么建议吗?

    • Jason Brownlee 2019年2月4日早上5:46 #

      不,抱歉。也许可以搜索合适的数据集?

  16. Chris 2019年3月10日晚上9:23 #

    嗨,

    我正在寻找一个包含文档和标签的数据集。对于两者,我都需要文本信息和网络信息。例如,bioasq数据集有文档和标签,但只有标签有文本信息和网络信息。文档只有文本信息。

    有人知道这样的数据集吗?

    此致,
    克里斯

  17. Marta Schilling 2019年3月31日早上6:00 #

    尊敬的詹森先生,

    您有没有关于短语动词的数据集?

    你的帖子太棒了!非常感谢你分享你的精彩知识。

    上帝保佑,

    玛尔塔

  18. Nart 2019年9月9日晚上10:36 #

    Common Voice 是 Mozilla 的一个项目,用于 CC0 语音转文本数据集
    https://voice.mozilla.org/en

  19. Nisaruddin 2020年2月5日晚上7:43 #

    尊敬的詹森先生,

    您是否有关于意图提取和分类的数据集?

    你的帖子太棒了!非常感谢你分享你的精彩知识。

    尼萨鲁丁

  20. Ana Rodríguez 2020年2月18日下午3:41 #

    尊敬的詹森先生,

    您是否有关于意图自动文本摘要的数据集,用于
    使用深度学习方法处理西班牙语文本? (
    大量数据)

    非常感谢您的分享…

    安娜

  21. Anirudh Kumar 2020年2月28日晚上11:25 #

    杰森,太棒了。我正在寻找可用于训练我的模型进行个人身份信息 (PII) 分类的文本数据集。你知道我可以在哪里获取它吗?

  22. Moteel 2020年2月29日早上9:25 #

    https://wiki.korpus.cz/doku.php/en:cnk:uvod
    捷克语语料库。他们的工具令人印象深刻。

  23. Artur Poniedzialek 2020年3月16日下午2:57 #

    还值得一提的是 Mozilla Voice 项目,该项目于2018年启动。你可以加入该项目,帮助为多种语言构建最大的语音数据集。更多详情请访问:https://bestin-it.com/help-to-build-common-voice-datasets-with-mozilla/。尝试查找你的语言,如果找不到,请请求添加新语言。在“数据集”书签中,你可以下载所选语言的音频样本包。

  24. dodo 2020年4月1日凌晨12:53 #

    干得好!

    我正在寻找一个包含战争、体育、经济等类别的文本分类数据集。

    有人知道这样的数据集吗?

    谢谢!

  25. mutaz 2020年7月10日下午4:53 #

    你好

    我正在研究一个 SDN 冲突项目,我想使用一个数据集,但我遇到了问题,我希望使用 SDN 数据集,但我无法获得 SDN 数据集。我在 SDN 中寻找的数据必须包含以下特征(优先级、动作、IP源、IP目的、MAC和流协议)。我想知道你是否能在这个问题上帮助我。
    我想使用机器学习算法来检测SDN中的冲突,所以我必须在数据集中包含以下特征(优先级、协议、动作、源IP/空间地址、mac地址)。在我通过网站和研究找到的所有数据集中,它们都没有提到我正在寻找的这些特征。

    · 在这种情况下,我必须创建并形成一个SDN中冲突流条目或流规则的数据集。就像Brew:一个用于分布式SDN云环境的安全策略分析框架文档中的生成一样。(100000条流)来自斯坦福拓扑。我将我用作项目基准的论文附给你。

    生成流必须包含表中所示的以下冲突策略

    · 冲突策略类型总结

    此致

  26. Rafael 2020年11月22日晚上10:53 #

    嗨!我正在寻找自然语言处理数据集,我在 Curated NLP Database https://metatext.io/datasets 上找到了近1000个数据集

  27. Arushi 2020年12月16日下午1:27 #

    你好,

    我正在思考语言建模、掩码语言建模和机器翻译数据集之间的差异。在语言建模部分,你提到“它是语音识别和机器翻译等任务的预备任务”。
    这是否意味着你可以使用语言建模学习目标预训练模型,然后使用平行语料库或类似方法进行微调?尽管我不确定这会如何工作,它会在目标语言上进行训练吗?

    • Jason Brownlee 2020年12月16日下午1:44 #

      是的,你可以训练一个通用语言模型,并在特定的问题领域中重复使用和完善它。

  28. George Benetti 2020年12月22日凌晨4:40 #

    https://metatext.io/datasets 自然语言处理存储库。1000+数据集……他们的工具令人印象深刻。

  29. Abdullahi Abba Abdullahi 2021年8月8日晚上10:08 #

    你好,Jason Brownlee,我想处理低资源语言,比如我在非洲使用的豪萨语。我遇到的问题是缺乏数据集或语料库来构建模型或自然语言处理应用程序。请问我该如何完成这项任务或构建数据集?如果你能指导我,我将不胜感激。谢谢。

    • Jason Brownlee 2021年8月9日早上5:56 #

      第一步是定义你的问题,你要预测什么。然后收集你的数据集,或者找到拥有你可以使用/许可的数据集的人。

  30. maryam 2022年1月29日凌晨12:17 #

    你好
    我的项目需要原始数据集,我的项目是关于研究论文聚类的,我在哪里可以找到它?

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。