10个具有挑战性的机器学习时间序列预测问题

机器学习方法在时间序列预测问题上有许多可以提供的东西。

一个困难之处在于,大多数方法仅在简单的一元时间序列预测问题上得到演示。

在这篇文章中,您将发现一系列具有挑战性的时间序列预测问题。这些问题是经典线性统计方法不足以解决的,并且需要更先进的机器学习方法。

如果您正在寻找具有挑战性的时间序列数据集来练习机器学习技术,那么您来对地方了。

开始您的项目,阅读我的新书《Python 时间序列预测》,其中包含分步教程以及所有示例的Python源代码文件。

让我们开始吧。

Challenging Machine Learning Time Series Forecasting Problems

10 个具有挑战性的机器学习时间序列预测问题
照片作者:Joao Trindade,保留部分权利。

概述

我们将仔细研究来自竞争性数据科学网站Kaggle.com 的 10 个具有挑战性的时间序列数据集。

并非所有数据集都是严格的时间序列预测问题;我放宽了定义,也包括了那些在进行模糊化之前是时间序列,或者具有明显时间分量的问题。

它们是

  • 下了多少雨?第一和第二部分
  • 在线产品销售
  • Rossmann 商店销售
  • 沃尔玛招聘 – 商店销售预测
  • 招揽有价值的购物者挑战
  • 墨尔本大学 AES/MathWorks/NIH 癫痫发作预测
  • AMS 2013-2014 太阳能预测竞赛
  • 2012 年全球能源预测竞赛 – 风力预测
  • EMC数据科学全球黑客马拉松(空气质量预测)
  • Grupo Bimbo 库存需求

这并非 Kaggle 上所有的时间序列数据集。
我错过了什么好的数据集吗?请在下面的评论中告诉我。

停止以**慢速**学习时间序列预测!

参加我的免费7天电子邮件课程,了解如何入门(附带示例代码)。

点击注册,同时获得该课程的免费PDF电子书版本。

下了多少雨?第一和第二部分

根据极化雷达的观测和衍生测量值,问题是预测雨量计的每小时总降雨量的概率分布。

时间结构(例如,小时到小时)已作为数据模糊化的一部分被移除,但它本可以是一个有趣的时间序列问题。

该竞赛在同一年举行了两次,使用了不同的数据集。

第二次竞赛由 Aaron Sim 赢得,他使用了一个非常大的循环神经网络算法。

可以在这里找到采访竞赛获胜者的博客文章。.

在线产品销售

根据产品的详细信息和产品发布情况,问题是预测未来 12 个月的销售数据。

这是一个多步预测,或序列预测,没有历史销售数据可以进行外推。

我找不到任何关于表现最佳解决方案的好文章。您能找到吗?

在竞赛页面了解更多信息。.

Rossmann 商店销售

根据一千多家商店的历史日销售数据,问题是预测每家商店未来 6 周的日销售数据。

这既提供了探索按商店区分的多步预测的机会,也提供了利用跨商店模式的能力。

顶尖的成果是通过仔细的特征工程和梯度提升的使用实现的。

可以在这里找到采访竞赛获胜者的博客文章。.

在竞赛页面了解更多信息。.

沃尔玛招聘 – 商店销售预测

根据多个商店的多个部门的历史周销售数据以及促销活动的详细信息,问题是预测商店部门的销售数据。

这既提供了探索按部门甚至按商店区分的预测机会,也提供了利用跨部门和跨商店模式的能力。

表现最佳者大量使用了 ARIMA 模型和对公共节假日的仔细处理。

在这里查看获胜解决方案的写照,以及亚军解决方案

在竞赛页面了解更多信息。.

招揽有价值的购物者挑战

根据历史购物行为,问题是预测在接受折扣优惠后,哪些客户可能会重复购买(成为被招揽的客户)。

大量的交易使得这是一个大数据下载,近 3GB。

该问题为对特定或聚合客户进行时间序列建模并预测客户转化概率提供了机会。

我找不到任何关于表现最佳解决方案的好文章。您能找到吗?

在竞赛页面了解更多信息。.

墨尔本大学 AES/MathWorks/NIH 癫痫发作预测

根据数月或数年的颅内脑电图观察到的人类大脑活动痕迹,问题是预测 10 分钟的片段是否表明癫痫发作的概率。

这里描述了一个获得第四名的解决方案,该解决方案使用了统计特征工程和梯度提升。

在竞赛页面了解更多信息。.

更新:该数据集已被撤下。

AMS 2013-2014 太阳能预测竞赛

根据多个站点的历史气象预报,问题是预测一个站点一年中每天的总太阳能。

该数据集为按站点和跨站点对空间和时间序列进行建模,并为每个站点进行多步预测提供了机会。

获胜方法使用了梯度提升模型的集成。.

在竞赛页面了解更多信息。.

2012 年全球能源预测竞赛 – 风力预测

根据多个站点的历史风力预测和发电量,问题是预测未来 48 小时的每小时发电量。

该数据集为对各个站点的每小时时间序列以及跨站点的模型进行建模提供了机会。

我找不到任何关于表现最佳解决方案的好文章。您能找到吗?

在竞赛页面了解更多信息。.

EMC数据科学全球黑客马拉松(空气质量预测)

根据八天的每小时空气污染物测量值,问题是预测未来三天特定时间的污染物。

该数据集为对多元时间序列进行建模并执行多步预测提供了机会。

一个关于表现最佳解决方案的精彩介绍描述了使用在滞后变量上训练的随机森林模型集成。

在竞赛页面了解更多信息。.

总结

在这篇文章中,您发现了一系列具有挑战性的时间序列预测问题。

这些问题为Kaggle.com 网站上的竞争性机器学习奠定了基础。因此,每个问题也提供了大量的讨论和现有的世界级解决方案,可以作为灵感和起点。

如果您有兴趣更好地理解机器学习在时间序列预测中的作用,我建议选择一个或多个这些问题作为起点。

您是否处理过这些问题中的一个或多个?
在下面的评论中分享您的经验。

Kaggle.com 上是否有本文未提及的时间序列问题?
Let me know about it in the comments below.

想用Python开发时间序列预测吗?

Introduction to Time Series Forecasting With Python

几分钟内开发您自己的预测

...只需几行python代码

在我的新电子书中探索如何实现
Python 时间序列预测入门

它涵盖了**自学教程**和**端到端项目**,主题包括:*数据加载、可视化、建模、算法调优*等等。

最终将时间序列预测带入
您自己的项目

跳过学术理论。只看结果。

查看内容

18 条对《10 个具有挑战性的机器学习时间序列预测问题》的回复

  1. Andrei 2017年3月1日晚上7:46 #

    感谢您收集和分享这些时间序列预测问题。
    这看起来确实很有挑战性,但值得一试。

  2. Sebastian 2017年3月2日早上9:04 #

    如果您能写一篇关于风力预测问题的博客,那将非常棒!

  3. leo 2017年3月2日晚上5:42 #

    您推荐哪种风力预测方法?
    此外,Kagglers 使用机器学习方法而不是像 aroma、指数平滑等时间序列方法。

    • Jason Brownlee 2017年3月3日早上7:42 #

      我对风力预测的具体领域不太熟悉,但总的来说,我建议您尝试尽可能多的方法,然后对显示出希望的方法进行深入研究。

      气象学的一个优点是它基于我们理解和可以模拟的物理学。用于温度和极端天气(如我曾经工作的飓风)的集成气象模型是先进的。我不确定一般的风力预测。

  4. Keert 2017年10月21日凌晨12:31 #

    做什么模型适合做基于天气的销售预测?我有一个数据集,其中包含过去两年每个商店的销售数据,我想添加天气参数。

  5. sherry 2018年9月10日晚上8:19 #

    嗨,Jason,

    我有一些关于历史每日降水地图的 2443 张 gif 图片,我想构建一个模型来预测一周的地图。

    您能指导我如何开始吗?您是否知道任何在线资源?

    非常感谢。

  6. Reema 2019年9月27日早上7:19 #

    非常感谢 Jason 先生,

    我想将 Rossmann 商店挑战作为我的硕士毕业论文,但我对其类型感到困惑,它是否被视为多元且多时间序列问题?

    如果您有关于该主题的任何有用资源,或者对我的毕业论文有比此挑战更简单的建议,将不胜感激。

    此致,

  7. Jake 2020年4月27日早上5:01 #

    我是机器学习新手,我有一个时间序列预测项目,需要预测未来 5 分钟所有产品的销售情况。LSTM 是我项目的合适解决方案吗?有推荐的书籍吗?谢谢。

  8. Emad Fathy 2020年5月19日早上7:01 #

    那么预测性维护呢?大部分数据是来自工厂传感器的基于时间序列的数据?这些技术是否适用?

    • Jason Brownlee 2020年5月19日早上7:29 #

      是的,您可以将其建模为时间序列分类——例如,是否存在间隔内的故障。

留下回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。