机器学习方法在时间序列预测问题上有许多可以提供的东西。
一个困难之处在于,大多数方法仅在简单的一元时间序列预测问题上得到演示。
在这篇文章中,您将发现一系列具有挑战性的时间序列预测问题。这些问题是经典线性统计方法不足以解决的,并且需要更先进的机器学习方法。
如果您正在寻找具有挑战性的时间序列数据集来练习机器学习技术,那么您来对地方了。
开始您的项目,阅读我的新书《Python 时间序列预测》,其中包含分步教程以及所有示例的Python源代码文件。
让我们开始吧。

10 个具有挑战性的机器学习时间序列预测问题
照片作者:Joao Trindade,保留部分权利。
概述
我们将仔细研究来自竞争性数据科学网站Kaggle.com 的 10 个具有挑战性的时间序列数据集。
并非所有数据集都是严格的时间序列预测问题;我放宽了定义,也包括了那些在进行模糊化之前是时间序列,或者具有明显时间分量的问题。
它们是
- 下了多少雨?第一和第二部分
- 在线产品销售
- Rossmann 商店销售
- 沃尔玛招聘 – 商店销售预测
- 招揽有价值的购物者挑战
- 墨尔本大学 AES/MathWorks/NIH 癫痫发作预测
- AMS 2013-2014 太阳能预测竞赛
- 2012 年全球能源预测竞赛 – 风力预测
- EMC数据科学全球黑客马拉松(空气质量预测)
- Grupo Bimbo 库存需求
这并非 Kaggle 上所有的时间序列数据集。
我错过了什么好的数据集吗?请在下面的评论中告诉我。
停止以**慢速**学习时间序列预测!
参加我的免费7天电子邮件课程,了解如何入门(附带示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
下了多少雨?第一和第二部分
根据极化雷达的观测和衍生测量值,问题是预测雨量计的每小时总降雨量的概率分布。
时间结构(例如,小时到小时)已作为数据模糊化的一部分被移除,但它本可以是一个有趣的时间序列问题。
该竞赛在同一年举行了两次,使用了不同的数据集。
第二次竞赛由 Aaron Sim 赢得,他使用了一个非常大的循环神经网络算法。
在线产品销售
根据产品的详细信息和产品发布情况,问题是预测未来 12 个月的销售数据。
这是一个多步预测,或序列预测,没有历史销售数据可以进行外推。
我找不到任何关于表现最佳解决方案的好文章。您能找到吗?
Rossmann 商店销售
根据一千多家商店的历史日销售数据,问题是预测每家商店未来 6 周的日销售数据。
这既提供了探索按商店区分的多步预测的机会,也提供了利用跨商店模式的能力。
顶尖的成果是通过仔细的特征工程和梯度提升的使用实现的。
沃尔玛招聘 – 商店销售预测
根据多个商店的多个部门的历史周销售数据以及促销活动的详细信息,问题是预测商店部门的销售数据。
这既提供了探索按部门甚至按商店区分的预测机会,也提供了利用跨部门和跨商店模式的能力。
表现最佳者大量使用了 ARIMA 模型和对公共节假日的仔细处理。
招揽有价值的购物者挑战
根据历史购物行为,问题是预测在接受折扣优惠后,哪些客户可能会重复购买(成为被招揽的客户)。
大量的交易使得这是一个大数据下载,近 3GB。
该问题为对特定或聚合客户进行时间序列建模并预测客户转化概率提供了机会。
我找不到任何关于表现最佳解决方案的好文章。您能找到吗?
墨尔本大学 AES/MathWorks/NIH 癫痫发作预测
根据数月或数年的颅内脑电图观察到的人类大脑活动痕迹,问题是预测 10 分钟的片段是否表明癫痫发作的概率。
这里描述了一个获得第四名的解决方案,该解决方案使用了统计特征工程和梯度提升。
更新:该数据集已被撤下。
AMS 2013-2014 太阳能预测竞赛
根据多个站点的历史气象预报,问题是预测一个站点一年中每天的总太阳能。
该数据集为按站点和跨站点对空间和时间序列进行建模,并为每个站点进行多步预测提供了机会。
2012 年全球能源预测竞赛 – 风力预测
根据多个站点的历史风力预测和发电量,问题是预测未来 48 小时的每小时发电量。
该数据集为对各个站点的每小时时间序列以及跨站点的模型进行建模提供了机会。
我找不到任何关于表现最佳解决方案的好文章。您能找到吗?
EMC数据科学全球黑客马拉松(空气质量预测)
根据八天的每小时空气污染物测量值,问题是预测未来三天特定时间的污染物。
该数据集为对多元时间序列进行建模并执行多步预测提供了机会。
一个关于表现最佳解决方案的精彩介绍描述了使用在滞后变量上训练的随机森林模型集成。
总结
在这篇文章中,您发现了一系列具有挑战性的时间序列预测问题。
这些问题为Kaggle.com 网站上的竞争性机器学习奠定了基础。因此,每个问题也提供了大量的讨论和现有的世界级解决方案,可以作为灵感和起点。
如果您有兴趣更好地理解机器学习在时间序列预测中的作用,我建议选择一个或多个这些问题作为起点。
您是否处理过这些问题中的一个或多个?
在下面的评论中分享您的经验。
Kaggle.com 上是否有本文未提及的时间序列问题?
Let me know about it in the comments below.
感谢您收集和分享这些时间序列预测问题。
这看起来确实很有挑战性,但值得一试。
谢谢 Andrei,让我知道您的进展!
如果您能写一篇关于风力预测问题的博客,那将非常棒!
谢谢您的建议 Sebastian。
您推荐哪种风力预测方法?
此外,Kagglers 使用机器学习方法而不是像 aroma、指数平滑等时间序列方法。
我对风力预测的具体领域不太熟悉,但总的来说,我建议您尝试尽可能多的方法,然后对显示出希望的方法进行深入研究。
气象学的一个优点是它基于我们理解和可以模拟的物理学。用于温度和极端天气(如我曾经工作的飓风)的集成气象模型是先进的。我不确定一般的风力预测。
做什么模型适合做基于天气的销售预测?我有一个数据集,其中包含过去两年每个商店的销售数据,我想添加天气参数。
也许可以从线性模型开始。
https://machinelearning.org.cn/start-here/#timeseries
然后也许可以转向 MLP 看看是否能做得更好。
https://machinelearning.org.cn/start-here/#deeplearning
嗨,Jason,
我有一些关于历史每日降水地图的 2443 张 gif 图片,我想构建一个模型来预测一周的地图。
您能指导我如何开始吗?您是否知道任何在线资源?
非常感谢。
这个流程可能会有帮助。
https://machinelearning.org.cn/start-here/#process
非常感谢 Jason 先生,
我想将 Rossmann 商店挑战作为我的硕士毕业论文,但我对其类型感到困惑,它是否被视为多元且多时间序列问题?
如果您有关于该主题的任何有用资源,或者对我的毕业论文有比此挑战更简单的建议,将不胜感激。
此致,
也许可以尝试探索问题的几种不同表述方式,看看哪种更容易建模?
谢谢,但您的意思是不同的表述方式?您写了一本关于时间序列深度学习的书,其中应用了不同的项目,这对此类问题有用吗?
根据输入和输出的类型和数量,有很多方法可以表述预测问题,请参阅此内容。
https://machinelearning.org.cn/how-to-define-your-machine-learning-problem/
我们对“正确”方式的直觉可能不适用于获得最佳预测。需要进行测试/原型开发。
也许可以从这里的免费教程开始。
https://machinelearning.org.cn/start-here/#deep_learning_time_series
我是机器学习新手,我有一个时间序列预测项目,需要预测未来 5 分钟所有产品的销售情况。LSTM 是我项目的合适解决方案吗?有推荐的书籍吗?谢谢。
可能不是,试试这个框架。
https://machinelearning.org.cn/how-to-develop-a-skilful-time-series-forecasting-model/
那么预测性维护呢?大部分数据是来自工厂传感器的基于时间序列的数据?这些技术是否适用?
是的,您可以将其建模为时间序列分类——例如,是否存在间隔内的故障。