如何规划和管理你的机器学习项目

作者： Jason Brownlee 于 2016年6月7日发布在机器学习流程 10

对于机器学习项目而言，项目布局至关重要，就像对于软件开发项目一样。我认为这就像语言。项目布局可以组织思路，并为您提供想法的背景，就像知道事物的名称一样，为您提供思考的基础。

在这篇文章中，我想重点介绍布局和管理您的机器学习项目的一些考虑因素。这与项目和科学可重现性的目标非常相关。没有“最佳”方法，您需要选择并采用最符合您的偏好和项目要求的实践。

工作流程的驱动问题

Jeromy Anglim 于 2010 年在墨尔本 R 用户组上就 R 的项目布局发表了演讲。视频有点晃动，但对这个主题进行了很好的讨论。

我非常喜欢 Jeromy 演讲中的驱动问题

David Smith 在题为《R 的工作流程》的文章中总结了他认为的良好项目工作流的目标。我认为这些都非常出色，在设计您自己的项目布局时应该牢记在心。

John Myles White 有一个名为ProjectTemplate的 R 项目，旨在为统计分析项目自动创建一个定义良好的布局。它提供了用于自动加载和清理数据的约定和实用程序。

ProjectTemplate 的标志，一个用于布局您的 R 统计分析项目的项目。
该项目的布局比我想要的要大，但它为组织项目提供了一种高度结构化的方式。

您可以在ProjectTemplate 主页、John 网站上的博客文章、用于开发的GitHub 页面以及用于分发的CRAN 页面上了解更多信息。

Software Carpentry 提供了一个简短的演示文稿，题为“数据管理”。数据管理的方法受到了 William Stafford Noble 题为《计算生物学项目组织快速指南》的文章的启发。

该演示文稿描述了在磁盘或版本控制中维护多个数据版本的问题。它指出了数据归档的主要要求，并提出了一种使用带日期目录名和数据文件元数据文件（这些文件本身在版本控制中进行管理）的方法。这是一种有趣的方法。

在问答网站上有很多关于数据分析项目项目布局和代码组织最佳实践的讨论。例如，一些流行的例子包括

一个很好的例子是关于“如何高效管理统计分析项目？”的问题，该问题已成为一个社区维基，其中描述了最佳实践。总而言之，这些实践分为以下几部分