Phil Brierley 赢得了 Heritage Health Prize Kaggle 机器学习竞赛。Phil 是一名机械工程师,拥有数据挖掘的背景,他的公司是 Tiberius Data Mining。他目前非常热衷于 R 语言,并在 Another Data Mining Blog 上撰写博客。
2013 年 10 月,他在墨尔本 R 用户特别兴趣小组 (Melbourne Users of R special interest group) 上发表演讲。他的演讲题目是“提高预测模型准确性的技巧”,您可以在下方观看。
如果您想深入了解一位非常务实且高效的机器学习从业者如何处理问题,这是一个很棒的演示。我想强调一下我从这次演示中获得的三个要点。
务实
Phil 在演示中开场就说道“事实胜于雄辩”——只有在尝试之后,您才能证明某件事是成功的。Phil 对伟大的理论不感兴趣,他希望通过查看模型的结果来证明模型是有效的。
他提到,大多数问题涉及与人类相关的数据,而不是自然规律,这使得问题变得复杂。他还提到,他无意发明新的算法,而是专注于充分利用现有算法。R 拥有大量算法,这就是他使用 R 的原因。
集成方法
Phil 是集成方法的坚定支持者。他在 Heratage Health Prize 中使用了它们,通过一个简单的足球预测示例展示了它们的力量,甚至还使用众包来猜测房间里人们的体重作为一个例子。
Phil 说道:不要构建一个伟大的模型,让 10 个人各自构建一个模型,然后取平均值。
Phil 评论说,糟糕的模型不应该被完全丢弃,而您应该寻找模型结果的多样性,并将它们重新组合成改进的解决方案。通过寻找预测之间缺乏相关性(应该最大化)来评估预测的多样性。
可视化
Phil 评论说,可视化是一个重要但未被充分利用的工具。他强调了通过“目视检查”属性分布来感受它们的合理性并突出数据问题的实用性。他提到,目视检查可以帮助您发现统计摘要无法发现的数据中的异常之处。
这是一个很棒的讲座,我强烈推荐观看。另外,请留意他在 Heratage Health Prize 中关于跨年度数据校准的富有见地的评论。
你好,
我已经下载了您的 ANN 的 f90 代码。由于我是这个领域的新手,我有一些问题:
1. “训练轮数”是什么意思?
2. “学习率”是什么意思?
3. 当我只有预测变量时,我如何使用训练好的网络进行预测?
谢谢并致以问候
阿里
一个轮次(epoch)是对训练数据集进行一次完整遍历。
学习率是每次更新模型权重时要进行的更改量。
将输入传递进去以计算新数据上的输出。
这篇博文可能会让一切都更清楚。
https://machinelearning.org.cn/implement-backpropagation-algorithm-scratch-python/
很关键的要点。我还可以补充一点,生成良好的特征是战斗的 3/4。
确实可以。