Data Origami 是 Cameron Davidson-Pilon 创建的一个新网站,提供数据科学屏幕录制。这是一个很棒的想法,也很棒的网站。
Cameron 好心地给了我网站的访问权限,以便我进行评测。我观看了所有能看的视频,并记下了所有笔记,在这篇文章中,你将能一窥 Cameron 的新网站 Data Origami。
Data Origami
Data Origami 的理念很简单。它提供数据科学家感兴趣的话题的屏幕录制。
每个屏幕录制视频的时长为 9-13 分钟,内容涉及狭窄且具体的主题。所有屏幕录制视频都使用 Python,并以 IPython notebook 的形式呈现,包括文本、数学公式、代码和图表。这些 notebook 可供下载,视频本身也可以下载到桌面和移动设备上,并附有进一步的资源和相关数据集的链接。
在撰写本文时,它是一项付费服务,每月 9 美元即可访问所有屏幕录制视频,但有一个屏幕录制视频是免费提供的。
这些视频假设你懂得编程(Python)并且懂得统计学。
该网站干净整洁,有 Heroku 的感觉(也许是紫色和线条图)。视频画面大且质量好,屏幕没有杂乱的干扰。
Cameron 是谁?
如果你在某个领域寻找权威的标志,Cameron 拥有它们。
Cam 在 Shopify 从事数据分析工作。他为一家大公司处理数据,朝九晚五。
Cameron 是自费出版的技术书籍《Bayesian Methods for Hackers》的作者,该书介绍了使用 Python 进行贝叶斯分析的入门知识。它全部都可以在 GitHub 上找到(以及nbviewer IPython 查看器),并且在技术新闻网站(如Hacker News 和 Reddit(多次,社交证明++))上被广泛传播。
最后,Cameron 是 lifelines 的作者,这是一个支持生存分析的 Python 包。
贝叶斯方法和生存分析这两个主题都在他 Data Origami 的屏幕录制视频中有所体现。
Data Science Screencasts
https://www.youtube.com/watch?v=Qw1XrXd4Gwc
我一口气看完了所有 7 个屏幕录制视频并做了笔记。我想尊重 Cam 和他的资源,所以这里只是目前可用视频的摘要
- 贝叶斯 Beta-二项模型:比其他内容数学性更强,侧重于介绍 Beta 分布并使用它来模拟后验分布。
- PCA 入门:什么是主成分分析,它试图实现什么目标以及结果的含义。
- 可视化 PCA 的信息损失:巧妙地展示这种可逆投影方法。
- 使用 PCA 对颜色进行排序(免费的):巧妙地展示 PCA 的有用应用。
- A/B 测试转化率:在 A/B 测试结果的背景下量化沟通不确定性的方法。必看!
- 为什么我对生存分析感兴趣? 为生存分析设定场景。
- 估计生存函数:使用 Kaplan Meier 估计器为巧妙的示例问题建模生存函数。
我在这里用了几次“巧妙”。他的例子都经过深思熟虑,非常酷。
更新:在我写这篇评测之后,出现了一个新的屏幕录制视频。
回顾
Cameron 深谙此道。我个人觉得 PCA 视频没有那么有趣,或许是因为我熟悉这些内容,或许是因为交付方式不够完善。深入研究贝叶斯不确定性和生存分析则非常棒。
Cameron 是贝叶斯领域的大师。他可以轻易地将他的书分成 10 分钟的片段,我都会全盘吸收(暗示一下)。
视频似乎托管在 Amazon S3 上,但我在观看时遇到了一些延迟。很有可能是我观看视频的时间段造成的,但当时确实很烦人。问题不大,我本可以下载它们观看,而且我相信 Cam 会随着网站的发展解决这个问题。
他在格式方面仍在摸索。最近的视频比早期的视频更加完善,预示着美好的未来。我个人非常希望在开头增加“我们将要做什么”,在结尾增加“我们做了什么”。我必须摄入大量咖啡因才能在第一次观看时吸收其中一个视频,即使快速做笔记也是如此。如果屏幕录制视频能提醒我我们涵盖了哪些内容,那就太好了。
我可能是一个超级用户。我所有 YouTube 视频都以 2 倍速观看并做大量笔记。如果内置播放器有 2 倍速功能,并且账户支持笔记记录或评论,那就太好了。问题不大,只是可能增加用户满意度的超级用户功能。
一旦他添加了更多内容,我可以想象会出现“我已观看”的复选框,甚至会将视频打包成内容流。
目前似乎没有内容路线图,基本上就是 Cam 随心所欲。这很好,因为他对自己分享的内容充满热情,但初期不太好,因为我们必须适应他的兴趣。没有引导。
Cam 注意到他每月发布 2 个视频,所以图书馆的增长是有限的。这可能会抑制倦怠(就像 Ryan Bates 从 railscasts),但一年只有 24 个。我一晚上就看完了所有 7 个视频。我预计一些人的需求可能无法得到满足。
最后,内容非常专业。有些屏幕录制视频被标记为适合初学者。但它们并非如此。在深入学习之前,你需要了解数据和一些算法。如果你还在犹豫使用什么工具或库来对 iris 数据集运行你的第一个分类器,那么这个资源不适合你。
总结
这是一个很棒的资源,具备成为必备资源的潜质,假以时日。
- 它由一位真正的专家、一位贝叶斯大师创作。
- 价格太便宜了(提高你的价格,考虑提供年度/终身通行证,价格为几百/几千美元)。
- 它实际上是为中级(或更高)实践者准备的,比如 Cameron 的同行或接近的水平。
- 只有十几个视频,但每月都会添加新内容。
- 它没有“一步一步引导我”的路线图,但他会提供即将发布的视频的预览。
如果数据是你的日常工作,请查看 Data Origami,尽早加入以支持 Cameron 和他打造世界级数据科学屏幕录制的愿景。
我同意 Data Origami 的屏幕录制视频非常出色。这个示例说服了我,我现在是付费订阅用户,尽管大部分材料我都很熟悉。我不同意定价过低。 IMHO,与 Murphy 的“Machine Learning”相比,每 10 分钟的视频 4.50 美元并不便宜。