Kaggle竞赛运行机制

文章目录[隐藏]

情景
从“决策树”开始

1. 模型原理

先快速扫一眼：机器学习模型到底怎么运转、又能拿来干什么。

如果你做过统计建模或机器学习，可能会觉得下面都是“老生常谈”。别急，马上就会进入“真刀真枪搭强大模型”的环节。

本课程将围绕以下情景一步步搭模型。

情景

你有个表哥，靠炒房已经身家数亿。他知道你对数据科学感兴趣，于是拉你入伙：他出钱，你出“能预测房子值多少钱”的模型。

你问他以前是怎么估价的，他耸耸肩：“靠直觉。”

再追问下去，才发现他其实早就把看过的房子价格规律默默记在心里，再用这套“心里账本”去套新房。

机器学习干的事，一模一样。

从“决策树”开始

我们先玩最基础、也最好懂的模型——决策树。

后面当然有精度更高的模型，但决策树是它们的“积木”；弄懂它，后面的一切都顺了。

极简决策树

为了让你一眼看懂，我们先从“不能再简化”的决策树开始。

野荷马Kaggle课堂 | Kaggle竞赛运行机制这棵树只做一件事：把所有房子分成两类。遇到任何一套新房，它的预测价就是“同类房子历史均价”。怎么用数据来分这两类？先让模型自己从样本里找规律——这一步就叫拟合（fitting）或训练（training），用的数据叫训练数据（training data）。至于“具体按什么规则切分”这些细节，后面再展开。总之模型一旦训练好，拿它往新数据上一套，就能给别的房子报价了。把决策树再升级下面两棵决策树，你觉得哪一棵更适合已经到手的房地产训练数据？野荷马Kaggle课堂 | Kaggle竞赛运行机制显然，左边的决策树（决策树 1）更合理：卧室越多卖得越贵，这符合常识。但它的“致命伤”是只看了卧室数，完全忽略了浴室、占地面积、地段等其他关键因素。想把这些因素一起考虑，就得让树“多长几层”——也就是更多分叉（splits），这种树叫更深（deeper）的树。如果把每块地的总面积也拉进来，树可能会长成下面这样：野荷马Kaggle课堂 | Kaggle竞赛运行机制只要沿着这棵“加深版”决策树，一路按房子的特征往下走，就能算出任何一套房子的预测价。树最底端那个给出最终价格的节点，就叫叶节点（leaf）。至于“每次按什么标准分叉、叶节点该标多少价”，全部由数据说了算。好了，理论到此为止——接下来该让你亲手摸摸真正的数据了