Kaggle竞赛运行机制

文章目录[隐藏]

1. 模型原理

先快速扫一眼:机器学习模型到底怎么运转、又能拿来干什么。

如果你做过统计建模或机器学习,可能会觉得下面都是“老生常谈”。别急,马上就会进入“真刀真枪搭强大模型”的环节。

本课程将围绕以下情景一步步搭模型。

情景

你有个表哥,靠炒房已经身家数亿。他知道你对数据科学感兴趣,于是拉你入伙:他出钱,你出“能预测房子值多少钱”的模型。

你问他以前是怎么估价的,他耸耸肩:“靠直觉。”

再追问下去,才发现他其实早就把看过的房子价格规律默默记在心里,再用这套“心里账本”去套新房。

推荐

机器学习干的事,一模一样。

从“决策树”开始

我们先玩最基础、也最好懂的模型——决策树

后面当然有精度更高的模型,但决策树是它们的“积木”;弄懂它,后面的一切都顺了。

极简决策树

为了让你一眼看懂,我们先从“不能再简化”的决策树开始。

野荷马Kaggle课堂 | Kaggle竞赛运行机制这棵树只做一件事:把所有房子分成两类。遇到任何一套新房,它的预测价就是“同类房子历史均价”。怎么用数据来分这两类?先让模型自己从样本里找规律——这一步就叫拟合(fitting)或训练(training),用的数据叫训练数据(training data)。至于“具体按什么规则切分”这些细节,后面再展开。总之模型一旦训练好,拿它往新数据上一套,就能给别的房子报价了。把决策树再升级下面两棵决策树,你觉得哪一棵更适合已经到手的房地产训练数据?野荷马Kaggle课堂 | Kaggle竞赛运行机制显然,左边的决策树(决策树 1)更合理:卧室越多卖得越贵,这符合常识。但它的“致命伤”是只看了卧室数,完全忽略了浴室、占地面积、地段等其他关键因素。想把这些因素一起考虑,就得让树“多长几层”——也就是更多分叉(splits),这种树叫更深(deeper)的树。如果把每块地的总面积也拉进来,树可能会长成下面这样:野荷马Kaggle课堂 | Kaggle竞赛运行机制只要沿着这棵“加深版”决策树,一路按房子的特征往下走,就能算出任何一套房子的预测价。树最底端那个给出最终价格的节点,就叫叶节点(leaf)。至于“每次按什么标准分叉、叶节点该标多少价”,全部由数据说了算。好了,理论到此为止——接下来该让你亲手摸摸真正的数据了

推荐
上一篇

光剑、赫贤2026春招最后一场 领科补录结束 一起来看看难度如何!

下一篇

UC录取逻辑巨变 “分数至上”已成过去 你的UC申请可能已“高危”

返回顶部