1. 模型原理
先快速扫一眼:机器学习模型到底怎么运转、又能拿来干什么。
如果你做过统计建模或机器学习,可能会觉得下面都是“老生常谈”。别急,马上就会进入“真刀真枪搭强大模型”的环节。
本课程将围绕以下情景一步步搭模型。
情景
你有个表哥,靠炒房已经身家数亿。他知道你对数据科学感兴趣,于是拉你入伙:他出钱,你出“能预测房子值多少钱”的模型。
你问他以前是怎么估价的,他耸耸肩:“靠直觉。”
再追问下去,才发现他其实早就把看过的房子价格规律默默记在心里,再用这套“心里账本”去套新房。
机器学习干的事,一模一样。
从“决策树”开始
我们先玩最基础、也最好懂的模型——决策树。
后面当然有精度更高的模型,但决策树是它们的“积木”;弄懂它,后面的一切都顺了。
极简决策树
为了让你一眼看懂,我们先从“不能再简化”的决策树开始。
这棵树只做一件事:把所有房子分成两类。遇到任何一套新房,它的预测价就是“同类房子历史均价”。怎么用数据来分这两类?先让模型自己从样本里找规律——这一步就叫拟合(fitting)或训练(training),用的数据叫训练数据(training data)。至于“具体按什么规则切分”这些细节,后面再展开。总之模型一旦训练好,拿它往新数据上一套,就能给别的房子报价了。把决策树再升级下面两棵决策树,你觉得哪一棵更适合已经到手的房地产训练数据?
显然,左边的决策树(决策树 1)更合理:卧室越多卖得越贵,这符合常识。但它的“致命伤”是只看了卧室数,完全忽略了浴室、占地面积、地段等其他关键因素。想把这些因素一起考虑,就得让树“多长几层”——也就是更多分叉(splits),这种树叫更深(deeper)的树。如果把每块地的总面积也拉进来,树可能会长成下面这样:
只要沿着这棵“加深版”决策树,一路按房子的特征往下走,就能算出任何一套房子的预测价。树最底端那个给出最终价格的节点,就叫叶节点(leaf)。至于“每次按什么标准分叉、叶节点该标多少价”,全部由数据说了算。好了,理论到此为止——接下来该让你亲手摸摸真正的数据了

