损失函数与梯度下降

「损失函数」与「梯度下降」是机器学习领域经常会遇到的两个概念，了解了这两个概念，对加深机器学习的理解很有帮助。这篇文章我觉得基本把这两个概念讲清楚了，同时不太需要太多数学和机器学习基础。

简单来说，损失函数用来评判某个数学方程式（对现实问题的抽象）的准确度，梯度下降用来找到损失函数的值最小时，方程式中的各个系数。训练的过程就是不断调优方程，然后用这个方程对新的输入做出预测。

「损失函数」如果换成「偏离函数」(偏离真实值的距离)或许更加容易理解？

比如房价与「面积」、「到地铁站的距离」这两个因素相关（现实中还会有更多的相关因素，这里进行了简化）。那么可以用表达式：z = ax + by + c 表示（也可以选取其他的方程式）。其中 z 表示房价，x 表示面积，y 表示到地铁站的距离。损失函数就是预测值与真实值的均方差之和。（损失函数有很多种，可以参考这篇文章）

梯度下降，就是从曲面（损失函数可能是多元多次方程，不只是平面上的一条曲线，无法快速找到那个最低点）中的一点往下走，一直走到最低点（损失最小的点），此时的 a，b，c 就是方程中对应的系数。比如最后的方程可能是：z = 10x + 9y + 8，然后就可以通过这个方程去做预测了。