机器学习几个算法常识

错误率 error rate：分类错误的样本/总样本数
准确率 accuracy：1-错误率
训练误差 train error：模型在训练集上的误差
测试误差 test error：测试集上的误差
泛化误差 generalization error：在假设测试数据与真实数据独立同分布的前提下，测试误差可作为泛化误差的近似，泛化误差的期望会大于等于训练误差的期望

机器学习研究的目标不是找一个通用学习算法或是绝对最好的学习算法。反之，我们的目标是理解什么样的分布与机器学习获取经验的“真实世界”相关，什么样的学习算法在我们关注的数据生成分布上效果最好

偏差度量了学习算法的期望预测与真实结果偏离程度，即刻画了学习算法本身的拟合能力

方差度量了同样大小的训练集的变动所导致的学习性能的变化，及刻画了数据扰动所造成的影响，或者说算法的稳定性

偏差和方差是有冲突的，当模型复杂度较低时，模型的偏差较高，方差较低；当模型复杂度较高时，模型的偏差较低，方差较高

假设：

最优误差，现有技术下人和机器能做到的最好的情况下，出现的误差

偏差=贝叶斯误差+可避免偏差

假设：训练了一个分类器模型，在训练集上的错误率有15%，在测试集上的错误率有30%，如果说贝叶斯误差为14%，那么可避免误差有（30%-15%）-14%=1%，方差有30%-15%=15%，这时候应该考虑如何降低方差，而不是降低偏差

降低模型的偏差

降低模型的方差