本文共 756 字,大约阅读时间需要 2 分钟。
机器学习需要多少训练数据?
取决于:
① 最快的方法
查找相关领域的论文资料,别人一般用多少的数据量
② 经验范围
回归分析:要训练出一个性能良好的模型,所需训练样本数量应是模型参数数量的10倍。
缺点:
计算机视觉:对于使用深度学习的图像分类,经验法则是每一个分类需要 1000 幅图像,如果使用预训练的模型则可以用更少数据去训练。
③ 在分类任务中确定训练数据量的方法
学习曲线是误差与训练数据量的关系图。我们可以建立一个学习曲线的函数,然后采用非线性回归或者加权非线性回归对学习曲线进行拟合,然后找到期望准确率下的样本数量。
④ 样本容量估计(给定统计检验的检验效能,确定样本数量)
N是所需样本数量,α 一定置信度所对应的的标准正态分布的个数,σ 是样本的标准差, e是可接受的误差范围。
⑤ 训练数据规模的统计学习理论
VC 维是模型复杂度的度量,模型越复杂,VC 维越大。
N为所需样本数量, d为失效概率, ε为学习误差。
⑥ 一般准则
传统的机器学习算法:性能是按照幂律增长的,一段时间后趋于平稳。
深度学习:性能随着数据的增加呈现对数增长
转载地址:http://mzuii.baihongyu.com/