机器学习需要多少训练数据？-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

机器学习需要多少训练数据？

阅读量：4087 次

发布时间：2019-05-25

本文共 756 字，大约阅读时间需要 2 分钟。

机器学习需要多少训练数据？

取决于：

所需解决问题的难易程度

所采用的模型的复杂程度（模型参数数量）

想要达到什么样的性能

① 最快的方法

查找相关领域的论文资料，别人一般用多少的数据量

② 经验范围

回归分析：要训练出一个性能良好的模型，所需训练样本数量应是模型参数数量的10倍。

缺点：

稀疏特征：例如稀疏特征的编码是01001001对于模型的训练能够起到作用的特征是少数的，而不起作用的特征占大多数。依照上述线性规则，若模型对于每个特征分配相应的参数，也就是说对于无用的特征也分配了相应的参数，再根据10倍规则法，获取是模型参数数量10倍的训练样本集，此时的训练样本数量对于最佳的训练模型来说可能是超量的，所以，此时用10倍规则法得到的训练样本集未必能够真实地得出好的训练模型。

由于正则化和特征选择技术，训练模型中真实输入的特征的数量少于原始特征数量。

计算机视觉：对于使用深度学习的图像分类，经验法则是每一个分类需要 1000 幅图像，如果使用预训练的模型则可以用更少数据去训练。

③ 在分类任务中确定训练数据量的方法

学习曲线是误差与训练数据量的关系图。我们可以建立一个学习曲线的函数，然后采用非线性回归或者加权非线性回归对学习曲线进行拟合，然后找到期望准确率下的样本数量。

④ 样本容量估计（给定统计检验的检验效能，确定样本数量）

N是所需样本数量，α 一定置信度所对应的的标准正态分布的个数，σ 是样本的标准差， e是可接受的误差范围。

⑤ 训练数据规模的统计学习理论

VC 维是模型复杂度的度量，模型越复杂，VC 维越大。

N为所需样本数量， d为失效概率， ε为学习误差。

⑥ 一般准则

传统的机器学习算法：性能是按照幂律增长的，一段时间后趋于平稳。

深度学习：性能随着数据的增加呈现对数增长

转载地址：http://mzuii.baihongyu.com/

你可能感兴趣的文章

poj 1976 A Mini Locomotive （dp 二维01背包)

《计算机网络》第五章运输层 ——TCP和UDP 可靠传输原理 TCP流量控制拥塞控制连接管理

《PostgreSQL技术内幕：查询优化深度探索》养成记

剑指_复杂链表的复制

FTP 常见问题

Python学习笔记之数据类型

shell 快捷键

VIM滚屏操作

将file文件内容转成字符串

MODULE_DEVICE_TABLE的理解

.net强制退出主窗口的方法——Application.Exit()方法和Environment.Exit(0)方法

c# 如何调用win8自带的屏幕键盘（非osk.exe)

build/envsetup.sh 简介

编译Android4.0源码时常见错误及解决办法

Android 源码编译make的错误处理

启用SELinux时遇到的问题

virbr0 虚拟网卡卸载方法

No devices detected. Fatal server error: no screens found

新版本的linux如何生成xorg.conf

Linux基础教程：CentOS卸载KDE桌面

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-20 14:52:19 当前IP: 18.218.185.16 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我