首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

过拟合 & 数据集不平衡

过拟合 & 数据集不平衡

过拟合

    什么是过拟合?
     过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集 上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。

    原因:
        模型复杂度过强(参数多并且过训练)
        数据中的噪声
        数据量有限,模型无法真正了解数据的真实分布。

    解决:
        权制衰减
        适当stopping criterion(验证集)?
        正则化?

数据集不平衡

不平衡训练集会对结果造成很大的负面影响,而训练集在平衡的情况下,能够达到最好的performance。

    训练数据分布情况对CNN结果产生很大影响;
    平衡的训练集是最优的,数据越不平衡,准确率越差;
    如何提升准确率(使用Oversampling)
返回列表