大家好,欢迎来到IT知识分享网。
第一节: 模型评估与模型参数选择
模型评估含义:模型评估是指对构建好的模型进行性能测量的过程,以确定该模型在其预期任务上的表现如何。
选择评估标准:根据任务的不同,选择不同的评估指标。1.在分类任务中,可能会关注
准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1得分(F1 Score)等;
2.在回归任务中,则可能会关心均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)或者决定系数(R² Score)等。
数据集划分:通常会将数据集划分为训练集(用来训练模型)、验证集(可选,用来调整模型的超参数)和测试集(用来最终评估模型的泛化能力)。这样可以帮助我们了解模型在未见过的数据上的表现。
1.训练集:相当于上课学知识 •验证集相当于课后的的练习题,用来纠正和强化学到的知 识 •测试集相当于期末考试,用来最终评估学习效果。
2.验证集:当我们的模型训练好之后,我们并不知道他的表现如何。这个时候就可以使用验证集 (Validation Dataset)来看看模型在新数据(验证集和测试集是不同的数据)上的表现如何。 同时通过调整超参数,让模型处于最好的状态。
主要作用:
• 评估模型效果,为了调整超参数而服务
• 调整超参数,使得模型在验证集上的效果最好 •
说明: • 验证集不像训练集和测试集,它是非必需的。如果不需要调整超参数,就可以不使用验证集, 直接用测试集来评估效果。 •验证集评估出来的效果并非模型的最终效果,主要是用来调整超参数的,模型最终效果以测 试集的评估结果为准。
3测试集:当我们调好超参数后,就要开始「最终考试」了。我们通过测试集(Test Dataset)来做最终的 评估,来看学习效果(模型效果)好不好。通过测试集的评估,我们会得到一些最终的评估指标,例如: 准确率、精确率、召回率、F1等
划分数据集:• 对于小规模样本集(几万量级),常用的划分比例: • 训练集:验证集:测试集=6:2:2 • 训练集:测试集==8:2、7:3
• 对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可。 • 例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。 • 1000w 的数据,同样留 1w 验证集和 1w 测试集。 • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。
过拟合:将训练样本自身的一些特点当作所 有样本潜在的泛化特点。
表现:在训练集上表现很好,在测试集上表 现不好。
过拟合的原因:训练数据太少(比如只有几百组 模型的复杂度太高(比如隐藏层层数设置的过多,神 经元的数量设置的过大)数据不纯。
第二节:监督学习
监督学习分为监督学习和非监督学习
监督学习和非监督学习两者的区别:是机器学习中的两大主要范式,它们的主要区别在于数据的标签状态以及学习的目标不同。监督学习依赖于已知的结果来指导模型的学习过程,而非监督学习则试图从无标签的数据中自动发现模式。两种学习方式各有优势,适用于不同类型的问题。在实际应用中,有时也会结合监督和非监督的方法,如半监督学习(Semi-Supervised Learning),来利用少量的标记数据和大量的未标记数据共同优化模型。
如何采取监督学习和非监督学习:
如果数据集中样本点只包含了模型 的输入𝒙,那么就需要采用非监督 学习的算法。
如果这些样本点以〈𝒙,𝒚〉这样的输入-输 出二元组的形式出现(有数据标签), 那么就可以采用监督学习的算法。
在监督学习中,我们根据训练集 𝒙 𝑖 , 𝒚 𝑖 𝑖=1 𝑁 中的观测 样本点来优化模型𝑓 ⋅ ,使得给定测试样例𝒙′作为模型输 入,其输出𝒚 ෝ尽可能接近正确输出𝒚′ 。 𝒚 ෝ = 𝑓 x
监督学习输出数据有连续型的和分散型的,从而分为回归与分类两大类
回归问题的输出是连续值
分类问题的输出是离散值
监督学习——回归:回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合。
回归问题中通常使用均方损失函数来作为度 量模型效果的指标,最简单的求解例子是最 小二乘法
均方损失函数:最常用的回归问题的损失函数。其定义为预测值与真实值之间的平方差的平均值。 • 该损失函数的值越小,表示模型的预测结果越接近真实值。
• 简单线性回归 • 自变量 x 和因变量 y之间存在一条线性关系:
• 多元线性回归 • 假设自变量 和因变量 y之间存在一条线性关系,即
监督学习———分类:想要预测(检测)的目标是猫,那么在数据集中猫为正样本 ( Positive ) , 其 他 狗 、 兔 子 、 狮 子 这 些 数 据 为 负 样 本 (Negative )。 • 将这只猫预测(分类)为狗、兔子、其他预测结果为错(False); 将这只猫预测为猫,预测结果为对(True)。
分类评估指标:
准确率(Accuracy):对于测试集中D个样本,有k个被正 确分类,D-k个被错误分类,则准确率为:
精确率(查准率)- Precision:所有被预测为正样本中实际为 正样本的概率
精准率代表对正样本结果中的预测准确程度。 准确率则代表整体的预测准确程度,既包括正样本,也包括负样本
召回率(查全率)- Recall:实际为正样本中被预测为正样 本的概率
召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一 个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违 约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。 召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错 杀一千,绝不放过一个。
召回率越高,也代表网络可以改进的空间越大。
平衡点(BEP)P=R
PR曲线 AP(Average Precision):PR曲线下的面积。 通常来说一个越好的分类器,AP值越高
mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求 平均,得到的就是mAP的值,mAP的大小一定在[0,1]区间,越大越 好。该指标是目标检测算法中最重要的一个
F-度量则是在召回率与精确率之间去调和平均数;有时候在实际问题上,若我们更加看 重其中某一个度量,还可以给它加上一个权值α,称为F_α-度量:
特殊时当𝛼 = 1时:
F1分数(F1-score)是分类问题的一个衡量指标.。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/158972.html