机器学习基本方法

机器学习基本方法超参数越少 或者超参数很容易调整 那么可以减少验证集的比例 更多的分配给训练集

大家好,欢迎来到IT知识分享网。

第一节: 模型评估模型参数选择

模型评估含义:模型评估是指对构建好的模型进行性能测量的过程,以确定该模型在其预期任务上的表现如何。

选择评估标准:根据任务的不同,选择不同的评估指标。1.在分类任务中,可能会关注

准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1得分(F1 Score)等;

2.在回归任务中,则可能会关心均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)或者决定系数(R² Score)等。

数据集划分:通常会将数据集划分为训练集(用来训练模型)、验证集(可选,用来调整模型的超参数)和测试集(用来最终评估模型的泛化能力)。这样可以帮助我们了解模型在未见过的数据上的表现。

1.训练集:相当于上课学知识 •验证集相当于课后的的练习题,用来纠正和强化学到的知 识 •测试集相当于期末考试,用来最终评估学习效果。

2.验证集当我们的模型训练好之后,我们并不知道他的表现如何。这个时候就可以使用验证集 (Validation Dataset)来看看模型在新数据(验证集和测试集是不同的数据)上的表现如何。 同时通过调整超参数,让模型处于最好的状态。

主要作用:

• 评估模型效果,为了调整超参数而服务

• 调整超参数,使得模型在验证集上的效果最好 •

说明: • 验证集不像训练集和测试集,它是非必需的。如果不需要调整超参数,就可以不使用验证集, 直接用测试集来评估效果。 •验证集评估出来的效果并非模型的最终效果,主要是用来调整超参数的,模型最终效果以测 试集的评估结果为准。

3测试集:当我们调好超参数后,就要开始「最终考试」了。我们通过测试集(Test Dataset)来做最终的 评估,来看学习效果(模型效果)好不好。通过测试集的评估,我们会得到一些最终的评估指标,例如: 准确率、精确率、召回率、F1

划分数据集:• 对于小规模样本集(几万量级),常用的划分比例: • 训练集:验证集:测试集=6:2:2 • 训练集:测试集==8:2、7:3

• 对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可。 • 例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。 • 1000w 的数据,同样留 1w 验证集和 1w 测试集。 • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。

过拟合:将训练样本自身的一些特点当作所 有样本潜在的泛化特点。

表现:在训练集上表现很好,在测试集上表 现不好。

过拟合的原因:训练数据太少(比如只有几百组 模型的复杂度太高(比如隐藏层层数设置的过多,神 经元的数量设置的过大)数据不纯。

第二节:监督学习

监督学习分为监督学习非监督学习

监督学习和非监督学习两者的区别是机器学习中的两大主要范式,它们的主要区别在于数据的标签状态以及学习的目标不同监督学习依赖于已知的结果来指导模型的学习过程,而非监督学习试图从无标签的数据中自动发现模式。两种学习方式各有优势,适用于不同类型的问题。在实际应用中,有时也会结合监督和非监督的方法,如半监督学习(Semi-Supervised Learning),来利用少量的标记数据和大量的未标记数据共同优化模型。

如何采取监督学习和非监督学习:

如果数据集中样本点只包含了模型 的输入𝒙,那么就需要采用非监督 学习的算法。

如果这些样本点以〈𝒙,𝒚〉这样的输入-输 出二元组的形式出现(有数据标签), 那么就可以采用监督学习的算法。

在监督学习中,我们根据训练集 𝒙 𝑖 , 𝒚 𝑖 𝑖=1 𝑁 中的观测 样本点来优化模型𝑓 ⋅ ,使得给定测试样例𝒙′作为模型输 入,其输出𝒚 ෝ尽可能接近正确输出𝒚′ 。 𝒚 ෝ = 𝑓 x

监督学习输出数据有连续型的和分散型的,从而分为回归分类两大类

回归问题的输出是连续值

分类问题的输出是离散值

监督学习——回归:回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合

回归问题中通常使用均方损失函数来作为度 量模型效果的指标,最简单的求解例子是最 小二乘法

均方损失函数:最常用的回归问题的损失函数。其定义为预测值与真实值之间的平方差的平均值。 • 该损失函数的值越小,表示模型的预测结果越接近真实值。

机器学习基本方法

简单线性回归 • 自变量 x 和因变量 y之间存在一条线性关系:机器学习基本方法

多元线性回归 • 假设自变量 和因变量 y之间存在一条线性关系,即机器学习基本方法

监督学习———分类:想要预测(检测)的目标是猫,那么在数据集中猫为正样本 ( Positive ) , 其 他 狗 、 兔 子 、 狮 子 这 些 数 据 为 负 样 本 (Negative )。 • 将这只猫预测(分类)为狗、兔子、其他预测结果为错(False); 将这只猫预测为猫,预测结果为对(True)。

机器学习基本方法

分类评估指标:机器学习基本方法

准确率(Accuracy):对于测试集中D个样本,有k个被正 确分类,D-k个被错误分类,则准确率为:机器学习基本方法

精确率(查准率)- Precision:所有被预测为正样本中实际为 正样本的概率

机器学习基本方法

精准率代表对正样本结果中的预测准确程度。 准确率则代表整体的预测准确程度,既包括正样本,也包括负样本

召回率(查全率)- Recall:实际为正样本中被预测为正样 本的概率

机器学习基本方法

召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一 个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违 约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。 召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错 杀一千,绝不放过一个。

召回率越高,也代表网络可以改进的空间越大。

平衡点(BEP)P=R

PR曲线 AP(Average Precision):PR曲线下的面积。 通常来说一个越好的分类器,AP值越高

mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求 平均,得到的就是mAP的值,mAP的大小一定在[0,1]区间,越大越 好。该指标是目标检测算法中最重要的一个

F-度量则是在召回率与精确率之间去调和平均数;有时候在实际问题上,若我们更加看 重其中某一个度量,还可以给它加上一个权值α,称为F_α-度量:机器学习基本方法

特殊时当𝛼 = 1时:机器学习基本方法

F1分数(F1-score)是分类问题的一个衡量指标.。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/158972.html

(0)
上一篇 2024-11-27 15:26
下一篇 2024-11-27 15:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信