大家好,欢迎来到IT知识分享网。
什么是回归分析?
在回归分析中,我们使用机器学习方法来预测一个或多个基于一组预测变量(x)的连续结果变量(y)。
综上所述,回归模型的目的是创建一个数学方程,用x来解释y。然后,利用这个方程,我们可以根据预测变量(x)的新值来预测结果(y)。
什么是线性回归?
没有比线性回归更好的预测连续变量的方法了。预测变量和结果被假定为具有线性关系。
线性回归方程可以写成y = b0 + b*x + e,其中。
- b0是截点。
- b是与预测变量x相关的回归权重或系数。
- e是残余误差
线性回归系数的计算方式是使预测结果的误差最小。普通最小二乘法是计算β系数的一种方法。
当你有多个预测变量,例如x1和x2时,回归方程可以写成y = b0 + b1*x1 + b2*x2 + e。偶尔,一些预测变量可能会相互影响,这意味着,例如,一个预测变量的数值增加可能会增加另一个预测变量对解释结果变量差异的影响。
还值得注意的是,线性回归模型可以使用连续和分类的预测变量。然而,我们的回归模型不一定要局限于数字解释变量。我们将利用一种叫做分类变量一次编码的技术来扩展我们的模型,以纳入分类解释变量。
分类变量(也被称为成分变量或定性变量)将观察结果分为几组。它们只有有限的几个不同的值,它们被称为水平。例如,个人性别是一个有两个层次的分类变量。男性和女性。
回归分析需要数字变量。因此,如果研究人员想在回归模型中加入分类变量,他们就需要采取额外的措施来使结果可以理解。
在这些步骤中,分类变量被重新编码为一组独立的二进制变量。这个过程被称为 “虚拟编码”,它的结果是形成一个被称为对比矩阵的表格。统计软件,如R,可以自动完成这一工作。
带分类值的线性回归
在回归分析中,分类变量需要特别注意,因为与二分或连续变量不同,它们不能简单地插入到回归方程中。相反,它们必须在进入回归模型之前被重新编码为一组变量。在对分类变量进行重新编码时,有多种编码系统可以使用。
选择正确的回归分析类型
一组自变量和一个因变量之间的联系是由回归分析正式描述的。回归模型有各种各样的形状和大小。这一决定经常受到你所拥有的因变量的数据类型和最适合数据的那种模型的影响。在这篇文章中,我将介绍回归分析的多种类型,以及如何为你的数据选择最好的一种。
我将为你提供一个概述,以及帮助你做出决定的信息。我根据因变量的类型对不同种类的回归进行分类。如果你不确定应用哪种程序,那就弄清楚你有哪种因变量,然后阅读本帖中关于该种因变量的部分。这个
连续因变量的回归分析
带有连续因变量的回归分析可能是人们想到的第一种类型。虽然这是主要情况,但你仍然需要决定使用哪一种。
连续变量是指在连续尺度上的测量,如体重、时间和长度。如果你有一个连续因变量,线性回归可能是你应该考虑的第一个类型。线性回归,也被称为普通最小二乘法(OLS)和线性最小二乘法,是回归世界的真正主力。
线性回归的高级类型
线性模型是最古老的回归类型。它的设计是为了让统计学家可以用手来进行计算。然而,线性回归有几个弱点,包括对异常值和多重共线性都很敏感,而且容易出现过拟合。为了解决这些问题,统计学家已经开发了几个高级变体。
当回归模型中的独立变量相互关联时,就会出现多重共线性。这种相关性是一个问题,因为独立变量应该是独立的。如果变量之间的相关程度足够高,在你拟合模型和解释结果时就会造成问题。
- 山脊回归使你即使在存在严重的多重共线性的情况下也能分析数据,并有助于防止过度拟合。这种类型的模型通过在估计值中引入轻微的偏差来减少多重共线性造成的巨大的、有问题的方差。该程序用大量的方差来换取一点偏差,在存在多重共线性的情况下产生更有用的系数估计。
- Lasso回归(最小绝对收缩和选择运算符)执行变量选择,旨在通过识别一个更简单的模型来提高预测的准确性。它类似于Ridge回归,但有变量选择。
- 部分最小二乘法(PLS)回归在你的观察值与自变量数量相比非常少或者自变量高度相关的情况下非常有用。PLS将自变量减少到较小数量的不相关成分,类似于主成分分析。然后,该程序对这些成分而不是原始数据进行线性回归。PLS强调开发预测模型,不用于筛选变量。与OLS不同,你可以包括多个连续因变量。PLS使用相关结构来识别较小的影响,并对因变量的多变量模式进行建模。
带有分类因变量的回归分析
到目前为止,我们只看了有一个连续因变量的模型。之后,我们将看一下分类自变量。基于一个特征,分类变量的值可以分为可数的不同类别。因变量在逻辑回归中被转换,参数的估计使用最大似然估计法而不是最小二乘法。
逻辑回归描述了一组自变量和一个分类因变量之间的关系。根据你的分类因变量的类型来选择逻辑模型的类型。
二元逻辑回归
通过使用二元逻辑回归,了解自变量的变化如何与事件发生的概率变化相联系。这种模式需要使用二元因变量。二元变量,如通过或失败,只有两个潜在值。
例子。政治学家根据股票市场的表现来评估美国现任总统赢得连任的几率。
顺序逻辑回归
顺序逻辑回归对一组预测因素和一个顺序响应变量之间的关系进行建模。一个序数反应至少有三组,它们有一个自然顺序,如热、中、冷。
例子。市场分析师想确定哪些变量会影响在电影院购买大、中、小爆米花的决定。
名义逻辑回归
名义逻辑回归,也被称为多指标逻辑回归,对一组自变量和一个名义因变量之间的关系进行建模。一个名义变量至少有三组,它们没有自然的顺序,如刮伤、凹陷和撕裂。
例子。一个质量分析员研究影响产品缺陷类型几率的变量:划痕、凹痕和撕裂。
计数自变量的回归分析
如果你的因变量是项目、事件、结果或活动的计数,你可能需要使用不同类型的回归模型。计数是非负的整数(0、1、2等)。平均值较高的计数数据往往是正态分布的,你通常可以使用OLS。然而,均值较小的计数数据可能是偏斜的,线性回归可能很难拟合这些数据。对于这些情况,有几种类型的模型你可以使用。
泊松回归
因为计数数据通常遵循泊松分布,泊松回归是一个可行的选择。在一个恒定的时间、区域或其他一致的观察长度内对任何事物的计数被称为泊松变量。你可以用泊松变量来计算和评估一个发生率。俄罗斯经济学家Ladislaus Bortkiewicz调查了1875年至1894年普鲁士军队中每年因马踢造成的死亡,并给出了一个著名的泊松数据集的例子。
为了描述自变量的变化与计数的变化的关系,使用泊松回归。泊松模型与逻辑模型类似,它们使用最大似然估计法,并使用自然对数来修改依赖变量。对于比率数据,泊松模型可能是合适的。
例子。一个分析员使用泊松回归来模拟一个呼叫中心每天收到的电话数量。
统计指标来比较不同模型的性能
你可以在你的数据上应用所有这些不同的回归模型,比较这些模型,最后选择能很好解释你的数据的最佳方法。要做到这一点,你需要一些统计指标来比较不同模型在解释你的数据和预测新的测试数据结果方面的表现。
最佳模型被定义为预测误差最小的模型。用于比较回归模型的最流行的指标,包括。
在回归模型中,最常见的评价指标包括。
- R平方(R2),即预测变量所能解释的结果变化的比例。在多元回归模型中,R2对应于观察到的结果值和模型预测值之间的平方关系。R-squared越高,模型就越好。
R平方=解释的变异/总变异
R-squared总是在0和100%之间。
- 0%表示该模型没有解释响应数据在其平均值周围的任何变化。
- 100%表示该模型解释了响应数据在其平均值周围的所有变异性。
R-squared的主要限制
- R平方不能确定系数估计和预测是否有偏差,这就是为什么你必须评估残差图。
- R平方不能说明一个回归模型是否足够。你可以为一个好的模型设定一个低的R平方值,也可以为一个不符合数据的模型设定一个高的R平方值!
2. 均方根误差(RMSE),衡量模型在预测一个观察结果时产生的平均误差。在数学上,RMSE是平均平方误差(MSE)的平方根,即观察到的实际结果值与模型预测值之间的平均平方差。因此,MSE=平均值((观测值-预测值)^2),RMSE=sqrt(MSE)。RMSE越低,模型就越好。
3. 残差标准误差(RSE),也被称为模型西格玛,是RMSE的一个变体,根据模型中的预测因子数量进行调整。RSE越低,模型就越好。在实践中,RMSE和RSE之间的差异非常小,特别是对于大型多变量数据。
4. 平均绝对误差(MAE),与RMSE一样,MAE测量预测误差。在数学上,它是观察和预测结果之间的平均绝对差异,MAE = mean(abs(observeds – predicteds))。与RMSE相比,MAE对离群值不太敏感。
线性回归中的离群点类型
回归中的离群点是指远离 “云 “点的观测值。这些点特别重要,因为它们会对最小二乘法线产生很大的影响。
拟合最终模型时不要忽视离群值
如果数据中存在异常值,在没有充分理由的情况下,不应该删除或忽略它们。如果忽略了最特殊的情况,无论最终模型与数据拟合,都不会有很大帮助。
尽管如此,尽管你很想这样做,但不能因为一个观测值是离群值就放弃它,这是不可接受的。
它们可能是合法的观察结果,而且有时是最有趣的观察结果。在作出决定之前,调查离群点的性质是很重要的。
- 如果很明显,离群点是由于输入或测量的数据不正确造成的,你应该放弃这个离群点。
- 例如,我曾经分析过一个数据集,其中一个女人的体重被记录为19磅。我知道这在物理上是不可能的。她的真实体重可能是91、119或190磅,但由于我不知道是哪一个,所以我放弃了这个离群值。
- 这也适用于这样一种情况,即你知道基准点并没有准确地测量出你想要的东西。例如,如果你正在测试人们对某一事件的反应时间,但你看到被试者没有注意,随意地按下反应键,你就知道这不是一个准确的测量。
2. 如果离群点没有改变结果,但确实影响了假设,你可以放弃离群点。但要在论文的脚注中注明。
3. 3. 更常见的情况是,离群点既影响结果又影响假设。在这种情况下,简单地放弃离群点是不合法的。你可以在有和没有离群点的情况下进行分析,但你至少应该在脚注中说明放弃任何这样的数据点以及结果如何改变。
对不平衡数据进行回归的策略和战术
数据不平衡在现实世界中是无处不在的,也是固有的。数据不是在每个类别上保持理想的均匀分布,而是经常表现出带有长尾的偏斜分布,其中某些目标值的观察值明显较少。这种现象给深度识别模型带来了巨大的挑战,并促使许多先前的技术来解决数据不平衡的问题。
1. 使用正确的评价指标
对使用不平衡数据生成的模型应用不适当的评价指标可能是危险的。想象一下,我们的训练数据就是上图中的数据。如果用准确度来衡量一个模型的好坏,一个将所有测试样本归类为 “0 “的模型将有一个很好的准确度(99.8%),但显然,这个模型不会为我们提供任何有价值的信息。
在这种情况下,可以应用其他的评价指标,比如。
- 精度/特异性:有多少被选中的实例是相关的。
- 召回率/敏感度:有多少相关实例被选中。
- F1分数:精确性和召回率的谐和平均值。
- MCC:观察和预测的二元分类之间的相关系数。
- AUC:真阳性率和假阳性率之间的关系。
2. 重新取样训练集
除了使用不同的评价标准外,人们还可以努力获得不同的数据集。将不平衡的数据集变成平衡的数据集的两种方法是欠抽样和过度抽样。
2.1. 低度取样
低度取样是通过减少大量类的大小来平衡数据集。这种方法在数据量充足的情况下使用。通过保留稀有类的所有样本,并在丰富类中随机选择同等数量的样本,可以检索到一个平衡的新数据集,用于进一步建模。
2.2. 过度取样
相反,当数据的数量不足时,就会使用过度采样。它试图通过增加稀有样本的规模来平衡数据集。通过使用重复、引导或SMOTE(Synthetic Minority Over-Sampling Technique)[1]来生成新的稀有样本,而不是去掉丰富的样本。
请注意,一种重采样方法对另一种方法没有绝对优势。这两种方法的应用取决于它适用的用例和数据集本身。过度取样和不足取样的组合往往也是成功的。
3. 以正确的方式使用K-折交叉验证法
值得注意的是,在使用过度采样方法解决不平衡问题的同时,应正确应用交叉验证法。
请记住,过度取样需要观察到的稀有样本,并应用引导法来生成基于分布函数的新随机数据。如果在过度取样后应用交叉验证,基本上我们所做的就是根据特定的人工引导结果过度拟合我们的模型。这就是为什么交叉验证应该总是在过度取样数据之前进行,就像特征选择应该如何实施一样。只有反复地对数据进行重新取样,才能将随机性引入数据集,确保不会出现过拟合问题。
4. 集合不同的重采样数据集
成功概括一个模型的最简单方法是使用更多的数据。问题是,像逻辑回归或随机森林这样的开箱即用的分类器倾向于通过丢弃罕见的类别来进行泛化。一个简单的最佳做法是建立n个模型,使用稀有类的所有样本和丰富类的n个不同的样本。考虑到你想集合10个模型,你会保留例如1.000个稀有类的案例,随机抽取10.000个丰富类的案例。然后你就把这10,000个案例分成10块,训练10个不同的模型。
如果你有大量的数据,这种方法很简单,而且可以完美地横向扩展,因为你只需在不同的集群节点上训练和运行你的模型。集合模型也倾向于更好的泛化,这使得这种方法易于处理。
5. 用不同的比例重新取样
前面的方法可以通过对稀有类和丰富类之间的比例进行微调。最佳比例在很大程度上取决于数据和所使用的模型。但是,与其在集合中以相同的比例训练所有模型,不如尝试以不同的比例进行集合。因此,如果训练了10个模型,那么一个模型的比例为1:1(稀有:丰富),另一个为1:3,甚至是2:1,这可能是有意义的。根据所使用的模型,这可能会影响一个类别得到的权重。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/95884.html