PART 4 描述性统计分析「建议收藏」

PART 4 描述性统计分析「建议收藏」一、参数估计1⃣️估计·分布剖析有两条法则可以告诉你:大部分数据落在概率分布中的哪个区域。经验法则——适用于符合正态分布的任何数据集。表明:几乎所有的数据都位于距离均值3个标准差的范围内。具体:大约68%的数值位于距离均值1个标准差的范围内;大约95%的数值位于距离均值2个标准差的范围内;大约99.7%的数值位于距离均值3个标准差的范围内。切比雪夫不等式——适用于任何数据集。表明:对于任意分布,都至少有1-1/k^2的X落在离均值k个标准差的范围内。具

大家好,欢迎来到IT知识分享网。

一、参数估计

1⃣️ 估计

· 分布剖析

有两条法则可以告诉你:大部分数据落在概率分布中的哪个区域。

经验法则——适用于符合正态分布的任何数据集。表明:几乎所有的数据都位于距离均值3个标准差的范围内。具体:

大约68%的数值位于距离均值1个标准差的范围内;

大约95%的数值位于距离均值2个标准差的范围内;

大约99.7%的数值位于距离均值3个标准差的范围内。

切比雪夫不等式——适用于任何数据集。表明:对于任意分布,都至少有1-1/k^2的X落在离均值k个标准差的范围内。具体:

至少75%的数值位于距离均值2个标准差的范围内;

至少89%的数值位于距离均值3个标准差的范围内;

至少94%的数值位于距离均值4个标准差的范围内。

· 参数估计

· 步骤:选定参数——选定统计量——抽样分布——得出结果

· 定义

        参数估计:用样本统计量去估计总体的参数

        估计量:用来估计总体参数的统计量

        估计值:根据一个具体的样本计算出来的估计量的数值

· 抽样分布

1)样本均值的抽样分布

PART 4 描述性统计分析「建议收藏」

PART 4 描述性统计分析「建议收藏」

2)样本比例的抽样分布

由二项分布的原理和渐近分布的理论,当n充分大时,np>5且np>5时,p的分布可用正态分布去逼近,即:

        P~N(p,pq/n)

                切忌:须进行连续型修正+-1/2n

3)样本方差的抽样分布

PART 4 描述性统计分析「建议收藏」

· 评价估计量的三标准

        无偏性:估计量抽样分布的数学期望等于被估计的总体参数

        有效性:也称最小方差性,即方差越小的估计量越有效

        一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数

· 估计-得出结果

两类方法

· 点估计

定义:用样本估计量构造的某一个值直接作为总体参数的估计值

具体方法:矩估计法、最大似然法、顺序统计量估计法、最小二乘法

特点:优点(简单、精确);缺点(不准确)

· 区间估计

定义:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。

置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间

置信水平:置信区间中包含总体参数真值的次数所占的比例

PART 4 描述性统计分析「建议收藏」

⚠️注意:

比如说抽取100个样本,根据每个样本构造一个置信区间,这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含总体参数的真值,有5%没包含,则95%这个值称为置信水平。

1)表述:构造置信水平为95%的置信区间

2)置信区间是一个随机区间,它会因样本的不同而不同,且不是所有的区间都包含总体参数的真值

3)在实际问题中,由一个样本构造的区间是一个特定的区间,而不再是随机区间,所以我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能希望这个区间是大量包含总体参数真值的区间中的一个。

思考:

如何衡量区间对总体参数估计的准确性?

1)总体的参数值总是存在的、且固定的,但是是未知的;

2)不能说“某个区间以90%的概率包含总体参数”;也不能说总体参数有90%的可能性落在某个区间。

一个特定区间“总是包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题,但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含参数的真值。

总体均值的区间估计

PART 4 描述性统计分析「建议收藏」

总体比例的区间估计

PART 4 描述性统计分析「建议收藏」

总体方差的区间估计

PART 4 描述性统计分析「建议收藏」

· 小结

PART 4 描述性统计分析「建议收藏」

PART 4 描述性统计分析「建议收藏」 

二、描述性统计分析

1⃣️统计的基本概念

【数据分析步骤】核心:数据

收集数据➡️处理数据➡️分析数据➡️解释数据

分析数据的方法

· 描述性分析

-研究数据收集、处理和描述的统计学方法

        总体规模、对比关系、集中趋势、离散程度、偏态、峰态…..

· 推断性分析

-研究如何利用样本数据来推断总体特征的统计学方法

        估计、假设检验、列联分析、方差分析、相关分析、回归分析…..

· 基本概念-数据

1)统计学的对象是数据

2)数据的形式:数字(可进行比较)&文本(不可运算)「注:阿拉伯数字不一定是数字,在处理数据时,它只是一个代替的符号而已,也可以表示文字」

3)数据的分类

按照计量尺度:

        · 分类型数据(不可排序,不可计算)

                按现象的某种属性对其分类或分组而得到的反映事物类型的数据,又称定类数据

                        如按照性别将人口分为男、女两类

       · 顺序型数据(可排序,不可计算)

                某一有序类别的非数字型数据

                        如将产品分为一等品、二等品、三等品、次品等

       · 数值型数据(可排序,可计算)

· 基本概念

总体

样本

参数:要研究的总体的某种特征值,如总体均值、总体标准差、总体比例等

统计量:指根据样本数据计算出来的一个量,如样本均值、样本标准差、样本比例等

变量

        -变量的具体表现称为变量值,即数据

        -分为:分类变量、顺序变量、数值型变量

2⃣️数据的描述性统计

⚠️必会!

撰写一份数据描述统计分析报告

五个角度:

一、总体规模的描述——总量指标

二、对比关系的描述——相对指标

三、集中趋势的描述——平均指标

四、离散程度的描述——变异指标

五、分布形态的描述——偏态与峰态

六、描述性统计图表

🚩总量指标:反映在一定时间、空间条件下某种现象的总体规模、总水平或总成果的统计指标,如营业额、利润。

🚩相对指标:是两个有相互联系的指标数值之比,如目标完成率(实际完成/计划完成)

🚩平均指标:测度集中趋势就是寻找数据水平的代表值或中心值

分类型数据可用:众数

顺序型数据可用:众数、分位数

数值型数据可用:众数、分位数、均值

1)众数

  

2)分位数(二分位数/中位数、四分位数、百分位数)

      P= kn/100 (即位于数据范围k%处的数值)

      如果结果为整数,则百分位数处于第kn/100位和下一位数之间,取这两个位置上的数字平均        值,得出百分数;

      如果结果不是整数,则将其向上取整,结果即百分位数的位置。

  3)均值

       ✔️算术平均数

定义:数据的和与数据个数之比

特点:易受极端值影响

PART 4 描述性统计分析「建议收藏」

✔️几何平均数

定义:n个变量值乘积的n次方根 特点:易受极端值影响;常用于增长率数据的研究;所有数据需大于0

PART 4 描述性统计分析「建议收藏」

✔️调和平均数

定义:变量值倒数的算术平均数的倒数

特点:易受极端值影响;常用于效率数据的研究;所有数据需大于0

PART 4 描述性统计分析「建议收藏」

✔️均值不等式

对于同一组数据,一定满足:

        算术平均数>=几何平均数>=调和平均数

🚩变异指标:反映各变量值远离其中心值的程度

1)极差

定义:一组数据的最大值与最小值之差

特点:极易受极端值影响;未考虑数据分布

2)平均差

定义:各变量值与其均值离差绝对值的平均数

特点:能全面反映一组数据的离散程度:值越大,数据越分散;数学性质较差,实际应用较少

3)方差和标准差

特点:数据离散程度的最常用测度值;

反映了各变量值与均值的平均差异。

根据总体数据计算的,称为总体方差𝛔^2,总体标准差𝛔

根据样本数据计算的,称为样本方差𝙎^2、样本标准差𝙎

PART 4 描述性统计分析「建议收藏」

 

4)变异系数(离散系数)

定义:标准差与均值之比

特点:是对数据相对离散程度的测度;消除了数据水平不同和数据计量单位不同对数据离散程度的影响;常用于对不同组别数据离散程度的比较

小结:

极差、平均差、方差、标准差、离散系数,都适用于数值型的数据

标准分数主要用来衡量每个变量的相对位置

基于以下👇

分类型数据可用:众数

顺序型数据可用:众数、分位数

数值型数据可用:众数、分位数、均值

推出👇

异众比率——分类型数据

        指的是非众数组的频数占总频数的比例

        异众比率越大,说明众数的代表性越差,反之亦然。

四分位差——顺序型数据

        指的是上四分位数和下四分位数的差

        主要反映中间那50%数据的离散程度,四分位差越大,说明中间这部分数据越分散。

🚩相对位置的度量-标准化值

也称标准分数

PART 4 描述性统计分析「建议收藏」

        · 是某一个数据在全体中相对位置的度量

        · 可用于判断一组数据是否有离群值;用于对变量的标准化处理

⚠️标准化值只是将原始数据进行了线性变换,并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是使该组数据均值为0,标准差为1。

🚩分布形态的描述-偏态与峰态

偏态:数据分布偏斜程度(看尾巴朝向)

测量方法:使用偏态系数来测量数据的偏态。SK

PART 4 描述性统计分析「建议收藏」

 PART 4 描述性统计分析「建议收藏」

PART 4 描述性统计分析「建议收藏」 

峰态:数据分布扁平程度

测量方法:使用峰态系数来测量数据的峰态。K

PART 4 描述性统计分析「建议收藏」

 

🚩描述性统计图表

1)直方图

直方图

频数分布直方图

特点:能够显示各组频数分布的情况;易于显示各组之间频数的差别

2)散点图

特点:展示数据的分布情况;发现变量之间的关系

3)箱线图

显示一组数据分散情况的统计图

3⃣️统计分析

· 常用的分布

两点分布与二项分布 → 离散分布

正态分布

标准正态分布          → 连续分布

𝜒^2分布

T分布                    → 抽样分布

F分布

正态分布图像特点:

-正态曲线的最高点在均值𝛍,它也是分布的中位数和众数;

-𝛍决定曲线的高度的位置,𝛔决定曲线的平缓程度;

-曲线相对于均值𝛍对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交;

-正态曲线的总面积等于1。

PART 4 描述性统计分析「建议收藏」

 

 

4⃣️相关分析

·如何进行相关分析?

相关关系的描述——散点图

分类:

从涉及的变量数量:单相关&复相关

从变量相关关系的表现形式:线性相关&非线性相关

从变量相关关系变化的方向:正相关&负相关

从变量相关的程度:完全相关&不相关&不完全相关

相关关系的度量——协方差&相关系数

· 协方差

PART 4 描述性统计分析「建议收藏」

  

· 相关系数

PART 4 描述性统计分析「建议收藏」

 

 

三、假设检验

· 假设检验步骤

1)提出原假设和备择假设

原假设,H0,总是有等号

备择假设,H1,总是有不等号

2)确定适当的检验统计量

PART 4 描述性统计分析「建议收藏」

3)规定显著性水平

        是一个概率值

        原假设为真时,拒绝原假设的概率

4)计算检验统计量的值

根据给定的显著性水平𝛂,查表得出相应的临界值

将检验统计量的值与𝛂水平的临界值进行比较

5)作出统计决策

利用P值进行决策

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/24528.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信