描述统计学:中位数、众数、百分位数、平均数

描述统计学:中位数、众数、百分位数、平均数数值方法样本统计量:数据来自样本,计算的度量总体参数:数据来自总体,计算的度量点估计量:样本统计量被称为是相应总体参数的点估计量位置的度量平均数最重要的变量:平均数(mean)如果数据来自某个样本,则样本平均数为。公式为:如果数据来自某个总体,则平均数用希腊字母μ表示。公式为

大家好,欢迎来到IT知识分享网。

数值方法

样本统计量:数据来自样本,计算的度量
总体参数:数据来自总体,计算的度量
点估计量: 样本统计量被称为是相应总体参数的点估计量

位置的度量

平均数

最重要的变量:平均数(mean)
如果数据来自某个样本,则样本平均数为 。

公式为:

如果数据来自某个总体,则平均数用希腊字母μ表示。

公式为:

中位数

将所有数据按升序排序后,位于中间的数值即为中位数。
(1)当观测值是奇数时,中位数就是中间那个数值。
(2)当观测值是偶数时,则没有单一的中间数值,这个时候定义中间两个观测值的平均数。

平均数往往会受到异常大或异常小的数值影响,中位数这个时候提供了比平均数更好的中心位置的度量。

经常用在年收入及资产价值数据的报告中,因为少数极端大的收入和资产价值将会夸大平均数。

众数

就是数据集中出现次数最多的数值。

需要注意,如果出现了两个或两个以上的众数,几乎从不报告众数,因为对于描述数据的位置并不能起多大作用。

百分位数

提供了数据如何散步在从最小值到最大值的区间上的信息。

第P百分位数:

假设一名学生的语言考了54分,相对于参加同样考试的学生,这个学生的表现如何,可能不太清除,但是如果对应着第70百分数,则说明70%的学生比他低,30%的学生比他搞。

计算步骤:

  1. 把数据按升序排序

  2. 计算指数i:

  3. p为所求百分数,n是观测值的个数。

  4. (1)若i不是整数,则向上取整,大于i的下一个整数表示第p百分数的位置。
    (2)若i是整数,则第p百分位数是第i项和第(i+1)项数据的平均值。

实例:

i不是整数:

3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925

我们取85%的标准,则是第11位。

i是整数:

第50百分数是第6和7项的平均值。(3490+3520)/2 = 3505,同时,第50百分位数也是中位数。

四分位数

目的是为了将数据划分为相等的四部分,四分位数的计算方法不同,结果也会略有不同。

gai

=第一位四分位数,或第25百分位数

=第二四分位数,或第50百分位数(也是中位数)

=第三四分位数,或第75百分位数

四分位数是一种特殊的百分位数,因此,计算百分位数的步骤可以直接用于四分位数的计算。

调整平均数

当数据集中含有极端值时,使用中位数作为中心位置的度量比平均数更合适。

但是如果用平均数,则从数据集中删除一定比例最大值和最小值,然后计算剩余数据的平均值。

5%调整平均数,删除5%最小的数值和5%最大的数值,例如n=12,12*0.05=0.6,四舍五入值为1。则要删除一个最大一个最小,求剩下10个的调整平均数。

练习

一、
gai

a. 每场比赛3分球投篮的平均次数是多少?

350 / 19 = 18.42

b. 每场比赛3分球命中的平均次数是多少?

120 / 19 = 6.31

c. 较近的3分球,球员的命中率为35.2%。对新的3分线,球员的命中率是多少?

120 / 350 = 0.342*100%=34.2%

d. 将3分线后移至20英尺9英寸的影响是什么?

影响是命中率降低了1%的命中概率,无伤大雅。

二、

gai

a. 直接用代码写了,手算费劲。

list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
data = Series(list1)
# 平均数
data.mean()= 160.0
# 中位数
data.median() = 135.0
# 众数
data.mode() = 120.0

b. 代码生成

data.quantile([0.25,0.5,0.75])
0.25    115.00
0.50    135.00
0.75    183.75
dtype: float64

c.计算并解释第90百分位数

data.quantile(0.9)
237.00

三、
gai

a.GDP增长速度的最小预测值是多少?最大预测值是多少?

# 预测值
forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]

data=Series(forcast)
data.max()
3.5

data.min()
0.4

b. 计算平均数,中位数,众数

data.mean()
2.30
data.median()
2.5
data.mode()
2.7

c. 计算第一四分位和第三四分位

data.quantile([0.25,0.75])

0.25    2.000
0.75    2.775
dtype: float64

d. 经济学家对美国经济持乐观还是悲观态度?

乐观态度,中位数和平均数都在2.5以上,说明经济学家普遍看好美国的经济增长。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/33357.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信