数据分析-相关性分析可视化

前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考《数据分析-相关性分析》。

前面介绍了相关性分析的原理、流程和常用的皮尔逊相关系数和斯皮尔曼相关系数,具体可以参考《数据分析-相关性分析》。然后把Excel、PowerBI和Python来实现来实现《相关性分析(PowerBI、Excel)》《Python相关性分析》,这个内容今天最后完结,有的时候数据报告可能需要,所以把数据相关性可视化的部分最后补上。

在数据分析中,相关性分析是一种用于探索和量化变量之间关系的重要方法。通过相关性分析,数据分析师可以识别变量之间的依赖关系,从而为进一步的建模和决策提供依据。相关性分析可视化通过直观的图形展示变量间的关系,使复杂的数据模式更易理解和解释。常用的相关性分析可视化方法包括散点图、热图和配对图。

【散点图(Scatter Plot)】

散点图是一种二维图表,用于展示两个变量之间的关系。每个点在图上表示一对数据点的值,横坐标和纵坐标分别表示两个变量。通过观察点的分布形态,可以直观地判断变量之间的相关性类型(正相关、负相关或无相关)。

我们用电商数据中的广告费用投入、访客人数、支付人数、支付金额四个维度举例。我们将生成模拟数据并分别使用Python、R语言和Excel进行相关性分析的可视化展示。

【Python散点图】

首先模拟数据,导入相关的包,然后模拟生成相关数据,代码和结果如下↓

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
import pandas as pd
import numpy as np
import seaborn as sns
np.random.seed(21)
days = 200
ad_spend = np.random.normal(10000, 2000, days)  # 广告费用
visitors = ad_spend + np.random.normal(100000, 1000, days)  # 访客人数
paying_visitors = (visitors * 0.2 + np.random.normal(2000, 400, days))  # 支付人数
revenue = paying_visitors * 3 + np.random.normal(5000, 1500, days)  # 支付金额
data = pd.DataFrame({
    '广告费': ad_spend,
    '访客': visitors,
    '买家数': paying_visitors,
    '销售金额': revenue
})
数据分析-相关性分析可视化

然后简单绘制一个散点图,代码和结果如下↓

# 绘制广告费用与访客人数的散点图
plt.figure(figsize=(10, 5))
plt.scatter(data['广告费'], data['访客'])
plt.xlabel('广告费(元)')
plt.ylabel('访客数')
plt.title('Scatter Plot of Ad Spend vs Visitors')
plt.show()
数据分析-相关性分析可视化

# 绘制访客人数与支付人数的散点图plt.figure(figsize=(10, 5))plt.scatter(data['访客'], data['买家数'])plt.xlabel('访客')plt.ylabel('买家数')plt.title('绘制访客人数与支付人数的散点图')plt.show()
数据分析-相关性分析可视化

从结果可以看出,广告费用的投入和访客人数还是有很强的相关性;而访客人数和支付人数之间虽然也是正相关,但是整体相关性不是特别强。

【R语言散点图】

R语言也比较简单,还是同样的数据,绘图代码如下↓

library(ggplot2)
data <- read.delim("clipboard")
library(sysfonts)
library(showtextdb)
library(showtext)
showtext_auto()
ggplot(data, aes(x = 广告费, y = 访客)) +
  geom_point() +
  labs(title = "广告费与访客数的散点图", x = "广告费", y = "访客数")+
  theme(text = element_text(size = 22))
数据分析-相关性分析可视化

【Excel散点图】

Excel里面直接选择两列,然后插入散点图就行了。

【热图(Heatmap)】

热图是一种用颜色表示数据矩阵的图表,通常用于展示变量之间的相关性矩阵。颜色深浅代表相关系数的大小,颜色变化可以帮助快速识别强相关和弱相关的变量对。

【Python热图】

绘制热图先要计算各列数据之间的相关性,结果是一个矩阵,如下图↓

# 计算相关性矩阵
corr_matrix = data.corr()
数据分析-相关性分析可视化

然后就对这个矩阵的数据进行可视化,其实就是对数据大小的颜色进行填充,代码和结果如下↓

# 绘制热图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()
数据分析-相关性分析可视化

【R语言热图】

R语言也是同样的原理,直接上代码↓

library(reshape2)
# 计算相关性矩阵
corr_matrix <- cor(data)
# 绘制热图
corr_melt <- melt(corr_matrix)
ggplot(data = corr_melt, aes(Var1, Var2, fill = value)) + 
  geom_tile() + 
  scale_fill_gradient2(low = "blue", high = "red", mid = "white", midpoint = 0) +
  theme_minimal() +
  ggtitle('Correlation Matrix Heatmap')+
  theme(text = element_text(size = 30))
数据分析-相关性分析可视化

【Excel热图】

Excel里面需要分两步,第一步是通过数据分析工具,选择相关性分析;然后设置一下参数,如下↓

数据分析-相关性分析可视化

数据分析-相关性分析可视化

结果就是如下的一个数据矩阵↓

数据分析-相关性分析可视化

最后就是把数据格式按照需求进行条件格式填充即可↓

数据分析-相关性分析可视化

【配对图(Pair Plot)】

配对图是一种多变量数据的可视化方法,展示所有变量两两组合的散点图,并在对角线上显示每个变量的分布。配对图适用于快速检查多变量之间的相关性和分布模式。

【Python配对图】

# 绘制配对图
sns.pairplot(data,
             diag_kws=dict(fill=False))
plt.show()
数据分析-相关性分析可视化

【R语言配对图】

library(GGally)
# 绘制配对图
ggpairs(data)
数据分析-相关性分析可视化

GGally包可以有很丰富的可视化功能,这里只是使用最简单的代码就能绘制成比较成型的图形。后续会根据情况单独写一篇完整的介绍。

链接是我使用PowerBI整合的历史文章,按类型分类,可以根据需求查询:Microsoft Power BI↓

数据分析-相关性分析可视化

https://app.powerbi.com/view?r=eyJrIjoiNjI2NWQ3NjktYjU0ZC00ZWZhLTgzMDgtMGI4ZTk1ZDlkODM3IiwidCI6IjI3NDQ3MWQ0LTM4ZDQtNDVlZS1hMmJkLWU1NTVhOTBkYzM4NiJ9

数据分析-相关性分析可视化

End

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/81280.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信