数据分布与变化:从理论到实践指南
什么是数据分布
数据分布指的是在给定数据集中,不同数值或取值出现的频率或概率的分布模式,它描述了数据集中各个数值或取值的分布情况,包括集中趋势(如均值、中位数、众数)、数据的变异程度(如标准差、方差)以及数据点在整个数据范围内的分布情况(如分位数、四分位数等)
具体来说,数据分布可以是连续的(如正态分布、指数分布)或离散的(如泊松分布、二项分布),分布的形状可以是对称的(如正态分布)、右偏的(如指数分布)或左偏的(如对数正态分布),理解数据分布有助于分析数据的特征、预测未来事件的发生概率,以及选择合适的统计模型来解释数据的行为和变化,在实际应用中,理解数据分布对于进行数据探索性分析、制定业务策略、进行预测建模以及进行决策支持都至关重要,接下来让我们一起来理解这些分布
正态分布
正态分布理论
正态分布是统计学中最重要的连续型概率分布之一,也称为高斯分布,它的特点是其概率密度函数呈钟形曲线,中心对称,左右两边的尾部渐近于水平轴但永远不触及,正态分布的概率密度函数公式如下:
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
# 第一个子图:均值为0,标准差为1的正态分布
mean1 = 0
std_dev1 = 1
num_samples = 1000
data1 = np.random.normal(mean1, std_dev1, num_samples)
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.hist(data1, bins=30, density=True, alpha=0.6, color='g', edgecolor='black')
plt.title('正态分布示例 1')
plt.xlabel('值')
plt.ylabel('密度')
x = np.linspace(-4, 4, 100)
p = 1/(std_dev1 * np.sqrt(2 * np.pi)) * np.exp(-(x - mean1)**2 / (2 * std_dev1**2))
plt.plot(x, p, 'k', linewidth=2, label = '正态分布曲线')
plt.legend()
plt.text(-3, 0.35, r'$\mu=0,\ \sigma=1$', fontsize=12)
plt.grid(True)
# 第二个子图:均值为5,标准差为10的正态分布
mean2 = 5
std_dev2 = 10
data2 = np.random.normal(mean2, std_dev2, num_samples)
plt.subplot(1, 2, 2)
plt.hist(data2, bins=30, density=True, alpha=0.6, color='g', edgecolor='black')
plt.title('正态分布示例 2')
plt.xlabel('值')
plt.ylabel('密度')
x = np.linspace(-30, 40, 100)
p = 1/(std_dev2 * np.sqrt(2 * np.pi)) * np.exp(-(x - mean2)**2 / (2 * std_dev2**2))
plt.plot(x, p, 'k', linewidth=2, label='正态分布曲线')
plt.legend()
plt.text(-25, 0.035, r'$\mu=5,\ \sigma=10$', fontsize=12)
plt.grid(True)
plt.tight_layout()
plt.show()
正态分布作用
正态分布的应用广泛,包括但不限于:
- 统计推断: 在假设检验和置信区间估计中,正态分布是常用的基础分布之一,例如 t 检验、方差分析等。这些方法要求数据满足正态分布假设,以保证推断的准确性和可靠性
- 数据建模: 在许多机器学习算法中,假设数据服从正态分布有时是必要的前提条件,如线性回归模型中的残差
如何检验数据是否为正态分布
正态分布检验是一种用来验证数据是否服从正态分布的方法,常见的正态分布检验包括以下几种:
直方图和正态概率图检验:
- 直方图检验:通过观察数据的直方图来初步判断数据的分布形态,是否近似正态分布
- 正态概率图(Q-Q 图):将数据的分位数与标准正态分布的分位数进行比较,如果数据点落在一条直线上,则表明数据与正态分布拟合良好
统计检验方法:
- Shapiro-Wilk 检验:用于小样本(通常小于50个观测值)的正态性检验,具有较高的敏感性
- Kolmogorov-Smirnov 检验:适用于大样本的正态性检验,但相对于 Shapiro-Wilk 检验来说,对于正态分布的检测能力较弱
偏度和峰度检验:
- 偏度和峰度的数值可以提供关于数据分布形态的信息,对于正态分布来说,偏度应接近于0,峰度应接近于3
Anderson-Darling 检验:
- Anderson-Darling 检验结合了样本的分位数与理论分布的比较,提供了对数据是否来自指定分布的详细检验
mean = 0
std_dev = 1
num_samples = 1000
data = np.random.normal(mean, std_dev, num_samples)
# 添加异常值
data[0] = 8
data[1] = -5
plt.figure(figsize=(15, 5))
plt.subplot(1, 3, 1)
plt.hist(data, bins=30, density=True, alpha=0.6, color='g')
plt.title('正态分布(包含异常值)')
plt.xlabel('值')
plt.ylabel('密度')
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = np.exp(-(x-mean)**2 / (2*std_dev**2)) / (std_dev * np.sqrt(2*np.pi))
plt.plot(x, p, 'k', linewidth=2, alpha = 0.3)
# 标记异常值
plt.scatter([data[0], data[1]], [0, 0], color='red', marker='o', label='异常值')
plt.text(-3, 0.35, r'$\mu=0,\ \sigma=1$', fontsize=12)
plt.text(-3, 0.3, '均值和标准差 ', fontsize=10, color='blue')
plt.text(2, 0.2, '正态分布曲线', fontsize=10, color='black')
plt.legend()
plt.grid(True)
from scipy import stats
# 绘制 Q-Q 图
plt.subplot(1, 3, 2)
stats.probplot(data, dist="norm", plot=plt)
plt.title('Q-Q 图')
plt.xlabel('理论分位数')
plt.ylabel('样本分位数')
plt.grid(True)
# 绘制 P-P 图
plt.subplot(1, 3, 3)
stats.probplot(data, dist="norm", plot=plt, fit=True)
plt.title('P-P 图')
plt.xlabel('理论累积概率')
plt.ylabel('样本累积概率')
plt.grid(True)
plt.show()
生成一组包含异常值的正态分布数据,绘制包含异常值的直方图、Q-Q 图和 P-P 图,以帮助可视化数据分布和判断数据是否符合正态分布,如果数据点落在一条直线上,则表明数据与正态分布拟合良好,可发现存在两个数据点不在一条直线上,和异常值存在对应,对于这种异常值可采取3 原则来识别,3 原则来源于正态分布的特性,在正态分布中,约99.7%的数据点会落在均值和 的 的范围内,因此超过这个范围的数据点通常就被认为是异常值,详情代码参考往期文章基于分布的四种离群值检验方法
泊松分布
泊松分布理论
泊松分布是一种离散概率分布,用于描述在固定时间间隔或空间区域内,事件发生的次数,它假设这些事件是独立发生的,并且在任意两个不重叠的时间间隔内,事件发生的概率是相同的,泊松分布的概率质量函数公式如下:
# 设置泊松分布参数
lam = 3 # 泊松分布的参数 lambda,控制事件的平均发生率
# 生成泊松分布的数据
k_values = np.arange(0, 15) # 可视化的事件发生次数范围
probabilities = np.exp(-lam) * np.power(lam, k_values) / np.array([np.math.factorial(k) for k in k_values])
# 绘制泊松分布的柱状图
plt.figure(figsize=(10, 6), dpi=300)
plt.bar(k_values, probabilities, color='skyblue', edgecolor='black')
plt.title('泊松分布')
plt.xlabel('事件发生次数')
plt.ylabel('概率')
for k, prob in zip(k_values, probabilities):
plt.text(k, prob + 0.01, f'{prob:.3f}', ha='center', va='bottom')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.xticks(k_values)
plt.ylim(0, max(probabilities) + 0.1)
plt.show()
卡方分布
卡方分布理论
卡方分布是一种连续概率分布,常用于描述多个独立标准正态分布随机变量的平方和的分布,卡方分布的概率密度函数公式如下:
from scipy.stats import chi2
# 设置自由度
degrees_freedom_1 = 5
degrees_freedom_2 = 10
x = np.linspace(0, 20, 1000)
pdf_1 = chi2.pdf(x, degrees_freedom_1)
pdf_2 = chi2.pdf(x, degrees_freedom_2)
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.plot(x, pdf_1, label=f'k={degrees_freedom_1}')
plt.title('卡方分布概率密度函数')
plt.xlabel('x')
plt.ylabel('概率密度')
plt.legend()
plt.grid(True)
plt.subplot(1, 2, 2)
plt.plot(x, pdf_2, label=f'k={degrees_freedom_2}')
plt.title('卡方分布概率密度函数')
plt.xlabel('x')
plt.ylabel('概率密度')
plt.legend()
plt.grid(True)
plt.show()
卡方分布作用
- 假设检验:用于比较观察到的数据与期望数据之间的差异,常见的例子包括卡方检验和拟合优度检验
- 置信区间构造:用于估计参数的置信区间,尤其是在数据的分布未知但满足一定条件时,例如方差分析中对组间方差的估计
- 模型拟合:用于评估模型的拟合程度,例如线性回归模型中的残差分析