什么是交叉熵?
2025-01-03
交叉熵(Cross Entropy)是信息论中的一个重要概念,广泛应用于机器学习、深度学习、统计学和优化领域。它主要用于衡量两个概率分布之间的差异,是分类任务中最常用的损失函数之一。本文将从交叉熵的定义、数学性质、与信息熵和KL散度的关系、在机器学习中的应用以及具体计算示例等方面进行详细阐述。
1. 交叉熵的定义
交叉熵是信息论中用于衡量两个概率分布之间差异的指标。给定两个离散概率分布 P 和 Q ,交叉熵 H(P, Q) 定义为:
其中:
- P(i) 是真实分布(目标分布)的概率。
- Q(i) 是模型预测分布的概率。
- log通常以自然对数(底数为 ( e ))或对数 2 为底。
对于连续概率分布,交叉熵的定义可以扩展为积分形式:
## 2. 交叉熵的直观理解
交叉熵的核心思想是衡量用分布Q 来表示分布 P 所需的平均编码长度。当 Q 与 P 完全一致时,交叉熵达到最小值,此时的值等于 P 的熵 H(P) 。
- 熵(Entropy):熵 ( H(P) ) 是分布 ( P ) 的不确定性的度量,定义为:
– 交叉熵与熵的关系:交叉熵可以分解为熵和KL散度(Kullback-Leibler Divergence)之和:
– 其中,DKL(P ||Q) 是KL散度,用于衡量 P 和 Q 之间的差异。由于KL散度非负,交叉熵总是大于或等于熵。
3. 交叉熵与KL散度的关系
KL散度(Kullback-Leibler Divergence)是衡量两个概率分布差异的指标,定义为:
从交叉熵的定义可以看出:
这意味着:
- 当 Q 与 P 完全一致时,