什么是交叉熵？ - 幂简集成

交叉熵（Cross Entropy）是信息论中的一个重要概念，广泛应用于机器学习、深度学习、统计学和优化领域。它主要用于衡量两个概率分布之间的差异，是分类任务中最常用的损失函数之一。本文将从交叉熵的定义、数学性质、与信息熵和KL散度的关系、在机器学习中的应用以及具体计算示例等方面进行详细阐述。

1. 交叉熵的定义

交叉熵是信息论中用于衡量两个概率分布之间差异的指标。给定两个离散概率分布 P 和 Q ，交叉熵 H(P, Q) 定义为：

其中：

对于连续概率分布，交叉熵的定义可以扩展为积分形式：

## 2. 交叉熵的直观理解

交叉熵的核心思想是衡量用分布Q 来表示分布 P 所需的平均编码长度。当 Q 与 P 完全一致时，交叉熵达到最小值，此时的值等于 P 的熵 H(P) 。

– 交叉熵与熵的关系：交叉熵可以分解为熵和KL散度（Kullback-Leibler Divergence）之和：

– 其中，DKL(P ||Q) 是KL散度，用于衡量 P 和 Q 之间的差异。由于KL散度非负，交叉熵总是大于或等于熵。

KL散度（Kullback-Leibler Divergence）是衡量两个概率分布差异的指标，定义为：

从交叉熵的定义可以看出：

这意味着：