所有WIKI > W字母 > 什么是交叉熵?

什么是交叉熵?

交叉熵(Cross Entropy)是信息论中的一个重要概念,广泛应用于机器学习、深度学习、统计学和优化领域。它主要用于衡量两个概率分布之间的差异,是分类任务中最常用的损失函数之一。本文将从交叉熵的定义、数学性质、与信息熵和KL散度的关系、在机器学习中的应用以及具体计算示例等方面进行详细阐述。

1. 交叉熵的定义

交叉熵是信息论中用于衡量两个概率分布之间差异的指标。给定两个离散概率分布 P 和 Q ,交叉熵 H(P, Q) 定义为:

其中:

  • P(i) 是真实分布(目标分布)的概率。
  • Q(i) 是模型预测分布的概率。
  • log通常以自然对数(底数为 ( e ))或对数 2 为底。

对于连续概率分布,交叉熵的定义可以扩展为积分形式:

## 2. 交叉熵的直观理解

交叉熵的核心思想是衡量用分布Q 来表示分布 P 所需的平均编码长度。当 Q 与 P 完全一致时,交叉熵达到最小值,此时的值等于 P 的熵 H(P) 。

  • 熵(Entropy):熵 ( H(P) ) 是分布 ( P ) 的不确定性的度量,定义为:

交叉熵与熵的关系:交叉熵可以分解为熵和KL散度(Kullback-Leibler Divergence)之和:

– 其中,DKL​(P ||Q) 是KL散度,用于衡量 P 和 Q 之间的差异。由于KL散度非负,交叉熵总是大于或等于熵。

3. 交叉熵与KL散度的关系

KL散度(Kullback-Leibler Divergence)是衡量两个概率分布差异的指标,定义为:

从交叉熵的定义可以看出:

这意味着:

  • QP 完全一致时,
一站搜索、试用、比较全球API!
幂简集成已收录 4793种API!
试用API,一次比较多个渠道