人工智能数学基础 - 贝叶斯统计(Bayesian Statistics)
2024-12-31
一、贝叶斯统计的本质
频率学派与贝叶斯学派:频率学派强调通过大量数据揭示客观规律,而贝叶斯学派则注重结合先验知识与新数据来更新信念。
频率学派与贝叶斯学派
一、频率学派
- 基本观点:
- 世界是客观的,概率是事件在长时间内发生的频率。
- 必须通过大量独立采样来获得统计均值。
- 不主张先给出一个主观的先验概率或假设。
- 应用场景:
- 适用于可以通过大量重复实验来获得统计规律的场景,如抛硬币、掷骰子等。
- 优势与局限:
- 优势:在简单、可重复的实验场景下非常有效。
- 局限:对于无法进行大量重复实验或实验成本高昂的现实场景,频率学派的方法可能不适用。
二、贝叶斯学派
- 基本观点:
- 概率是一种信念度,可以有主观的先验概率。
- 通过观察新的数据来不断更新先验概率,使之逼近客观事实。
- 应用场景:
- 适用于需要估算概率但无法进行大量重复实验的现实场景。
- 如赶飞机时间的估算、《狼来了》故事中村民对小孩诚实度的判断等。
- 优势与局限:
- 优势:能够结合先验知识和新数据进行概率推断,更加灵活和实用。
- 局限:先验概率的选择可能带有主观性,需要谨慎选择。
贝叶斯决策:贝叶斯决策是一种基于贝叶斯定理的决策方法,它结合了先验概率、条件概率和决策目标来进行最优决策。
贝叶斯决策
一、贝叶斯决策框架
- 数据(D):这是观察到的证据或信息,用于更新我们的信念或假设。在分类问题中,数据可能包括个体的各种特征(如身高、体重等)。
- 假设(W):这是我们要验证或评估的潜在事实或情况。在分类问题中,假设通常是关于数据点所属类别的判断(如男性或女性)。
- 目标(O):这是我们希望通过决策优化的量。在分类问题中,目标通常是最小化分类错误率或最大化分类准确率。
- 决策(S):这是根据目标和后验概率做出的最终选择或行为。在分类问题中,决策是将数据点分配给某个类别。
二、贝叶斯决策步骤
- 确定因果链条:明确哪些信息作为假设,哪些作为证据。
- 列出假设空间:列举所有可能的假设,这些假设应该是互斥且穷尽的。
- 给出先验概率:在没有任何证据的情况下,对每个假设的初始信念或概率。
- 计算后验概率:使用贝叶斯定理,结合证据和先验概率来更新假设的概率。
二、贝叶斯统计的原理
贝叶斯定理:贝叶斯定理是一种计算条件概率的方法,它根据新的证据和先前的概率来更新某个假设的可信度。
贝叶斯定理
一、贝叶斯定理定义
- 贝叶斯定理是一种用于计算条件概率的数学定理。它提供了一种方法,在给定一些相关证据(或称为观测数据、信息)的情况下,来更新某个假设(或称为命题、事件)的概率。这种更新是基于新的证据和先前的知识或信念(先验概率)来进行的。
二、贝叶斯定理公式
- P(A|B) = [P(B|A) * P(A)] / P(B)
- P(A|B) 是在给定事件B发生的条件下,事件A发生的后验概率。
- P(B|A) 是在假设事件A发生的条件下,事件B发生的概率,也称为似然度。它衡量了如果事件A确实发生了,那么我们观察到事件B发生的可能性有多大。
- P(A) 是事件A发生的先验概率,即在观察到任何与事件B相关的信息之前,我们对事件A发生可能性的初始信念或估计。
- P(B) 是事件B发生的总概率,也称为边缘概率或归一化常数。为了计算这个概率,我们需要考虑所有可能导致事件B发生的互斥事件,并将它们各自的概率求和(对于离散事件)或积分(对于连续事件)。
贝叶斯定理公式
贝叶斯网络:一种概率图模型,用于表示变量之间的概率依赖关系。
贝叶斯网络
一、贝叶斯网络定义
- 节点(Nodes):贝叶斯网络中的每个节点代表一个随机变量。这些变量可以是离散的或连续的,并表示系统中的不同属性、事件或状态。
- 边(Edges):边连接了节点,表示变量之间的直接依赖关系。如果节点A有一条指向节点B的边,那么我们说节点A是节点B的父节点,节点B是节点A的子节点。这种依赖关系通常意味着父节点的状态会影响子节点的概率分布。
- 条件概率表(Conditional Probability Tables, CPTs):每个节点都关联有一个条件概率表,该表指定了给定其父节点状态下该节点的概率分布。对于没有父节点的节点(也称为根节点),其条件概率表就是该节点的边际概率分布。
二、贝叶斯网络 vs 马尔可夫随机场
贝叶斯网络:
- 使用有向无环图(DAG)表示变量间的因果关系。
- 节点代表随机变量,边代表条件概率依赖。
- 适用于有明确因果关系的场景。
马尔可夫随机场:
- 使用无向图表示变量间的依赖关系,不指明方向。
- 边表示相邻变量间的依赖,常用于空间或时间上的关系。
- 通过势函数量化依赖,与能量函数相关。
贝叶斯网络 vs 马尔可夫随机场
三、贝叶斯统计的应用
机器学习:贝叶斯算法在机器学习中提供了一系列强大的工具集,能够处理从分类到回归再到参数估计的各种问题。
一、贝叶斯分类器
- 原理:基于贝叶斯定理,通过计算给定特征条件下的后验概率来进行分类。它假设每个特征之间相互独立(在朴素贝叶斯中)或考虑特征之间的依赖关系(在某些扩展模型中)。
- 应用:常用于文本分类(如垃圾邮件过滤、情感分析)、疾病预测、客户分类等。
- 优势:简单、高效,对小规模数据集表现良好;对缺失数据不太敏感。
- 限制:独立性假设在现实中往往不成立,可能导致分类偏差。
二、贝叶斯线性回归
- 原理:不同于传统的最小二乘法,贝叶斯线性回归通过引入先验分布来估计回归系数,从而得到回归参数的后验分布。这不仅提供了点估计,还提供了对预测结果的不确定性估计。
- 应用:用于预测连续值输出的问题,如房价预测、销量预测等。
- 优势:能够处理过拟合问题,提供预测的不确定性度量,有助于决策制定。
- 限制:先验分布的选择需要一定的领域知识或经验,不合适的先验可能导致不准确的预测。
三、参数估计与贝叶斯推断
- 原理:在机器学习的许多场景中,参数的真实值是未知的。贝叶斯推断提供了一种方法,通过结合先验知识和观测数据来计算参数的后验分布,从而进行参数估计和决策。
- 应用:用于处理不确定性问题,如机器人定位、传感器校准、用户行为建模等。
- 优势:能够自然地处理不确定性,提供参数的完整分布信息而不仅仅是点估计。
- 限制:计算复杂度可能较高,特别是在高维参数空间中;先验的选择和更新也需要仔细考虑。
文本分类:通过计算先验概率和条件概率,建立高效的分类模型,实现准确的文本分类。
文本分类
一、建立贝叶斯模型
在文本分类中,常用的贝叶斯模型包括朴素贝叶斯(Naive Bayes)和多项式贝叶斯(Multinomial Bayes)等。这些模型基于贝叶斯定理,利用训练数据集中的先验概率和条件概率来建立分类模型。
- 朴素贝叶斯:假设特征之间相互独立,即文本中某个单词的出现与其他单词无关。这种假设简化了计算,使得朴素贝叶斯成为一种高效且易于实现的分类算法。
- 多项式贝叶斯:考虑了单词出现的次数,而不仅仅是单词是否出现。这对于处理长文本和文本中单词频率变化较大的情况更为有效。
二、训练模型
在训练阶段,使用已标注的训练数据集来估计先验概率和条件概率。先验概率通常指的是每个类别在训练数据集中出现的频率,而条件概率则指的是在某个类别下某个特征(单词)出现的频率。
三、文本分类
在分类阶段,对于给定的新文本,提取其特征并利用已训练的贝叶斯模型计算该文本属于每个类别的后验概率。通常选择后验概率最大的类别作为文本的预测类别。
本文章转载微信公众号@架构师带你玩转AI
同话题下的热门内容