指数分布的期望和方差(机器学习和深度学习中的
文档资料源码请私信或移步官W上获取
在贝叶斯影响下,概率分布被大量用于解决棘手的问题。在讨论了正态分布之后,我们将介绍其他基本分布和更高级的分布,包括 Beta 分布、Dirichlet 分布、Poisson 分布和 Gamma 分布。我们还将讨论包括共轭先验、指数分布族和矩量法在内的主题。
伯努利分布
伯努利分布是单个二进制随机变量X ∈ {0, 1} 的离散分布,概率分别为 1- θ和θ。例如,抛硬币时,正面的机会为θ。
伯努利分布的期望值和方差为:
二项分布
二项分布是独立伯努利试验的汇总结果。例如,我们抛硬币N次并模拟出现x次正面的机会。
二项分布的期望值和方差为:
分类分布
伯努利分布有两种可能的结果。在分类分布中,我们有K个可能的结果,概率分别为 p₁、p₂、p₃、...和pk。所有这些概率加起来为 1。
多项分布
多项分布是二项分布的推广。它有k个可能的结果,而不是两个结果。如果二项分布对应于伯努利分布,则多项分布对应于分类分布。
假设这些结果分别与概率θ₁、θ₂、…和θk相关联。我们收集大小为N的样本,xᵢ表示结果i的计数。联合概率为
多项分布的期望值和方差为:
贝塔分布
对于伯努利分布或二项分布,我们如何对θ的值进行建模?例如,如果发现了一种新病毒,我们可以使用概率分布来模拟感染概率θ吗?
贝塔分布是在有限的值区间上的连续随机变量上的分布。它通常用于模拟一些二元事件的概率,如θ。该模型有两个影响分布形状的正参数α和β 。
当我们对新病毒一无所知时,我们可以设置α = β = 1 以实现均匀分布,即θ ∈ 的任何可能概率值都是等可能的。这是我们的先决条件。
α = β = 1 用于均匀分布
然后我们可以将贝叶斯推理与由二项分布建模的似然性应用。后验将是一个 beta 分布,也对α和β进行了更新。给定观察到的数据,这将成为新的感染率分布,并在观察到新样本时充当新的先验。
数学上,β分布定义为:
beta 函数B将 RHS 归一化为概率分布。
这个定义看起来很复杂,但是当它用于贝叶斯推理时,计算变得非常简单。假设 CDC 报告了N个人中的x 个新感染病例。应用贝叶斯定理,后验将是:
即,我们只需将新的正数添加到α并将新的负数 ( Nx ) 添加到β。
贝塔分布的期望值和方差为
狄利克雷分布
在前面的贝叶斯推理示例中,似然性由二项分布建模。我们将它与 beta 分布(先验)合作,以轻松计算后验。对于具有多项分布的似然性,对应的分布是狄利克雷分布。
狄利克雷分布定义为:
这个随机过程有K个结果,相应的 Dirichlet 分布将由K分量α参数化。
与 beta 分布类似,它与相应似然的相似性使得后验计算变得容易。
Dirichlet 分布的期望值和方差为:
泊松分布
泊松分布对给定数量的事件在固定时间间隔内发生的概率进行建模。它模拟泊松过程,其中事件以恒定的平均速率独立且连续地发生。
如图所示,如果事件相对罕见,二项分布可以简化为泊松分布。
假设泊松过程是无记忆的——过去不会影响任何未来的预测。无论上一个事件发生在 1 分钟前还是 5 小时前,下一个事件的平均等待时间都是相同的。
泊松分布的期望值和方差为:
指数分布
指数分布是泊松过程中下一个事件发生之前等待时间的概率分布。如下右图所示,对于 λ = 0.1(速率参数),等待超过 15 的几率为 0.22。
在数学上,它被定义为:
指数分布的期望值和方差为:
狄拉克分布
狄拉克 δ 分布(δ分布)可以被认为是在x = 0处具有窄峰的函数。具体而言,δ ( x ) 在除x = 0之外的所有地方都具有零值,并且峰下的面积(积分)是 1。
该函数对于高窄尖峰函数(脉冲)或概率分布中的某些确定性值是有用的近似值。它帮助我们将一些模型转换为数学方程。
回顾
以下是所讨论的一些概率分布的回顾。
伽玛分布
指数分布和卡方分布是伽马分布的特例。伽马分布可以被认为是具有指数分布的k个独立随机变量的总和。
直观地说,它是第k个 事件发生的等待时间的分布。
这是伽马分布的数学定义。
根据上下文,伽马分布可以用两种不同的方式参数化。
α (aka k ) 参数化 gamma 分布的形状,而β参数化尺度。正如中心定理所建议的,随着k的增加,伽马分布类似于正态分布。
当我们改变β时,形状保持不变,但x和y轴的比例发生变化。
Gamma 分布的期望和方差为:
先验共轭
如前所述,如果我们巧妙地将似然分布和先验分布配对,我们可以使贝叶斯推理变得易于处理。
在贝叶斯推理中,如果相应的后验属于先验的同一类分布,则先验是共轭先验。
例如,beta 分布是二项分布(可能性)之前的共轭。使用贝叶斯定理计算的后验也是贝塔分布。这里有更多共轭先验的例子。
充分的统计
根据定义,当一个分布写成
T ( x ) 称为充分统计量。
这是一个应用于泊松分布的示例。
T( x ) 在x ⱼ 上求和。
充分统计的意义在于,根据x₁、x₂、x₃、……计算的其他统计量不会提供任何附加信息来估计分布参数θ。如果我们知道T ( x ),我们就有足够的信息来估计θ。不需要其他信息。我们不需要保留x₁, x₂, x₃, …来构建模型。例如,给定一个由θ(又名 λ)建模的泊松分布,我们可以通过将T ( x )除以n来估计θ。
指数分布族
正态分布、伯努利分布、伽玛分布、贝塔分布、狄利克雷分布、指数分布、泊松分布和许多其他分布都属于称为指数族的分布族。它的形式为
以下是二项式和泊松分布的指数族形式,由h ( x )、η、T ( x ) 和A表示。
从源代码修改
我们可以将参数θ和自然参数η相互转换。例如,可以使用逻辑函数从相应的自然参数η计算伯努利参数θ 。
这是以指数族的形式编写正态分布的另一个示例。
这种抽象概括的优点是什么?
指数族为解决其分布族的问题提供了一个通用的数学框架。例如,计算泊松分布的期望值可能很困难。
相反,对于A,指数族的所有期望值都可以相当容易地计算出来。如下左图所示,A'( η ) 等于T ( x )的期望值。由于泊松分布中的T ( x ) = x和λ = exp( η ) 和A ( λ) = λ = exp( η ) ,我们对 A( η ) 进行微分以找到 。这等于λ。
这个分布族在贝叶斯分析中也有很好的特性。如果似然属于指数族,则存在通常是指数族的共轭先验。如果我们有一个指数族写成
由 γ 参数化的共轭先验将具有形式
由γ建模的共轭先验将具有一个额外的自由度。例如,伯努利分布有一个由θ建模的自由度。相应的 beta 分布将具有由α和β建模的两个自由度。
以指数族的形式考虑下面的伯努利分布,
我们可以定义(或猜测)
我们得到
即β分布是伯努利分布之前的共轭。
最大熵原理
可能有无限的模型可以精确地拟合先验数据(先验知识)。最大熵原理断言最能代表系统的概率分布是具有最大熵的系统。在信息论中,随机变量的熵衡量了可能结果所固有的“惊喜”。根据这一原则,我们避免对可能的情况施加不必要的额外约束,因为约束会降低系统的熵。
许多分布可以满足由充分统计施加的约束。但是我们可以选择的那个是熵最高的那个。可以证明,指数族具有与给定充分统计约束一致的最大熵分布。
第 K 时刻
矩定量地描述了函数的形状。如果函数f是概率分布,则零矩为总概率(=1),第一矩为均值。对于第二个和更高的矩,中心矩提供了关于分布形状的更好信息。第二个中心矩是方差,第三个标准化矩是偏度,第四个矩是峰度。
函数f的第k个矩或第k个原始矩定义为
这个时刻被称为关于零的时刻。但是,如果我们先用平均值减去x,它将被称为中心矩。
k阶矩等于 A(η) 的k阶导数。
矩量法
我们如何通过抽样来估计模型参数?我们如何用q*对人口密度p建模?在矩匹配中,我们从样本数据中计算矩,这样它们的足够统计量的期望就会匹配。
考虑一个简单的零中心分布模型f,由θ参数化,T ( X ) =x。
第一个和第二个理论矩是:
从源代码修改
二阶样本矩为:
通过让样本矩等于理论矩,我们得到σ(采样σ)的估计值。
但总的来说,整合并不容易。但是我们可以使用A的导数来计算矩并求解分布参数。例如,在 gamma 分布中,其参数α和β可以从样本均值和方差估计。
文档资料源码请私信或移步官W上获取