指数分布的期望和方差(机器学习和深度学习中的

体育百科 2022-11-30 10:37www.1689878.com体育运动

文档资料源码请私信或移步官W上获取

在贝叶斯影响下，概率分布被大量用于解决棘手的问题。在讨论了正态分布之后，我们将介绍其他基本分布和更高级的分布，包括 Beta 分布、Dirichlet 分布、Poisson 分布和 Gamma 分布。我们还将讨论包括共轭先验、指数分布族和矩量法在内的主题。

伯努利分布

伯努利分布是单个二进制随机变量X ∈ {0, 1} 的离散分布，概率分别为 1- θ和θ。例如，抛硬币时，正面的机会为θ。

伯努利分布的期望值和方差为：

二项分布

二项分布是独立伯努利试验的汇总结果。例如，我们抛硬币N次并模拟出现x次正面的机会。

二项分布的期望值和方差为：

分类分布

伯努利分布有两种可能的结果。在分类分布中，我们有K个可能的结果，概率分别为 p₁、p₂、p₃、...和pk。所有这些概率加起来为 1。

多项分布

多项分布是二项分布的推广。它有k个可能的结果，而不是两个结果。如果二项分布对应于伯努利分布，则多项分布对应于分类分布。

假设这些结果分别与概率θ₁、θ₂、…和θk相关联。我们收集大小为N的样本，xᵢ表示结果i的计数。联合概率为

多项分布的期望值和方差为：

贝塔分布

对于伯努利分布或二项分布，我们如何对θ的值进行建模？例如，如果发现了一种新病毒，我们可以使用概率分布来模拟感染概率θ吗？

贝塔分布是在有限的值区间上的连续随机变量上的分布。它通常用于模拟一些二元事件的概率，如θ。该模型有两个影响分布形状的正参数α和β 。

当我们对新病毒一无所知时，我们可以设置α = β = 1 以实现均匀分布，即θ ∈ 的任何可能概率值都是等可能的。这是我们的先决条件。

α = β = 1 用于均匀分布

然后我们可以将贝叶斯推理与由二项分布建模的似然性应用。后验将是一个 beta 分布，也对α和β进行了更新。给定观察到的数据，这将成为新的感染率分布，并在观察到新样本时充当新的先验。

数学上，β分布定义为：

beta 函数B将 RHS 归一化为概率分布。

这个定义看起来很复杂，但是当它用于贝叶斯推理时，计算变得非常简单。假设 CDC 报告了N个人中的x 个新感染病例。应用贝叶斯定理，后验将是：

即，我们只需将新的正数添加到α并将新的负数 ( Nx ) 添加到β。

贝塔分布的期望值和方差为

狄利克雷分布

在前面的贝叶斯推理示例中，似然性由二项分布建模。我们将它与 beta 分布（先验）合作，以轻松计算后验。对于具有多项分布的似然性，对应的分布是狄利克雷分布。

狄利克雷分布定义为：

这个随机过程有K个结果，相应的 Dirichlet 分布将由K分量α参数化。

与 beta 分布类似，它与相应似然的相似性使得后验计算变得容易。

Dirichlet 分布的期望值和方差为：

泊松分布

泊松分布对给定数量的事件在固定时间间隔内发生的概率进行建模。它模拟泊松过程，其中事件以恒定的平均速率独立且连续地发生。

如图所示，如果事件相对罕见，二项分布可以简化为泊松分布。

假设泊松过程是无记忆的——过去不会影响任何未来的预测。无论上一个事件发生在 1 分钟前还是 5 小时前，下一个事件的平均等待时间都是相同的。

泊松分布的期望值和方差为：

指数分布

指数分布是泊松过程中下一个事件发生之前等待时间的概率分布。如下右图所示，对于 λ = 0.1（速率参数），等待超过 15 的几率为 0.22。

在数学上，它被定义为：

指数分布的期望值和方差为：

狄拉克分布

狄拉克 δ 分布（δ分布）可以被认为是在x = 0处具有窄峰的函数。具体而言，δ ( x ) 在除x = 0之外的所有地方都具有零值，并且峰下的面积（积分）是 1。

该函数对于高窄尖峰函数（脉冲）或概率分布中的某些确定性值是有用的近似值。它帮助我们将一些模型转换为数学方程。

回顾

以下是所讨论的一些概率分布的回顾。

伽玛分布

指数分布和卡方分布是伽马分布的特例。伽马分布可以被认为是具有指数分布的k个独立随机变量的总和。

直观地说，它是第k个事件发生的等待时间的分布。

这是伽马分布的数学定义。

根据上下文，伽马分布可以用两种不同的方式参数化。

α (aka k ) 参数化 gamma 分布的形状，而β参数化尺度。正如中心定理所建议的，随着k的增加，伽马分布类似于正态分布。

当我们改变β时，形状保持不变，但x和y轴的比例发生变化。

Gamma 分布的期望和方差为：

先验共轭

如前所述，如果我们巧妙地将似然分布和先验分布配对，我们可以使贝叶斯推理变得易于处理。

在贝叶斯推理中，如果相应的后验属于先验的同一类分布，则先验是共轭先验。

例如，beta 分布是二项分布（可能性）之前的共轭。使用贝叶斯定理计算的后验也是贝塔分布。这里有更多共轭先验的例子。

充分的统计

根据定义，当一个分布写成

T ( x ) 称为充分统计量。

这是一个应用于泊松分布的示例。

T( x ) 在x ⱼ 上求和。

充分统计的意义在于，根据x₁、x₂、x₃、……计算的其他统计量不会提供任何附加信息来估计分布参数θ。如果我们知道T ( x )，我们就有足够的信息来估计θ。不需要其他信息。我们不需要保留x₁, x₂, x₃, …来构建模型。例如，给定一个由θ（又名 λ）建模的泊松分布，我们可以通过将T ( x )除以n来估计θ。

指数分布族

正态分布、伯努利分布、伽玛分布、贝塔分布、狄利克雷分布、指数分布、泊松分布和许多其他分布都属于称为指数族的分布族。它的形式为

以下是二项式和泊松分布的指数族形式，由h ( x )、η、T ( x ) 和A表示。

从源代码修改

我们可以将参数θ和自然参数η相互转换。例如，可以使用逻辑函数从相应的自然参数η计算伯努利参数θ 。

这是以指数族的形式编写正态分布的另一个示例。

这种抽象概括的优点是什么？

指数族为解决其分布族的问题提供了一个通用的数学框架。例如，计算泊松分布的期望值可能很困难。

相反，对于A，指数族的所有期望值都可以相当容易地计算出来。如下左图所示，A'( η ) 等于T ( x )的期望值。由于泊松分布中的T ( x ) = x和λ = exp( η ) 和A ( λ) = λ = exp( η ) ，我们对 A( η ) 进行微分以找到。这等于λ。

这个分布族在贝叶斯分析中也有很好的特性。如果似然属于指数族，则存在通常是指数族的共轭先验。如果我们有一个指数族写成

由 γ 参数化的共轭先验将具有形式

由γ建模的共轭先验将具有一个额外的自由度。例如，伯努利分布有一个由θ建模的自由度。相应的 beta 分布将具有由α和β建模的两个自由度。

以指数族的形式考虑下面的伯努利分布，

我们可以定义（或猜测）

我们得到

即β分布是伯努利分布之前的共轭。

最大熵原理

可能有无限的模型可以精确地拟合先验数据（先验知识）。最大熵原理断言最能代表系统的概率分布是具有最大熵的系统。在信息论中，随机变量的熵衡量了可能结果所固有的“惊喜”。根据这一原则，我们避免对可能的情况施加不必要的额外约束，因为约束会降低系统的熵。

许多分布可以满足由充分统计施加的约束。但是我们可以选择的那个是熵最高的那个。可以证明，指数族具有与给定充分统计约束一致的最大熵分布。

第 K 时刻

矩定量地描述了函数的形状。如果函数f是概率分布，则零矩为总概率（=1），第一矩为均值。对于第二个和更高的矩，中心矩提供了关于分布形状的更好信息。第二个中心矩是方差，第三个标准化矩是偏度，第四个矩是峰度。

函数f的第k个矩或第k个原始矩定义为

这个时刻被称为关于零的时刻。但是，如果我们先用平均值减去x，它将被称为中心矩。

k阶矩等于 A(η) 的k阶导数。

矩量法

我们如何通过抽样来估计模型参数？我们如何用q*对人口密度p建模？在矩匹配中，我们从样本数据中计算矩，这样它们的足够统计量的期望就会匹配。

考虑一个简单的零中心分布模型f，由θ参数化，T ( X ) =x。

第一个和第二个理论矩是：

从源代码修改

二阶样本矩为：

通过让样本矩等于理论矩，我们得到σ（采样σ）的估计值。

但总的来说，整合并不容易。但是我们可以使用A的导数来计算矩并求解分布参数。例如，在 gamma 分布中，其参数α和β可以从样本均值和方差估计。

文档资料源码请私信或移步官W上获取

上一篇：古人刻苦读书的故事(古人勤奋读书的典故，不妨下一篇：中国散文学会在东莞观音山设立创作基地(中国散

指数分布的期望和方差(机器学习和深度学习中的

伯努利分布

二项分布

分类分布

多项分布

贝塔分布

狄利克雷分布

泊松分布

指数分布

狄拉克分布

回顾

伽玛分布

先验共轭

充分的统计

指数分布族

最大熵原理

第 K 时刻

矩量法

体育知识网搜索

体育知识网导航

体育运动

篮球世界杯

足球直播

指数分布的期望和方差(机器学习和深度学习中的

伯努利分布

二项分布

分类分布

多项分布

贝塔分布

狄利克雷分布

泊松分布

指数分布

狄拉克分布

回顾

伽玛分布

先验共轭

充分的统计

指数分布族

最大熵原理

第 K 时刻

矩量法

体育锻炼

体育知识网搜索

体育知识网导航

体育运动

篮球世界杯

足球直播