Probability Reasoning

概率空间 Probability Space

概率空间 $(\Omega,E,P)$包含了三个部分,用来描述概率现象。
样本空间(Outcome/Sample Space) $\Omega$
事件空间(Event Space) E
概率分布(Probability Distribution) $P:E\to R$

样本空间 Outcome/Sample Space

对于一个随机现象,所有可能的输出的集合被称作样本空间,记作 $\Omega$。
可以通过Tree Diagram,List(样本空间小时直接枚举),Table来找到一个概率现象的样本空间。
eg. 单次掷色子的样本空间为 $\Omega=\{1,2,3,4,5,6\}$

事件空间 Event Space

样本空间的任意一个子集被称作一个事件,事件本身是可以度量概率的。
事件e发生等价于实验的输出结果被包含在事件e中。
事件空间(Event Space) $E\subset 2^\Omega$ 是事件的集合,满足以下条件:

  1. 必须包含空事件 $\emptyset$ 和整个样本空间本身(trivial event) $\Omega$ ;
  2. 对可数的并操作封闭 $if:\alpha_i\in E,i=1,2…,then:\cup_{i=1}^{\infty}\alpha_i\in E$ ;
  3. 对补操作封闭 $if:\alpha\in E,then:\Omega -\alpha\in E$ .

概率分布 Probability Distribution

概率分布P是事件到真实值的一个映射 $(P:E\to\mathbb{R})$ ,满足以下条件(axioms of probability):

  1. 非负性:$P(\alpha)>=0,\forall\alpha\in E$ ;
  2. 所有可能的结果的概率总和为1:$P(\Omega)=1$ ;
  3. 对于互不相交的集合 $\alpha,\beta \in E$ 且 $\alpha\cap\beta=\emptyset$,满足 $P(\alpha\cup\beta)=P(\alpha)+P(\beta)$ .

随机变量 Random Variables

随机变量是概率空间的一个可测量函数(measurable function) $X:\Omega\to S$ ,即:将实验结果映射到一个可测量空间(measurable space) $S$ ,$S\in \mathbb{R}$ ,$S$ 可写作 $Val(X)$ ,含义是随机变量 $X$ 的可取值范围。使用 $x_i$ 代表 $X$ 的一个特定取值。
$P(x)$ 是 $P(X=x)$ 的简写,其中 $x$ : realization/generic value of a random variable $X$ .
随机变量的取值空间 $Val(X)$ 可以是连续的(continuous),也可以是离散的(discrete)。

离散型概率分布

Probability mass function(PMF) $P(x)$:
精确的给出每个离散随机变量对应的概率值

连续型概率分布

Probability Density Function(PDF) $p(x)$:
描述这个随机变量的输出值,在某个确定的取值点附近的可能性

连续随机变量采用任何特定值的绝对可能性为0: $P(X=x_i)=\int _{x_i}^{x_i}p(x)\,dx=0$

Probabilistic Reasoning

联合概率 Joint Probability

事件A、B同时发生的概率。这两个事件的概率分布可以全是连续性,可以全是离散型,也可以一个连续一个离散。
eg. 双离散的情况:

边缘分布 Marginalization

边缘概率分布是指仅考虑一个变量的分布而不考虑所有其它变量的分布。
假设已经得到了关于随机变量 $X$ 和 $Y$ 的联合分布函数 $p(x,y)$,可以通过“sum rule”将 $Y$ 的所有概率累加从而将 $Y$ 边缘化,进而得到 $X$ 的边缘分布。
双离散型:

双连续型:

对高维同样适用:(随机变量 $W$ 是离散的,$Z$ 是连续的,已知 $W,X,Y,Z$ 的联合分布):

条件概率 Conditional Probability

$p(X|Y=y^*)$ :给定 $Y=y^*$ 时 $X$ 的概率分布,也称作概率的“chain rule”或”product rule”,其中 $X$ 是隐随机变量, $Y$ 是观察值(observation/evidence).

可以简写为:

贝叶斯法则 Bayes’ Rule

$p(x|y)$ 是似然函数(likelihood function),代表给定 $Y$ 时观察到特定 $X$ 值的倾向性(propensity)
$p(y)$ 是先验(Prior)概率,代表在观测到 $X$ 之前掌握的 $Y$ 的信息
$p(y|x)$ 是后验(posterior)概率,代表在观测到 $X$ 之后掌握的 $Y$ 的信息
$p(x)$ 是观测到的信息(evidence),是常数,用来将分子正则化以保证左侧是一个有效的概率分布

独立性 independence

随机变量 $X$ 和 $Y$ 独立意味着每个条件分布都相同:

此时 $X$ 和 $Y$ 的联合概率等于边缘概率的乘积:

期望 Expectation

函数 $f(x)$ 根据 $X$ 的分布取得的平均值被称作期望:

Rules of Expectation:

  1. 常数的期望还是常数:
  2. 常数倍的函数的期望等于函数的期望的常数倍:
  3. 函数和的期望等于函数期望的和:
  4. 相互独立的随机变量的函数乘积的期望等于函数期望的乘积:if $X$, $Y$ are independent.

常见的分布

伯努利分布 Bernoulli Distribution

随机变量 $X$ 是一个二元随机变量,$x\in\{0,1\}$

Or

Categorical Distribution

随机变量 $X$ 是一个非连续型随机变量,有1-k个彼此互斥的取值。
随机变量 $X$ 的取值 $x$ 被表示为一个 $K$ 维向量 $e_k$ 其中 $x_k=1$ 且 $\sum_{k=1}^Kx_k=1$
$K$ 维参数 $\lambda=[\lambda_1,…,\lambda_K]^T$,其中 $\lambda>= 0$,$\sum_k\lambda_k=1$

Or

单元高斯分布 Univariate Normal Distribution

随机变量 $X\in \mathbb{R}$ , $\mu\in\mathbb{R}$ (mean) , $\sigma^2>0$ (variance)

多元高斯分布 Multivariate Normal Distribution

随机变量 $X$ 是一个 $k$ 维向量:$\mathbf{x}\in\mathbb{R}^k$ , $\mathbf{x}=x_{1},\ldots ,x_{k}$
均值mean: $\boldsymbol{\mu}\in\mathbb{R}^k$
协方差矩阵covariance matrix: $\boldsymbol{\Sigma}\in\mathbb{R}_{+}^{k\times k}$

共轭分布 Conjugate Distribution

if the posterior distributions $p(\theta|x)$ are in the same probability distribution family as the prior probability distribution $p(\theta)$, the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood function $p(x | \theta)$. —- wikipedia

即:在贝叶斯公式(后验=似然*先验/常数)中,如果后验和先验是同族函数,即 $p_{post}=k\times p_{prior}$ ,则这个先验分布是似然函数的共轭分布,每个似然函数 $p(x | \theta)$ 都有唯一共轭分布与之对应。

history

用法一:学习一个概率分布的参数 $\theta$

  1. 找到与似然函数(likelihood)对应的共轭先验分布
  2. 后验 $p(\theta|x)$ 必须与共轭先验分布有相同形式
  3. 说明 $p(x)$ (evidence)必须是一个常数

用法二:边缘化参数

  1. 选择另一项 $p(x^*|\theta)$ 的共轭 $p(\theta|\boldsymbol{x})$
  2. 乘积简化成了一个分布与常数的乘积
  • i.e. : that is
  • a.k.a : Also Known As