跳转至

贝叶斯分析

贝叶斯学派还是很厉害的,能够不仅估计出最优参数,还能估计出参数的概率分布。现在AI算法其时都是只估计一个局部最优的参数权重,如果能够估计出权重的概率分布那就更厉害了(但是估计需要很大计算量)。

学习贝叶斯分析推荐的参考书籍:DBDA

以下是结合AI对贝叶斯基础内容制作的简单总结,仅供参考。

第一章:概率论和贝叶斯基础

1. 概率论回顾

1.1 概率与样本空间

  • 概率:衡量随机事件发生的可能性。
  • 样本空间:随机事件所有可能结果的集合。
  • 例如:抛硬币的样本空间为{正面, 反面}。

1.2 概率分布

  • 离散分布:样本空间为离散值。
  • 例如:伯努利分布(Bernoulli Distribution):

    \[ p(y|\theta) = \theta^y (1-\theta)^{1-y} \]
  • 连续分布:样本空间为连续值。

  • 例如:正态分布(Normal Distribution):

    \[ p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

1.3 集中趋势

  • 均值(Mean):\(E[x] = \sum p(x) x\)\(E[x] = \int p(x) x \, dx\)
  • 众数(Mode):概率密度最大的点。
  • 中位数(Median):\(P(x \leq M) = P(x \geq M) = 0.5\)

1.4 联合概率与条件概率

  • 联合概率\(p(x, y)\) 表示两个事件同时发生的概率。
  • 条件概率\(p(x|y) = \frac{p(x, y)}{p(y)}\)
  • 独立性:若 \(p(x|y) = p(x)\),则 \(x\)\(y\) 独立。

2. 贝叶斯法则

2.1 贝叶斯定理

\[ p(\theta|D) = \frac{p(D|\theta) p(\theta)}{p(D)} \]
  • 先验(Prior):\(p(\theta)\)
  • 似然(Likelihood):\(p(D|\theta)\)
  • 后验(Posterior):\(p(\theta|D)\)
  • 证据(Evidence):\(p(D) = \int p(D|\theta) p(\theta) \, d\theta\)

2.2 例子:抗原检测

  • 假设:
  • 准确率(真阳性)为 87%。
  • 假阳性率为 3%。
  • 先验患病概率为 0.1%。
  • 计算后验概率:
\[ p(\theta=1|T=1) = \frac{0.87 * 0.001}{0.87 *0.001 + 0.03 * 0.999} ≈ 0.028 \]

3. 极大似然估计(MLE)

3.1 定义

\[ \hat{\theta} = \arg\max_\theta p(D|\theta) \]
  • 转换为对数似然:
\[ \hat{\theta} = \arg\max_\theta \log p(D|\theta) \]

3.2 例子:抛硬币

  • 似然函数:
\[ L(\theta) = \theta^z (1-\theta)^{N-z} \ \]
  • MLE解:
\[ \hat{\theta} = \frac{z}{N} \]

4. 贝叶斯估计

4.1 网格近似(Grid Approximation)

  • 将连续参数离散化,近似计算后验分布:
\[ p(\theta|D) \approx \frac{p(D|\theta) p(\theta)}{\sum_{\theta^*} p(D|\theta^*) p(\theta^*)} \]

4.2 样本数量对后验的影响

  • 样本量越大,后验分布越集中于真实值附近。

4.3 先验对后验的影响

  • 先验分布的选择会影响后验分布的形状。

5. 贝叶斯推理的难点

5.1 计算边缘似然

\[ p(D) = \int p(D|\theta) p(\theta) \, d\theta \]
  • 解决方法:
  • 网格近似。
  • 数学分析(共轭先验)。
  • MCMC采样。
  • 变分近似。

6. 频率学派 vs. 贝叶斯学派

  • 频率学派
  • 概率定义为相对频率的极限。
  • 使用抽样分布表示不确定性。
  • 贝叶斯学派
  • 概率定义为信念程度。
  • 使用后验分布表示不确定性。

第二章:贝叶斯推理

1. 贝叶斯推理方法:准确数学分析

1.1 网格近似 vs. 准确数学分析

  • 网格近似:通过“求和”近似计算“积分”。
  • 公式:

    \[ p(\theta|D) \approx \frac{p(D|\theta)p(\theta)}{\sum_{\theta^*} p(D|\theta^*)p(\theta^*)} \]
  • 准确数学分析:直接计算积分的表达式。

1.2 抛硬币的例子

模型(似然)
  • 抛硬币结果:
  • 正面:\(y=1\),概率为 \(\theta\)
  • 反面:\(y=0\),概率为 \(1-\theta\)
  • 伯努利分布:
\[ p(y|\theta) = \theta^y (1-\theta)^{1-y} \]
  • \(N\)次硬币,正面次数为\(z\),反面次数为\(N-z\)
\[ p(\{y_i\}|\theta) = \theta^z (1-\theta)^{N-z} \]
贝叶斯推理
  • 目标:估计后验分布 \(p(\theta|\{y_i\})\)
  • 贝叶斯法则:
\[ p(\theta|\{y_i\}) = \frac{p(\{y_i\}|\theta) p(\theta)}{p(\{y_i\})} \]
  • 似然:\(p(\{y_i\}|\theta)\)
  • 先验:\(p(\theta)\)
  • 证据:\(p(\{y_i\}) = \int p(\{y_i\}|\theta) p(\theta) d\theta\)

1.3 先验设计

共轭先验
  • 先验形式与似然一致,便于数学推导。
  • 伯努利分布的共轭先验是Beta分布:
\[ p(\theta) = \text{Beta}(\theta|a, b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)} \]
  • \(B(a, b)\) 是Beta函数,用于归一化。
Beta分布的性质
  • 均值:\(\mu = \frac{a}{a+b}\)
  • 众数:\(\omega = \frac{a-1}{a+b-2}\)\(a>1, b>1\))。
  • 集中度:\(\kappa = a + b\)

1.4 求解后验

  • 后验分布:
\[ p(\theta|\{y_i\}) \propto p(\{y_i\}|\theta) p(\theta) = \theta^{z+a-1} (1-\theta)^{N-z+b-1} \]
  • 后验为Beta分布:

    \[ p(\theta|\{y_i\}) = \text{Beta}(\theta|z+a, N-z+b) \]
例子
  • 先验:\(\text{Beta}(\theta|5, 5)\)
  • 数据:\(z=1, N=10\)
  • 后验:\(\text{Beta}(\theta|6, 14)\)

1.5 后验预测

  • 预测下一次抛硬币的结果:
\[ p(y_{new}=1|D) = \frac{a'}{a' + b'} \]
  • 其中,\(a' = z + a\)\(b' = N - z + b\)

2. 贝叶斯推理方法:马尔科夫链蒙特卡洛近似

2.1 采样与MCMC

  • 采样:从分布中选择离散点,近似原分布。
  • MCMC:通过采样大量\(\theta\)值,近似后验分布\(p(\theta|D)\)
  • 优势:
    1. 先验可以任意指定。
    2. 不需要计算\(p(D)\)的积分。

2.2 Metropolis算法

简化版本
  1. 提议新值\(\theta^*\)(左或右)。
  2. 计算接受概率:
\[ p_{\text{accept}} = \min\left(\frac{P(\theta^*)}{P(\theta_{\text{current}})}, 1\right) \]
  1. 根据接受概率决定是否转移到\(\theta^*\)
完整算法
  1. 初始化\(\theta_0\)
  2. 从提议分布\(q(\theta^*|\theta)\)采样\(\theta^*\)
  3. 计算\(\alpha = \frac{P(\theta^*)}{P(\theta)}\)
  4. 接受或拒绝\(\theta^*\)

2.3 吉布斯采样

  • 适用于多维参数。
  • 每次更新一个参数,保持其他参数固定。
  • 接受率为100%。
例子:抛两个硬币
  • 条件概率:
\[ p(\theta_1|\theta_2, D) = \text{Beta}(\theta_1|z_1 + a_1, N_1 - z_1 + b_1) \]
\[ p(\theta_2|\theta_1, D) = \text{Beta}(\theta_2|z_2 + a_2, N_2 - z_2 + b_2) \]

2.4 预热阶段与有效样本数量

  • 预热阶段:初始阶段采样值未收敛,需丢弃。
  • 有效样本数量:衡量采样链的独立性。

3. 总结

贝叶斯推理方法

  1. 准确数学分析:适用于共轭先验。
  2. 网格近似:适用于低维参数。
  3. MCMC:适用于复杂先验和高维参数。
  4. 变分近似:用优化方法近似后验。

第三章:层级模型与广义线性模型

1. 层级模型

1.1 基础概念

  • 定义:模型包含多级参数,低层级参数(\(\theta\))依赖高层级参数(\(\omega\))
  • 典型场景
  • 同工厂硬币的bias依赖工厂的factory bias
  • 足球运动员点球成功率依赖位置普遍概率
  • 医生手术成功率依赖医院普遍成功率

1.2 模型优势

  • 数据共享效应:所有数据共同影响所有参数估计
  • 参数依赖关系
  • 数据量少的\(\theta\)更依赖\(\omega\)
  • 数据量多的\(\theta\)更接近自身数据

1.3 关键公式

\[ p(\theta,\omega|D) \propto p(D|\theta)p(\theta|\omega)p(\omega) \]

2. 广义线性模型

2.1 核心结构

\[ \mu = f(\text{lin}(x)), \quad y \sim \text{pdf}(\mu, \text{其他参数}) \]

2.2 变量类型

  • 自变量
  • 度量值(连续变量)
  • 类别值(离散变量)
  • 因变量
  • 回归问题:度量值
  • 分类问题:类别值

3. 回归模型

3.1 线性回归

\[ \mu = \beta_0 + \beta_1 x, \quad y \sim \text{Normal}(\mu, \sigma) \]

3.2 鲁棒回归

\[ y \sim \text{Student\_t}(\mu, \sigma, \nu) \]

3.3 多重回归

\[ \hat{y} = \beta_0 + \sum_{k=1}^K \beta_k x_k \]

4. 分类模型

4.1 逻辑回归

  • 核心函数
  • 逻辑函数:\(y = 1 / (1 + e^{-lin(x)})\)
  • Logit函数:\(\text{logit}(x) = \log(x/(1-x))\)

4.2 Softmax回归

\[ \phi_k = \frac{\exp(\lambda_k)}{\sum\exp(\lambda_k)}, \quad \lambda_k = \sum\beta_{i,k}x_i + \beta_{0,k} \]

5. 模型对比

特征 层级模型 线性回归 逻辑回归
参数关系 层级依赖 独立 独立
数据共享
异常值处理 自动收缩 需t分布 需鲁棒改进

6. 实用技巧

  1. 数据标准化
\[ z_x = \frac{x-\mu_x}{\sigma_x} \]
  1. 超参数选择
  2. 层级模型中\(K\)控制依赖强度
  3. 逻辑回归中\(\alpha\)控制鲁棒性

  4. 可视化建议

  5. 绘制后验分布HDI区间

  6. 多分类问题展示决策边界

7. 关键结论

  1. 层级模型通过参数依赖实现数据共享
  2. 广义线性模型通过链接函数统一处理各类问题
  3. 贝叶斯方法提供完整概率分布而非点估计
  4. 数据标准化显著提升MCMC效率
  5. 鲁棒模型对异常值更稳定