贝叶斯分析¶
贝叶斯学派还是很厉害的,能够不仅估计出最优参数,还能估计出参数的概率分布。现在AI算法其时都是只估计一个局部最优的参数权重,如果能够估计出权重的概率分布那就更厉害了(但是估计需要很大计算量)。
学习贝叶斯分析推荐的参考书籍:DBDA
以下是结合AI对贝叶斯基础内容制作的简单总结,仅供参考。
第一章:概率论和贝叶斯基础¶
1. 概率论回顾¶
1.1 概率与样本空间¶
- 概率:衡量随机事件发生的可能性。
- 样本空间:随机事件所有可能结果的集合。
- 例如:抛硬币的样本空间为{正面, 反面}。
1.2 概率分布¶
- 离散分布:样本空间为离散值。
-
例如:伯努利分布(Bernoulli Distribution):
\[ p(y|\theta) = \theta^y (1-\theta)^{1-y} \] -
连续分布:样本空间为连续值。
-
例如:正态分布(Normal Distribution):
\[ p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]
1.3 集中趋势¶
- 均值(Mean):\(E[x] = \sum p(x) x\) 或 \(E[x] = \int p(x) x \, dx\)。
- 众数(Mode):概率密度最大的点。
- 中位数(Median):\(P(x \leq M) = P(x \geq M) = 0.5\)。
1.4 联合概率与条件概率¶
- 联合概率:\(p(x, y)\) 表示两个事件同时发生的概率。
- 条件概率:\(p(x|y) = \frac{p(x, y)}{p(y)}\)。
- 独立性:若 \(p(x|y) = p(x)\),则 \(x\) 和 \(y\) 独立。
2. 贝叶斯法则¶
2.1 贝叶斯定理¶
\[
p(\theta|D) = \frac{p(D|\theta) p(\theta)}{p(D)}
\]
- 先验(Prior):\(p(\theta)\)。
- 似然(Likelihood):\(p(D|\theta)\)。
- 后验(Posterior):\(p(\theta|D)\)。
- 证据(Evidence):\(p(D) = \int p(D|\theta) p(\theta) \, d\theta\)。
2.2 例子:抗原检测¶
- 假设:
- 准确率(真阳性)为 87%。
- 假阳性率为 3%。
- 先验患病概率为 0.1%。
- 计算后验概率:
\[
p(\theta=1|T=1) = \frac{0.87 * 0.001}{0.87 *0.001 + 0.03 * 0.999} ≈ 0.028
\]
3. 极大似然估计(MLE)¶
3.1 定义¶
\[
\hat{\theta} = \arg\max_\theta p(D|\theta)
\]
- 转换为对数似然:
\[
\hat{\theta} = \arg\max_\theta \log p(D|\theta)
\]
3.2 例子:抛硬币¶
- 似然函数:
\[
L(\theta) = \theta^z (1-\theta)^{N-z} \
\]
- MLE解:
\[
\hat{\theta} = \frac{z}{N}
\]
4. 贝叶斯估计¶
4.1 网格近似(Grid Approximation)¶
- 将连续参数离散化,近似计算后验分布:
\[
p(\theta|D) \approx \frac{p(D|\theta) p(\theta)}{\sum_{\theta^*} p(D|\theta^*) p(\theta^*)}
\]
4.2 样本数量对后验的影响¶
- 样本量越大,后验分布越集中于真实值附近。
4.3 先验对后验的影响¶
- 先验分布的选择会影响后验分布的形状。
5. 贝叶斯推理的难点¶
5.1 计算边缘似然¶
\[
p(D) = \int p(D|\theta) p(\theta) \, d\theta
\]
- 解决方法:
- 网格近似。
- 数学分析(共轭先验)。
- MCMC采样。
- 变分近似。
6. 频率学派 vs. 贝叶斯学派¶
- 频率学派:
- 概率定义为相对频率的极限。
- 使用抽样分布表示不确定性。
- 贝叶斯学派:
- 概率定义为信念程度。
- 使用后验分布表示不确定性。
第二章:贝叶斯推理¶
1. 贝叶斯推理方法:准确数学分析¶
1.1 网格近似 vs. 准确数学分析¶
- 网格近似:通过“求和”近似计算“积分”。
-
公式:
\[ p(\theta|D) \approx \frac{p(D|\theta)p(\theta)}{\sum_{\theta^*} p(D|\theta^*)p(\theta^*)} \] -
准确数学分析:直接计算积分的表达式。
1.2 抛硬币的例子¶
模型(似然)¶
- 抛硬币结果:
- 正面:\(y=1\),概率为 \(\theta\)。
- 反面:\(y=0\),概率为 \(1-\theta\)。
- 伯努利分布:
\[
p(y|\theta) = \theta^y (1-\theta)^{1-y}
\]
- 抛\(N\)次硬币,正面次数为\(z\),反面次数为\(N-z\):
\[
p(\{y_i\}|\theta) = \theta^z (1-\theta)^{N-z}
\]
贝叶斯推理¶
- 目标:估计后验分布 \(p(\theta|\{y_i\})\)。
- 贝叶斯法则:
\[
p(\theta|\{y_i\}) = \frac{p(\{y_i\}|\theta) p(\theta)}{p(\{y_i\})}
\]
- 似然:\(p(\{y_i\}|\theta)\)。
- 先验:\(p(\theta)\)。
- 证据:\(p(\{y_i\}) = \int p(\{y_i\}|\theta) p(\theta) d\theta\)。
1.3 先验设计¶
共轭先验¶
- 先验形式与似然一致,便于数学推导。
- 伯努利分布的共轭先验是Beta分布:
\[
p(\theta) = \text{Beta}(\theta|a, b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)}
\]
- \(B(a, b)\) 是Beta函数,用于归一化。
Beta分布的性质¶
- 均值:\(\mu = \frac{a}{a+b}\)。
- 众数:\(\omega = \frac{a-1}{a+b-2}\)(\(a>1, b>1\))。
- 集中度:\(\kappa = a + b\)。
1.4 求解后验¶
- 后验分布:
\[
p(\theta|\{y_i\}) \propto p(\{y_i\}|\theta) p(\theta) = \theta^{z+a-1} (1-\theta)^{N-z+b-1}
\]
-
后验为Beta分布:
\[ p(\theta|\{y_i\}) = \text{Beta}(\theta|z+a, N-z+b) \]
例子¶
- 先验:\(\text{Beta}(\theta|5, 5)\)。
- 数据:\(z=1, N=10\)。
- 后验:\(\text{Beta}(\theta|6, 14)\)。
1.5 后验预测¶
- 预测下一次抛硬币的结果:
\[
p(y_{new}=1|D) = \frac{a'}{a' + b'}
\]
- 其中,\(a' = z + a\),\(b' = N - z + b\)。
2. 贝叶斯推理方法:马尔科夫链蒙特卡洛近似¶
2.1 采样与MCMC¶
- 采样:从分布中选择离散点,近似原分布。
- MCMC:通过采样大量\(\theta\)值,近似后验分布\(p(\theta|D)\)。
- 优势:
- 先验可以任意指定。
- 不需要计算\(p(D)\)的积分。
2.2 Metropolis算法¶
简化版本¶
- 提议新值\(\theta^*\)(左或右)。
- 计算接受概率:
\[
p_{\text{accept}} = \min\left(\frac{P(\theta^*)}{P(\theta_{\text{current}})}, 1\right)
\]
- 根据接受概率决定是否转移到\(\theta^*\)。
完整算法¶
- 初始化\(\theta_0\)。
- 从提议分布\(q(\theta^*|\theta)\)采样\(\theta^*\)。
- 计算\(\alpha = \frac{P(\theta^*)}{P(\theta)}\)。
- 接受或拒绝\(\theta^*\)。
2.3 吉布斯采样¶
- 适用于多维参数。
- 每次更新一个参数,保持其他参数固定。
- 接受率为100%。
例子:抛两个硬币¶
- 条件概率:
\[
p(\theta_1|\theta_2, D) = \text{Beta}(\theta_1|z_1 + a_1, N_1 - z_1 + b_1)
\]
\[
p(\theta_2|\theta_1, D) = \text{Beta}(\theta_2|z_2 + a_2, N_2 - z_2 + b_2)
\]
2.4 预热阶段与有效样本数量¶
- 预热阶段:初始阶段采样值未收敛,需丢弃。
- 有效样本数量:衡量采样链的独立性。
3. 总结¶
贝叶斯推理方法¶
- 准确数学分析:适用于共轭先验。
- 网格近似:适用于低维参数。
- MCMC:适用于复杂先验和高维参数。
- 变分近似:用优化方法近似后验。
第三章:层级模型与广义线性模型¶
1. 层级模型¶
1.1 基础概念¶
- 定义:模型包含多级参数,低层级参数(\(\theta\))依赖高层级参数(\(\omega\))
- 典型场景:
- 同工厂硬币的bias依赖工厂的factory bias
- 足球运动员点球成功率依赖位置普遍概率
- 医生手术成功率依赖医院普遍成功率
1.2 模型优势¶
- 数据共享效应:所有数据共同影响所有参数估计
- 参数依赖关系:
- 数据量少的\(\theta\)更依赖\(\omega\)
- 数据量多的\(\theta\)更接近自身数据
1.3 关键公式¶
\[
p(\theta,\omega|D) \propto p(D|\theta)p(\theta|\omega)p(\omega)
\]
2. 广义线性模型¶
2.1 核心结构¶
\[
\mu = f(\text{lin}(x)), \quad y \sim \text{pdf}(\mu, \text{其他参数})
\]
2.2 变量类型¶
- 自变量:
- 度量值(连续变量)
- 类别值(离散变量)
- 因变量:
- 回归问题:度量值
- 分类问题:类别值
3. 回归模型¶
3.1 线性回归¶
\[
\mu = \beta_0 + \beta_1 x, \quad y \sim \text{Normal}(\mu, \sigma)
\]
3.2 鲁棒回归¶
\[
y \sim \text{Student\_t}(\mu, \sigma, \nu)
\]
3.3 多重回归¶
\[
\hat{y} = \beta_0 + \sum_{k=1}^K \beta_k x_k
\]
4. 分类模型¶
4.1 逻辑回归¶
- 核心函数:
- 逻辑函数:\(y = 1 / (1 + e^{-lin(x)})\)
- Logit函数:\(\text{logit}(x) = \log(x/(1-x))\)
4.2 Softmax回归¶
\[
\phi_k = \frac{\exp(\lambda_k)}{\sum\exp(\lambda_k)}, \quad \lambda_k = \sum\beta_{i,k}x_i + \beta_{0,k}
\]
5. 模型对比¶
特征 | 层级模型 | 线性回归 | 逻辑回归 |
---|---|---|---|
参数关系 | 层级依赖 | 独立 | 独立 |
数据共享 | 是 | 否 | 否 |
异常值处理 | 自动收缩 | 需t分布 | 需鲁棒改进 |
6. 实用技巧¶
- 数据标准化:
\[
z_x = \frac{x-\mu_x}{\sigma_x}
\]
- 超参数选择:
- 层级模型中\(K\)控制依赖强度
-
逻辑回归中\(\alpha\)控制鲁棒性
-
可视化建议:
-
绘制后验分布HDI区间
- 多分类问题展示决策边界
7. 关键结论¶
- 层级模型通过参数依赖实现数据共享
- 广义线性模型通过链接函数统一处理各类问题
- 贝叶斯方法提供完整概率分布而非点估计
- 数据标准化显著提升MCMC效率
- 鲁棒模型对异常值更稳定