贝叶斯分析¶

贝叶斯学派还是很厉害的，能够不仅估计出最优参数，还能估计出参数的概率分布。现在AI算法其时都是只估计一个局部最优的参数权重，如果能够估计出权重的概率分布那就更厉害了（但是估计需要很大计算量）。

学习贝叶斯分析推荐的参考书籍：DBDA

以下是结合AI对贝叶斯基础内容制作的简单总结，仅供参考。

第一章：概率论和贝叶斯基础¶

1. 概率论回顾¶

1.1 概率与样本空间¶

概率：衡量随机事件发生的可能性。
样本空间：随机事件所有可能结果的集合。
例如：抛硬币的样本空间为{正面, 反面}。

1.2 概率分布¶

离散分布：样本空间为离散值。
例如：伯努利分布（Bernoulli Distribution）：

\[ p(y|\theta) = \theta^y (1-\theta)^{1-y} \]
连续分布：样本空间为连续值。
例如：正态分布（Normal Distribution）：

\[ p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]

1.3 集中趋势¶

均值（Mean）：\(E[x] = \sum p(x) x\) 或 \(E[x] = \int p(x) x \, dx\)。
众数（Mode）：概率密度最大的点。
中位数（Median）：\(P(x \leq M) = P(x \geq M) = 0.5\)。

1.4 联合概率与条件概率¶

联合概率：\(p(x, y)\) 表示两个事件同时发生的概率。
条件概率：\(p(x|y) = \frac{p(x, y)}{p(y)}\)。
独立性：若 \(p(x|y) = p(x)\)，则 \(x\) 和 \(y\) 独立。

2. 贝叶斯法则¶

2.1 贝叶斯定理¶

\[ p(\theta|D) = \frac{p(D|\theta) p(\theta)}{p(D)} \]

先验（Prior）：\(p(\theta)\)。
似然（Likelihood）：\(p(D|\theta)\)。
后验（Posterior）：\(p(\theta|D)\)。
证据（Evidence）：\(p(D) = \int p(D|\theta) p(\theta) \, d\theta\)。

2.2 例子：抗原检测¶

假设：
准确率（真阳性）为 87%。
假阳性率为 3%。
先验患病概率为 0.1%。
计算后验概率：

\[ p(\theta=1|T=1) = \frac{0.87 * 0.001}{0.87 *0.001 + 0.03 * 0.999} ≈ 0.028 \]

3. 极大似然估计（MLE）¶

3.1 定义¶

\[ \hat{\theta} = \arg\max_\theta p(D|\theta) \]

转换为对数似然：

\[ \hat{\theta} = \arg\max_\theta \log p(D|\theta) \]

3.2 例子：抛硬币¶

似然函数：

\[ L(\theta) = \theta^z (1-\theta)^{N-z} \ \]

MLE解：

\[ \hat{\theta} = \frac{z}{N} \]

4. 贝叶斯估计¶

4.1 网格近似（Grid Approximation）¶

将连续参数离散化，近似计算后验分布：

\[ p(\theta|D) \approx \frac{p(D|\theta) p(\theta)}{\sum_{\theta^*} p(D|\theta^*) p(\theta^*)} \]

4.2 样本数量对后验的影响¶

样本量越大，后验分布越集中于真实值附近。

4.3 先验对后验的影响¶

先验分布的选择会影响后验分布的形状。

5. 贝叶斯推理的难点¶

5.1 计算边缘似然¶

\[ p(D) = \int p(D|\theta) p(\theta) \, d\theta \]

解决方法：
网格近似。
数学分析（共轭先验）。
MCMC采样。
变分近似。

6. 频率学派 vs. 贝叶斯学派¶

频率学派：
概率定义为相对频率的极限。
使用抽样分布表示不确定性。
贝叶斯学派：
概率定义为信念程度。
使用后验分布表示不确定性。

第二章：贝叶斯推理¶

1. 贝叶斯推理方法：准确数学分析¶

1.1 网格近似 vs. 准确数学分析¶

网格近似：通过“求和”近似计算“积分”。
公式：

\[ p(\theta|D) \approx \frac{p(D|\theta)p(\theta)}{\sum_{\theta^*} p(D|\theta^*)p(\theta^*)} \]
准确数学分析：直接计算积分的表达式。

1.2 抛硬币的例子¶

模型（似然）¶

抛硬币结果：
正面：\(y=1\)，概率为 \(\theta\)。
反面：\(y=0\)，概率为 \(1-\theta\)。
伯努利分布：

\[ p(y|\theta) = \theta^y (1-\theta)^{1-y} \]

抛\(N\)次硬币，正面次数为\(z\)，反面次数为\(N-z\)：

\[ p(\{y_i\}|\theta) = \theta^z (1-\theta)^{N-z} \]

贝叶斯推理¶

目标：估计后验分布 \(p(\theta|\{y_i\})\)。
贝叶斯法则：

\[ p(\theta|\{y_i\}) = \frac{p(\{y_i\}|\theta) p(\theta)}{p(\{y_i\})} \]

似然：\(p(\{y_i\}|\theta)\)。
先验：\(p(\theta)\)。
证据：\(p(\{y_i\}) = \int p(\{y_i\}|\theta) p(\theta) d\theta\)。

1.3 先验设计¶

共轭先验¶

先验形式与似然一致，便于数学推导。
伯努利分布的共轭先验是Beta分布：

\[ p(\theta) = \text{Beta}(\theta|a, b) = \frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)} \]

\(B(a, b)\) 是Beta函数，用于归一化。

Beta分布的性质¶

均值：\(\mu = \frac{a}{a+b}\)。
众数：\(\omega = \frac{a-1}{a+b-2}\)（\(a>1, b>1\)）。
集中度：\(\kappa = a + b\)。

1.4 求解后验¶

后验分布：

\[ p(\theta|\{y_i\}) \propto p(\{y_i\}|\theta) p(\theta) = \theta^{z+a-1} (1-\theta)^{N-z+b-1} \]

后验为Beta分布：

\[ p(\theta|\{y_i\}) = \text{Beta}(\theta|z+a, N-z+b) \]

例子¶

先验：\(\text{Beta}(\theta|5, 5)\)。
数据：\(z=1, N=10\)。
后验：\(\text{Beta}(\theta|6, 14)\)。

1.5 后验预测¶

预测下一次抛硬币的结果：

\[ p(y_{new}=1|D) = \frac{a'}{a' + b'} \]

其中，\(a' = z + a\)，\(b' = N - z + b\)。

2. 贝叶斯推理方法：马尔科夫链蒙特卡洛近似¶

2.1 采样与MCMC¶

采样：从分布中选择离散点，近似原分布。
MCMC：通过采样大量\(\theta\)值，近似后验分布\(p(\theta|D)\)。
优势：
1. 先验可以任意指定。
2. 不需要计算\(p(D)\)的积分。

2.2 Metropolis算法¶

简化版本¶

提议新值\(\theta^*\)（左或右）。
计算接受概率：

\[ p_{\text{accept}} = \min\left(\frac{P(\theta^*)}{P(\theta_{\text{current}})}, 1\right) \]

根据接受概率决定是否转移到\(\theta^*\)。

完整算法¶

初始化\(\theta_0\)。
从提议分布\(q(\theta^*|\theta)\)采样\(\theta^*\)。
计算\(\alpha = \frac{P(\theta^*)}{P(\theta)}\)。
接受或拒绝\(\theta^*\)。

2.3 吉布斯采样¶

适用于多维参数。
每次更新一个参数，保持其他参数固定。
接受率为100%。

例子：抛两个硬币¶

条件概率：

\[ p(\theta_1|\theta_2, D) = \text{Beta}(\theta_1|z_1 + a_1, N_1 - z_1 + b_1) \]

\[ p(\theta_2|\theta_1, D) = \text{Beta}(\theta_2|z_2 + a_2, N_2 - z_2 + b_2) \]

2.4 预热阶段与有效样本数量¶

预热阶段：初始阶段采样值未收敛，需丢弃。
有效样本数量：衡量采样链的独立性。

3. 总结¶

贝叶斯推理方法¶

准确数学分析：适用于共轭先验。
网格近似：适用于低维参数。
MCMC：适用于复杂先验和高维参数。
变分近似：用优化方法近似后验。

第三章：层级模型与广义线性模型¶

1. 层级模型¶

1.1 基础概念¶

定义：模型包含多级参数，低层级参数(\(\theta\))依赖高层级参数(\(\omega\))
典型场景：
同工厂硬币的bias依赖工厂的factory bias
足球运动员点球成功率依赖位置普遍概率
医生手术成功率依赖医院普遍成功率

1.2 模型优势¶

数据共享效应：所有数据共同影响所有参数估计
参数依赖关系：
数据量少的\(\theta\)更依赖\(\omega\)
数据量多的\(\theta\)更接近自身数据

1.3 关键公式¶

\[ p(\theta,\omega|D) \propto p(D|\theta)p(\theta|\omega)p(\omega) \]

2. 广义线性模型¶

2.1 核心结构¶

\[ \mu = f(\text{lin}(x)), \quad y \sim \text{pdf}(\mu, \text{其他参数}) \]

2.2 变量类型¶

自变量：
度量值（连续变量）
类别值（离散变量）
因变量：
回归问题：度量值
分类问题：类别值

3. 回归模型¶

3.1 线性回归¶

\[ \mu = \beta_0 + \beta_1 x, \quad y \sim \text{Normal}(\mu, \sigma) \]

3.2 鲁棒回归¶

\[ y \sim \text{Student\_t}(\mu, \sigma, \nu) \]

3.3 多重回归¶

\[ \hat{y} = \beta_0 + \sum_{k=1}^K \beta_k x_k \]

4. 分类模型¶

4.1 逻辑回归¶

核心函数：
逻辑函数：\(y = 1 / (1 + e^{-lin(x)})\)
Logit函数：\(\text{logit}(x) = \log(x/(1-x))\)

4.2 Softmax回归¶

\[ \phi_k = \frac{\exp(\lambda_k)}{\sum\exp(\lambda_k)}, \quad \lambda_k = \sum\beta_{i,k}x_i + \beta_{0,k} \]

5. 模型对比¶

特征	层级模型	线性回归	逻辑回归
参数关系	层级依赖	独立	独立
数据共享	是	否	否
异常值处理	自动收缩	需t分布	需鲁棒改进

6. 实用技巧¶

数据标准化：

\[ z_x = \frac{x-\mu_x}{\sigma_x} \]

超参数选择：
层级模型中\(K\)控制依赖强度
逻辑回归中\(\alpha\)控制鲁棒性
可视化建议：
绘制后验分布HDI区间
多分类问题展示决策边界

7. 关键结论¶

层级模型通过参数依赖实现数据共享
广义线性模型通过链接函数统一处理各类问题
贝叶斯方法提供完整概率分布而非点估计
数据标准化显著提升MCMC效率
鲁棒模型对异常值更稳定