# Additive Model

Chapter 9. Additive Models, Trees, and Related Methods

根据引言,本章开始到第11章节,将介绍具体的监督学习模型。



## Outline

1. *Generalized Additive Models*
\begin{align}
g[\mu(X)] = \alpha + f_1(X_1)+\cdots+f_p(X_p)
\end{align}
其中$g[\mu] = \mu$, $logit(\mu)$, or $\log(\mu)$, 是 *link function*, 默认 $\alpha = ave (y_i)$, 也就是 $\sum_{i=1}^N f_j (x_{i,j}) = 0$。

1. *Backfitting Algorithm for Additive Models* 其实是一个循环递归收敛过程。
 ```
 - Initialize:$\hat{\alpha} = \tfrac{1}{N}\sum_1^N y_i, \hat{f}_j \equiv 0, \forall i,j. $
 - Cycle: j = 1,2,...,p,...,1,2,...,p,..., 
 ```
 \begin{align}
 \hat{f}_j \leftarrow & S_j\left[ \{ y_i - \hat{\alpha} -\sum_{k\ neq j}\hat{f}_k(x_{ik}) \}_1^N\right] \\
 \hat{f}_j \leftarrow & \hat{f}_j - \frac{1}{N}\sum_{i=1}^N \hat{f}_j(x_{ij})
 \end{align}
 上述 Cycle 里面的第二步 理论上是不需要的,因为所有的 $\hat{f}_j$ 总和为0。但实际程序运行时,会有偏差,所以需要归零。

1. *Tree-Based Models* 基本就是一个二叉树遍历所有的组合,然后每个组合上的值为常数$c_m$,
\begin{align}
f(x) = \sum_{m=1}^M c_m I(x \in R_m).
\end{align}
由于遍历所有组合会导致过拟合,所以需要减枝,于是就有了 *regression tree* 和 *classification tree*。

1. *CART* (classification and regression tree) 算法。就是上述的生成树模型的算法。 

1. *PRIM* (patient rule induction method) 算法。从所有数据出发,先捕捉一块特征值(response mean)最高的数据,然后移除该数据,重复上述操作,再次捕捉。类似与捕鱼,先捕大鱼,再捕小鱼,最后是虾米。原理上,PRIM 与 CART 类似,也是将所有数据分割,但分割的更细致,不像 CART 快刀斩乱麻,一分为二。

1. *MARS* (Maltivariate Adaptive Regression Splines) 算法,尤其适用于高维空间。定义了一个 piecewise linear 的 basis functions,
\begin{align}
\mathbf{C} = \left\{ (X_j - t)_+, (t-X_j)_+ \right\} _{t \in \{x_{1j}, x_{2j}, \cdots, x_{Nj}\},\ j=1,2,\cdots,p.}
\end{align}
MARS 可以表示为 
\begin{align}
f(X) = \beta_0 + \sum_{m=1}^M \beta_m h_m(X),
\end{align}
其中, $h_m(X) \in \mathbf{C}$.
*MARS 有点: 可以同时处理定量和定性的混合输入*.
> MARS can handle "mixed" predictors--quantitative and qualitative--in a natural way, much like CART does.

1. *HME* (Hierarchical Mixtures of Experts) 算法。把 CART 的 hard dicision 改成了 soft decision,以概率的形式。树枝叫做 Gating Network,树叶叫做 Expert Network。每层 Gating Network 有概率判别
\begin{align}
g_j(x,\gamma_j) =& \frac{e^{\gamma_j^{T}x}}{\sum_{k=1}^K e^{\gamma_k^{T}x}} , \quad j=1,2,\cdots, K \\
g_{l|j}(x,\gamma_{jl}) =& \frac{e^{\gamma_{jl}^{T}x}}{\sum_{k=1}^K e^{\gamma_{jk}^{T}x}} , \quad l=1,2,\cdots, K
\end{align}
Expert Network 可以表示为 $Y \sim \Pr(y|x,\theta_{jl})$, 其中根据 regression 或者 classification 不同,
\begin{align}
\Pr(y|x,\theta_{jl}) =& \beta_{jl}^Tx+\epsilon \\
\Pr(y=1|x,\theta_{jl}) =& \frac{1}{1+ e^{-\theta_{jl}^Tx}}.
\end{align}
最终 HME 表达模型为
\begin{align}
\Pr(y|x,\Psi) = \sum_{j=1}^Kg_j(x,\gamma_j)\sum_{l=1}^Kg_{l|j}(x,\gamma_{jl})\Pr(y|x,\theta_{jl}).
\end{align}

## 具体内容

### regression tree

定义
\begin{align}
N_m =& \#\{x_i \in R_m\} \\
\hat{c}_m =& \frac{1}{N}\sum_{x_i \in R_i} y_i, \\
Q_{m}(T) =& \frac{1}{N}\sum_{x_i \in R_i} (y_i - \hat{c}_m)^2
\end{align}
从而最小化 
\begin{align}
C_{\alpha}(T) = \sum_{m=1}^{|T|}N_m Q_m(T) + \alpha |T|
\end{align}
其中 $\alpha$ 就是可调的参数,决定树的大小。
 
### classification tree
和 regression tree 类似,需要重新定义 $Q_m(T)$。引入 class-k 在 node-m
的概率
\begin{align}
\hat{p}_{mk} = \frac{1}{N_m} \sum_{x_i \in R_m}I(y_i=k)
\end{align}
$Q_m(T)$ 可以表示为三类:
- Misclassification error (预测误差): $Q_m(T) = 1 - \hat{p}_{mk}$
- Gini index (预测方差): $Q_m(T) = \sum_{k=1}^K \hat{p}_{mk} (1- \hat{p}_{mk})$
- Cross-entropy or deviance (熵): $Q_m(T) = -\sum_{k=1}^K\hat{p}_{mk}\log \hat{p}_{mk}$