指数族分布、广义线性模型、线性回归、logistic回归

1. 线性模型

1.1. 指数族分布1.1.1. 伯努利分布

1.2. 线性回归和广义线性模型1.2.1. 线性回归1.2.2. 广义线性模型1.2.3. logistic回归(对数概率回归)1.2.4. 线性判别分析 (LDA)1.3. 多分类学习1.4. 类别不平衡问题1. 线性模型1.1. 指数族分布

指数族分布是指一种分布，其概率密度函数可以写成以下形式：

其中：

是自然参数。线性回归和logistic回归，是实数，假设；对soft ** x回归，是一个向量，假设 T(y)对于线性回归和logistic回归，有T(y)=y；对于k个类的soft ** x 是对数分配函数，在公式中起着归一化的作用，保证概率密度函数在随机变量y上面的积分是1，一旦T、a、b确定一种分布，作为参数。1.1.1. 伯努利分布

分布为：

由此可得

1.2. 线性回归和广义线性模型

给定d个属性，线性模型试图通过属性的线性组合学习预测函数，即

通常以向量的形式写成

其中。w和b学习后，可以确定模型。

1.2.1. 线性回归

给定数据集其中。线性回归试图学习的线性模型，以尽可能准确地预测实值输出标记。

离散属性：如果输入属性之间存在"序"可以通过连续化将关系转化为连续值(labelencoder) 如果没有序列关系，请使用它one-hot encoder转化

线性回归试图学习

那么，如何确定参数呢？w和b？显然，关键在于衡量。f(x)和y两者之间的差异。均方误差是回归任务中最常用的性能测量，因此可以尽量减少均方误差，即

均方误差对应欧氏距离。基于均方误差最小化的模型解决方法称为最小二乘法。在线性回归中，最小二乘法试图找到一条直线，以尽量减少所有样本到直线的欧洲距离之和。

求解w和b使最小化的过程被称为线性回归模型的最小二乘参数估计。分别对 w和b求导，求导后的公式为0，可求解w和b的参数值。

若数据集中的属性有d此时试着学习

这叫多元线性回归。

类似地，可以使用最小的二乘法w和b估计。为了方便。w和b相应的数据集以吸收入向量的形式 D最后，向量形式加上一列全为1的列。

然后将标记写成向量形式，与属性相似的形式有：

，

使上式为0可得闭式解。

如果是满秩矩阵或正定矩阵，可以解决

最终获得多元线性回归模型：

在大多数情况下，不是一个完整的矩阵，此时可以解决多个，选择哪个解决方案将由学习算法的归纳偏好决定，常见的做法是引入正则化项目。

1.2.2. 广义线性模型

线性回归可视为希望线性模型的预测值接近真实标记y。如果我们将输出标记的对数作为接近线性模型的目标，得对数线性模型：

事实上，它试图让接近y。

更一般地说，考虑单调的微函数g(·)，令

这模型称为广义线性模型，其中函数g(·)称为联系函数(link function)。

对于给定x下y以下三个假设：

，即当给定x和w随机变量y服从某个指数族的分布已知一个x，我们的目标是预测给定x下T(y)条件期望，即自然参数是输入x线性函数，即，或当是向量时1.2.3. logistic回归(对数概率回归)

对于二分类任务，输出标记，线性回归模型产生的预测值为实值，因此需要将实值转换为0/1。最理想的是使用单位阶跃函数。

然而，单位阶跃函数是不连续的，因此不能用作广义线性模型中的联系函数。因此，用单调可微、类似单位阶跃函数的对数概率函数代替：

对数概率函数是一种"sigmoid函数"。

另一方面，从指数族分布和广义线性模型出发，分类属于伯努利分布，将伯努利分布转化为指数族分布形式。由于广义线性模型的第三个假设：可以引入logistic回归的形式，这就是为什么sigmoid函数的原因之一。

将对数义线性模型公式的对数概率函数

可转化为：

若将y视为样本x作为的可能性，1-y它的反例可能性，两者的比例

叫概率，反映了x对数几率取对数作为例子的相对可能性获得对数几率。

事实上，线性回归模型的预测结果是接近真实标记的对数概率。优点： - 直接建模分类可能性，无需事先假设数据分布，避免因分布不准确而造成的问题 - 不仅可以预测类别，还可以获得类似的概率预测，这对许多使用概率辅助决策的任务非常有用- 对率函数是任何阶可导的凸函数，可以直接使用许多现有的数值优化算法进行最优解

如何确定logistic回归中的w和b？

将y如果视为类后验概率估计，则有：

显然有

因此，可以通过极大似然法来估计w和b。给定数据集 "对数似然"：

。如果再次命令，上式中的似然项可以重写为

可得到上上式的最大化，等于下式的最小化：

是一种经典的数值优化算法，具有高阶连续可导凸函数。

1.2.4. 线性判别分析 (LDA)1.3. 多分类学习

多分类问题的一般思路：采用拆解法将多个分类任务拆分为多个二分类任务。具体来说，首先拆分问题，然后对每个二分类任务进行分类。在测试过程中，集成这些分类器的预测结果，以获得最终的多分类结果。

最经典的拆分策略有三种：一对一、一对一、多对多一对一：匹配所有类别，产生多个分类器。最终的结果是通过投票产生的。也就是说，最预测的类别是最终的分类模型。一对剩余：每次以一个类的样本为例，以其他类的所有样本为例进行训练N一个分类器。如果测试中只有一个分类器被预测为正类，则相应的类别被标记为最终分类结果。如果多个分类器被预测为正类，则通常会考虑每个分类器的预测信度，并选择信度最大的类别标记作为分类结果。多对多：每次以多个类为例，以其他类为例。常用的多对多技术：纠错输出代码。1.4. 类别不平衡

指分类任务中不同类别的训练样例数量差异较大的情况。logistic回归的概率反映了正例可能性与反例可能性之比。分类时的阈值设置为0.5表明分类器认为真实和反例的可能性相同。

然而，当正反例数不同时，表示正例数，表示反例数，观测概率为。因为我们通常假设训练集是真实样本的整体无偏差采样，观测概率代表了真实概率。因此，只要分类器的预测概率高于观测概率，就应确定为例，即

因此，需要调整预测值，使

这是类别不平衡学习的基本策略---再缩放。

由于训练集是真实样本的整体假设往往不成立，因此无法根据训练集的观测概率来推出真实概率。现有技术一般有三种做法 - 使用集成学习机制将反例分为几个 ** 用于不同的学习器，所以每个学习器都欠采样，但重要的信息不会丢失。- 过采样过采样不能简单的对初始正例样本进行重复采样，否则会导致严重的过拟合。过采样的代表性算法 ** OTE额外的例子是通过插入训练集中的例子来产生的。- 在预测训练有素的分类器时，将再缩放公式嵌入其决策过程中。

上一篇：卖手工筷子... 下一篇：政策支持应...