指数族分布、广义线性模型、线性回归、logistic回归

1. 线性模型

1.1. 指数族分布1.1.1. 伯努利分布

1.2. 线性回归和广义线性模型1.2.1. 线性回归1.2.2. 广义线性模型1.2.3. logistic回归(对数概率回归)1.2.4. 线性判别分析 (LDA)1.3. 多分类学习1.4. 类别不平衡问题1. 线性模型1.1. 指数族分布

指数族分布是指一种分布,其概率密度函数可以写成以下形式:

   

其中:

   是自然参数。线性回归和logistic回归, 是实数,假设 ; 对soft ** x回归, 是一个向量,假设 T(y)对于线性回归和logistic回归,有T(y)=y;对于k个类的soft ** x 是对数分配函数, 在公式中起着归一化的作用,保证概率密度函数在随机变量y上面的积分是1, 一旦T、a、b确定一种分布, 作为参数。1.1.1. 伯努利分布

分布为:

   

由此可得

   

1.2. 线性回归和广义线性模型

给定d个属性 ,线性模型试图通过属性的线性组合学习预测函数,即

   

   通常以向量的形式写成

   

其中 。w和b学习后,可以确定模型。

1.2.1. 线性回归

给定数据集 其中 。线性回归试图学习的线性模型,以尽可能准确地预测实值输出标记。

   离散属性:如果输入属性之间存在"序"可以通过连续化将关系转化为连续值(labelencoder) 如果没有序列关系,请使用它one-hot encoder转化

线性回归试图学习

   

那么,如何确定参数呢?w和b?显然,关键在于衡量。f(x)和y两者之间的差异。均方误差是回归任务中最常用的性能测量,因此可以尽量减少均方误差,即

   

均方误差对应欧氏距离。基于均方误差最小化的模型解决方法称为 最小二乘法 。在线性回归中,最小二乘法试图找到一条直线,以尽量减少所有样本到直线的欧洲距离之和。

求解w和b使 最小化的过程被称为线性回归模型的最小二乘参数估计。分别对 w和b求导,求导后的公式为0,可求解w和b的参数值。

若数据集中的属性有d此时试着学习

   

   这叫多元线性回归。

类似地,可以使用最小的二乘法w和b估计。为了方便。w和b相应的数据集以吸收入向量的形式 D最后,向量形式加上一列全为1的列。

然后将标记写成向量形式 ,与属性相似的形式有:

   

   

   使上式为0可得 闭式解。

如果 是满秩矩阵或正定矩阵,可以解决

   

最终获得多元线性回归模型:

   

在大多数情况下, 不是一个完整的矩阵,此时可以解决多个 ,选择哪个解决方案将由学习算法的归纳偏好决定,常见的做法是引入正则化项目。

1.2.2. 广义线性模型

线性回归可视为希望线性模型的预测值接近真实标记y。如果我们将输出标记的对数作为接近线性模型的目标,得对数线性模型:

   

事实上,它试图让 接近y。

更一般地说,考虑单调的微函数g(·),令

   

这模型称为广义线性模型,其中函数g(·)称为联系函数(link function)。

对于给定x下y以下三个假设:

           ,即当给定x和w随机变量y服从某个指数族的分布已知一个x,我们的目标是预测给定x下T(y)条件期望,即 自然参数 是输入x线性函数,即 ,或当 是向量时1.2.3. logistic回归(对数概率回归)

对于二分类任务,输出标记 ,线性回归模型产生的预测值为实值,因此需要将实值转换为0/1。最理想的是使用单位阶跃函数。

然而,单位阶跃函数是不连续的,因此不能用作广义线性模型中的联系函数。因此,用单调可微、类似单位阶跃函数的对数概率函数代替:

   

对数概率函数是一种"sigmoid函数"。

   另一方面,从指数族分布和广义线性模型出发,分类属于伯努利分布,将伯努利分布转化为指数族分布形式。 由于广义线性模型的第三个假设: 可以引入logistic回归的形式,这就是为什么sigmoid函数的原因之一。

将对数义线性模型公式的对数概率函数

   

   可转化为:

   

若将y视为样本x作为的可能性,1-y它的反例可能性,两者的比例

   

   叫概率,反映了x对数几率取对数作为例子的相对可能性获得对数几率。

   事实上,线性回归模型的预测结果是接近真实标记的对数概率。优点: - 直接建模分类可能性,无需事先假设数据分布,避免因分布不准确而造成的问题 - 不仅可以预测类别,还可以获得类似的概率预测,这对许多使用概率辅助决策的任务非常有用- 对率函数是任何阶可导的凸函数,可以直接使用许多现有的数值优化算法进行最优解

如何确定logistic回归中的w和b?

将y如果视为类后验概率估计,则有:

   

   显然有

   

因此,可以通过极大似然法来估计w和b。给定数据集 "对数似然":

   

   。如果再次命令 ,上式中的似然项可以重写为

可得到上上式的最大化,等于下式的最小化:

   

   是一种经典的数值优化算法,具有高阶连续可导凸函数。

1.2.4. 线性判别分析 (LDA)1.3. 多分类学习

多分类问题的一般思路:采用拆解法将多个分类任务拆分为多个二分类任务。具体来说,首先拆分问题,然后对每个二分类任务进行分类。在测试过程中,集成这些分类器的预测结果,以获得最终的多分类结果。

   最经典的拆分策略有三种:一对一、一对一、多对多 一对一:匹配所有类别,产生多个分类器。最终的结果是通过投票产生的。也就是说,最预测的类别是最终的分类模型。一对剩余:每次以一个类的样本为例,以其他类的所有样本为例进行训练N一个分类器。如果测试中只有一个分类器被预测为正类,则相应的类别被标记为最终分类结果。如果多个分类器被预测为正类,则通常会考虑每个分类器的预测信度,并选择信度最大的类别标记作为分类结果。多对多:每次以多个类为例,以其他类为例。常用的多对多技术:纠错输出代码。1.4. 类别不平衡

指分类任务中不同类别的训练样例数量差异较大的情况。logistic回归的概率 反映了正例可能性与反例可能性之比。分类时的阈值设置为0.5表明分类器认为真实和反例的可能性相同。

然而,当正反例数不同时, 表示正例数, 表示反例数,观测概率为 。因为我们通常假设训练集是真实样本的整体无偏差采样,观测概率代表了真实概率。因此,只要分类器的预测概率高于观测概率,就应确定为例,即

   

   因此,需要调整预测值,使

   

   这是类别不平衡学习的基本策略---再缩放。

由于训练集是真实样本的整体假设往往不成立,因此无法根据训练集的观测概率来推出真实概率。现有技术一般有三种做法 - 使用集成学习机制将反例分为几个 ** 用于不同的学习器,所以每个学习器都欠采样,但重要的信息不会丢失。- 过采样 过采样不能简单的对初始正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法 ** OTE额外的例子是通过插入训练集中的例子来产生的。- 在预测训练有素的分类器时,将再缩放公式嵌入其决策过程中。

扫码免费用

源码支持二开

申请免费使用

在线咨询