1. 线性模型
指数族分布是指一种分布,其概率密度函数可以写成以下形式:
其中:
分布为:
由此可得
给定d个属性 ,线性模型试图通过属性的线性组合学习预测函数,即
通常以向量的形式写成
其中 。w和b学习后,可以确定模型。
给定数据集 其中 。线性回归试图学习的线性模型,以尽可能准确地预测实值输出标记。
线性回归试图学习
那么,如何确定参数呢?w和b?显然,关键在于衡量。f(x)和y两者之间的差异。均方误差是回归任务中最常用的性能测量,因此可以尽量减少均方误差,即
均方误差对应欧氏距离。基于均方误差最小化的模型解决方法称为 最小二乘法 。在线性回归中,最小二乘法试图找到一条直线,以尽量减少所有样本到直线的欧洲距离之和。
求解w和b使 最小化的过程被称为线性回归模型的最小二乘参数估计。分别对 w和b求导,求导后的公式为0,可求解w和b的参数值。
若数据集中的属性有d此时试着学习
这叫多元线性回归。
类似地,可以使用最小的二乘法w和b估计。为了方便。w和b相应的数据集以吸收入向量的形式 D最后,向量形式加上一列全为1的列。
然后将标记写成向量形式 ,与属性相似的形式有:
,
使上式为0可得 闭式解。
如果 是满秩矩阵或正定矩阵,可以解决
最终获得多元线性回归模型:
在大多数情况下, 不是一个完整的矩阵,此时可以解决多个 ,选择哪个解决方案将由学习算法的归纳偏好决定,常见的做法是引入正则化项目。
线性回归可视为希望线性模型的预测值接近真实标记y。如果我们将输出标记的对数作为接近线性模型的目标,得对数线性模型:
事实上,它试图让 接近y。
更一般地说,考虑单调的微函数g(·),令
这模型称为广义线性模型,其中函数g(·)称为联系函数(link function)。
对于给定x下y以下三个假设:
对于二分类任务,输出标记 ,线性回归模型产生的预测值为实值,因此需要将实值转换为0/1。最理想的是使用单位阶跃函数。
然而,单位阶跃函数是不连续的,因此不能用作广义线性模型中的联系函数。因此,用单调可微、类似单位阶跃函数的对数概率函数代替:
对数概率函数是一种"sigmoid函数"。
将对数义线性模型公式的对数概率函数
可转化为:
若将y视为样本x作为的可能性,1-y它的反例可能性,两者的比例
叫概率,反映了x对数几率取对数作为例子的相对可能性获得对数几率。
如何确定logistic回归中的w和b?
将y如果视为类后验概率估计,则有:
显然有
因此,可以通过极大似然法来估计w和b。给定数据集 "对数似然":
。如果再次命令 ,上式中的似然项可以重写为
可得到上上式的最大化,等于下式的最小化:
是一种经典的数值优化算法,具有高阶连续可导凸函数。
多分类问题的一般思路:采用拆解法将多个分类任务拆分为多个二分类任务。具体来说,首先拆分问题,然后对每个二分类任务进行分类。在测试过程中,集成这些分类器的预测结果,以获得最终的多分类结果。
指分类任务中不同类别的训练样例数量差异较大的情况。logistic回归的概率 反映了正例可能性与反例可能性之比。分类时的阈值设置为0.5表明分类器认为真实和反例的可能性相同。
然而,当正反例数不同时, 表示正例数, 表示反例数,观测概率为 。因为我们通常假设训练集是真实样本的整体无偏差采样,观测概率代表了真实概率。因此,只要分类器的预测概率高于观测概率,就应确定为例,即
因此,需要调整预测值,使
这是类别不平衡学习的基本策略---再缩放。
由于训练集是真实样本的整体假设往往不成立,因此无法根据训练集的观测概率来推出真实概率。现有技术一般有三种做法 - 使用集成学习机制将反例分为几个 ** 用于不同的学习器,所以每个学习器都欠采样,但重要的信息不会丢失。- 过采样 过采样不能简单的对初始正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法 ** OTE额外的例子是通过插入训练集中的例子来产生的。- 在预测训练有素的分类器时,将再缩放公式嵌入其决策过程中。
扫码咨询与免费使用
扫码免费用
申请免费使用
在线咨询