8.2逻辑回归分析

 

逻辑回归分析 

 

[P1] 上一章介绍的线性回归例子中各区的 GDP 数值是连续的,但是,现实生活中有很多问题的因变量只有两种取值,发生或者不发生,出现或者不出现等。这样的问题是一个二分类问题,我们使用数字编号 0 和 1 加以区分,这种两极分化的问题如果用前面的线性回归就无法有效分析,所以,我们这里介绍一种新的分析方式,逻辑回归分析。

 

[P2] 这一章节,我们分 5 部分来讲解,首先通过例子给大家讲解逻辑回归的基本原理。在了解原理的基础之上,我们介绍更加通用的逻辑回归数学模型。之后,我们会介绍逻辑回归一般用于什么领域。逻辑回归的公式和线性回归存在很多相似之处,我们会给大家介绍清楚他们之间有什么关系。最后,说明逻辑回归的优点和缺点有哪些。

 

[P3] 我们先从最简单的情况出发,就是只有一个自变量 x。我们考虑一个银行信贷风险评估数据。这个数据集有 2448 个用户,其中第 1 列是用户的年龄,第 2 列是是否出现了信用贷款违约——违约记为 1,未违约记为 0。信贷风险和年龄之间的关系如图中的黑点所示,红色斜线是基于最小二乘法的拟合结果。我们直接使用线性回归模型进行建模,数据拟合的效果如图中的实线所示。这种 匪夷所思 的拟合效果当然不是我们想要的。因为适用于拟合连续数值的模型并不适合 0 , 1 离散取值。 为了解决这个问题,我们需要换一种思维,用发生概率替换粗暴的 0 和 1。

 

[P4] 如果用 c 表示信贷风险类别,c=1 是有违约,c=0 是没有违约。我们引入一个信贷违约概率 t,如果 t >0.5,则设定 c=1,如果 t <0.5,则设定 c=0,如果 t 恰好等于 0.5 ,则可以取 c=1 或 c=0。假设线性回归方程的预测值为 Y 等于 W1 乘以 X 加上 W0 。如果 Y的值大于等于0,则对应 c=1,反之 c=0。于是,当 y>0 时要保证 t >0.5,反之亦然。这种关系最简单的函数形式可以是阶跃函数。如图公式所示,Y 大于等于 0 的时候,t 等于 1,Y 小于 0 的时候,T 等于 0 。

 

[P5] 拟合这样的分段函数不是线性回归模型所擅。一个很好的连续替代函数就是的对数几率函数。大家可以看课件中的函数公式。注意看课件中的函数图形,红色的线条是阶跃函数,他的特点是阶梯跳跃,要么是 0 要么是 1 ,没有中间过渡状态,所以并不适合我们的数值预估。另外一条黑色的曲线,就是对数几率函数,它是一条平滑的过渡曲线。我们采用对数几率函数来作为我们的拟合函数,于是我们得到了新的公式。这就是我们要介绍的逻辑回归。

 

[P6] 我们把前面的公式做一下变形,得到新的公式样子,见课件上的公式。其中,t 是信贷违约发生的概率,1 减 t 是不违约的概率,就是 事件发生 与 事件不发生 的比例,也就是说,公式左边实际上是一个对数几率函数。根据公式,一个简单直观的想法就是通过因变量的变换直接转化为一个线性回归问题来处理。比如,把 x 看成年龄,我们只需计算对应某个 x 的所有信贷者出现违约的数目除以没有出现违约的数目,再取对数,就得到对应的因变量值。

 

[P7] 下面给出一个示例:2448 个人信贷的风险记录,其中 0 表示没有违约,1 表示有违约,这些人的年龄跨度是 20~57 岁。我们先将 2448 人按照不同年龄分成 38 个组 如表所示 ,其中 x 代表自变量 年龄  ,n 是人数,t 是信贷违约发生的概率,其中 t 撇 是之前公式的左半部分。

 

[P8] 这里是数据表的内容,表的数据有点多,大家后续可以仔细查看。

 

[P9] 对表中的数据直接进行线性回归拟合,可以得到线性拟合的结果,如公式所示,t 撇 等于 3.0453305 乘以 x 减去 0.1024469 。对应的数据效果图如课件中所示。所以,我们通过一个对数函数把拟合变为了线性的效果,这就是逻辑回归的原理。

 

[P10] 逻辑回归用于分析二分类或有次序的因变量和自变量之间的关系。

当因变量是二分类,如 1 或者 0 时,称之为二分逻辑回归,自变量X1、X2、一直到 Xk可以是分类变量或连续变量等

 

[P11] 前面提到信贷风险和年龄之间的例子中,影响预测因变量 t 的属性只有年龄,这时我们可以方便地通过因变量变换得到最终的直线方程。然而在实际应用场景中,影响因变量取值的自变量可能有 s >1个,所以每个数据点都是 s+1 维的。此处, Ci 是第 i 个数据点的因变量取值,一般只有 0 或 1 两个值,如课件中所示。一个包含众多影响因素的逻辑回归方程可以表示为对数函数形式,如课件中的公式。其中,[插图]是在 N 个数据点中当各属性的值恰为 [插图]的情况下二分类变量 c=1 的概率,其中需要确定的参数 [插图]也有 s+1 个。

 

[P12] 利用线性回归的矩阵形式,我们可以将公式进行简化,得到右侧简化的公式。接下来,通过前面介绍的从 t 到 t 撇 的因变量变换,就可以把公式转化成关于影响因素的线性函数,第二行公式最右侧的 t 撇 等于 X 乘以 w 。再根据前面的知识,可以得到逻辑回归基于最小二乘法下的一般解,见课件最后公式。

 

[P13] 逻辑回归的应用:逻辑回归在流行病学中应用较多,常用于探索某种疾病的危险因素,根据危险因素预测某种疾

病发生的概率。所以逻辑回归是以概率分析为基础的。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为 是 或 否 ,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过逻辑回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时,该权值可以根据危险因素预测一个人患癌症的可能性。

 

[P14] 逻辑回归和线性回归的关系。逻辑回归本质是一种广义线性回归,因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 wx+b,其中 w 和 b 是待求参数,其区别在于他们的因变量不同,多重线性回归直接将 wx+b 作为因变量,即 y =wx+b ,而逻辑回归则通过函数 fx 将 wx+b 对应一个隐状态 p,p =fx(wx+b), 然后根据 p 与 1-p 的大小决定因变量的值。如果 fx 是逻辑函数,就是逻辑回归,如果 fx 是多项式函数就是多项式线性回归。所以,逻辑回归 和 多项式回归 最大的区别就在于应用的函数是哪种。

 

[P15] 逻辑回归的优缺点。逻辑回归有它适用的领域,在什么时候适用,什么时候不适用,取决于场景能不能发挥逻辑回归的优点,或者,场景导致缺点。逻辑回归的优点,第一,预测结果是界于0和1之间的概率,第二,可以适用于连续性和类别性自变量,第三,容易使用和解释。逻辑回归的缺点,第一,当特征空间很大时,逻辑回归的性能不是很好,第二,容易欠拟合,一般准确度不太高,第三,只能处理两分类问题,且必须线性可分,第四,预测结果呈 S 型,因此从对数向概率转化的过程是非线性的,在两端随着对数值的变化,概率变化很小,边际值太小,斜率太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

 

[P16] 最终总结一下,我们这章主要介绍的是逻辑回归分析。线性回归面向的是连续值的属性,但是对于一些属性值是离散的,甚至是二元值,线性回归就不再适用了,于是我们需要把线性函数改为对数函数,从而得到新的拟合曲线,得到这个对数函数拟合曲线的过程,就是逻辑回归分析。

Last modified: Thursday, 20 April 2023, 10:31 AM