sklearn岭回归

news/2024/7/9 10:46:42 标签: sklearn, 回归, 人工智能, python, 岭回归

文章目录

基本原理

最小二乘法的判定条件是

min ⁡ w ∥ X w − y ∥ 2 2 \min_w\Vert Xw-y\Vert_2^2 wminXwy22

其中, min ⁡ w F ( w ) \min_w F(w) minwF(w)表示 F ( w ) F(w) F(w)最小时的 w w w w w w是拟合参数, x , y x,y x,y是变量。

对于线性问题,可通过对 w w w求导,得到 F ( w ) F(w) F(w)极值处的 w w w,具体表达式为

w = ( X T X ) − 1 X T y w=(X^TX)^{-1}X^Ty w=(XTX)1XTy

但这里面有一个问题,若 X X X各分量的实际值相去甚远,会导致不同分量的权重不同,尽管 X T X X^TX XTX满秩,却存在一些接近0的特征值,使得问题陷入病态,引入较大误差。

这时可以引入一个参数 α \alpha α,令

min ⁡ w ∥ X w − y ∥ 2 2 + α ∥ w ∥ 2 2 \min_w\Vert Xw-y\Vert_2^2+\alpha\Vert w\Vert^2_2 wminXwy22+αw22

从其表达式可以看出,岭回归中,要求拟合参数 w w w的值尽可能地靠近0,这种方案可以不局限于线性拟合,也可以应用在非线性拟合中。例如,对于 y = ∣ sin ⁡ x ∣ y=\vert\sin x\vert y=sinx这样的函数,其最小值显然在 x = 0 x=0 x=0处,但若没有一个 α \alpha α这一项作为惩罚因子,那么关于 y = ∣ sin ⁡ x ∣ y=\vert\sin x\vert y=sinx的优化注定是发散的,因为 sin ⁡ x \sin x sinx是周期函数。

sklearn_28">sklearn实现

下面构造一个病态的优化问题,令 X X X 10 × 10 10\times10 10×10的矩阵,且 x i j = 1 i + j + 1 x_{ij}=\frac{1}{i+j+1} xij=i+j+11 Y Y Y为所有元素都为1的向量。由于 X X X并不满秩,所以这个线性优化问题要么无解,要么多解,是普通最小二乘法无法解决的问题

python">import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model as lm
X = 1.0 / (np.arange(1, 11) + np.arange(0, 10).reshape(-1,1))
y = np.ones(10)

lso = lm.LinearRegression()
lso.fit(X,y)
print(lso.coef_)
# [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]

但在岭回归中,加入了惩罚因子,使得所有参数在拟合过程中都尽可能地小,具体实现如下

python">alphas = np.logspace(-10, -2, 200)
coefs = []
for a in alphas:
    ridge = lm.Ridge(alpha=a, fit_intercept=False)
    ridge.fit(X, y)
    coefs.append(ridge.coef_)

ax = plt.subplot()

ax.plot(alphas, coefs)
ax.set_xscale("log")
ax.set_xlim(ax.get_xlim()[::-1])  # reverse axis
plt.xlabel("alpha")
plt.ylabel("weights")
plt.show()

结果如图所示

在这里插入图片描述

随着 α \alpha α逐渐变小,拟合参数之间的差异也逐渐增大,当 α = 0.01 \alpha=0.01 α=0.01时,拟合参数为

python">>>> print(coefs[-1])
[-1.15365551 -0.06380733  0.82265094  1.33384561  1.62104261  
1.77805326 1.85752347  1.88963634  1.89230434  1.87650476]

而当 α = 0.1 \alpha=0.1 α=0.1时,其拟合参数为

python">>>> print(coefs[0])
[2.64506216  -27.60371349    7.99290855  133.67544639   18.04324721
-123.85503932 -175.62007046 -113.78633324   45.15379398  274.0230348 ]

http://www.niftyadmin.cn/n/5323145.html

相关文章

餐饮客户满意度调查内容

本文由群狼调研(长沙消费者满意度调查)出品,欢迎转载,请注明出处。餐饮客户满意度调查的指标设计是确保调查能够准确衡量和评估不同方面的客户满意度的关键步骤。以下是一些常用的餐饮客户满意度调查指标和建议: 1.食品…

Laravel中的lockForUpdate悲观锁

lockForUpdate 是悲观锁,测试就不写了 注意的事项 lockForUpdate 必须在事务中lockForUpdate 被阻塞的查询必须是同样添加了lockForUpdate的语句查询语句走索引,则使用行锁,否则使用表锁 现在举例说明第一项和第二项 开启事务并添加锁 pub…

Rational Architect 安装提示:插入标注为IBM的磁盘集的第n张磁盘 未能验证位置的介质

这个问题在网上没有搜到 插入标注为IBm的磁盘集的第n张磁盘,选择目录, 应该选择RSP解压以后对应的disk1文件夹就可以正常安装,如果选择其他路径会自动卸载相当于白安

【复现】网康科技-防火墙存在RCE漏洞_17

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 网康下一代防火墙(NGFW)是一款可以全面应对应用层威胁的高性能防火墙。通过深入洞察网络流量中的用户、应用和内容,并…

大学期末考前复习卷(上)

第一题: 泰勒展开式求sin(x) 【问题描述】 已知sin(x)的泰勒展开式为: sin(x) x/1! - x^3/3! x^5/5! - x^7/7! …… 当某一项的绝对值小于ξ时,停止计算。 输入x及ξ的值,输出sin(x)的值,小数点后保留5位小数。…

metartc5_jz源码阅读-p2p通过stun服务器进行通信

1. YangIpc.c/yang_create_ipc 需要设置stun服务器的ip地址和端口号 设置iceCandidateType为2,表示走stun,即向stun服务器发起请求获取本机的公网ip地址。 //设置iceServerIP和端口号,设置iceCandidate类型。 strcpy(session->avinfo.rtc…

线性代数——行列式按行(列)展开

目录 一、余子式:将行列式某元素所在行和列的元素全去掉 剩余部分所构成的行列式,称为该元素的余子式 二、代数余子式 三、行列式等于它的任一行(列)的各元素与对应代数余子式乘积之和 四、行列式某行元素(列&…

【JavaWeb后端开发-第六章(1)】SpringBootWeb案例

文章目录 前言1. 准备工作1.1. 需求&环境搭建1.1.1. 需求说明1.1.2. 环境搭建 1.2. 开发规范1.2.1. 开发规范-REST(Restful)1.2.2. 开发规范-统一响应结果1.2.3. 开发流程 2. 部门管理2.1. 查询部门2.1.1. 原型和需求2.1.2. 接口文档2.1.3. 思路分析2.1.4. 功能开发2.1.5. …