机器学习之特征工程(2)特征预处理

news/2024/7/9 9:24:52 标签: sklearn, python

特征预处理

将特征数据转化为更加适合算法模型的特征数据的过程。

内容:

  • 归一化
  • 标准化

API sklearn.preprocessing

归一化

将数值映射到区间[0,1]

  • 缺点

    • 鲁棒性较差,容易受异常值的影响,只适合传统的精确小数据场景
  • 计算公式

x ′ = x − m i n m a x − m i n x'=\frac{x-min}{max-min} x=maxminxmin

  • API

    python">sklearn.preprocessing.MinMaxScaler
    

代码示例

python">from sklearn.preprocessing import MinMaxScaler

def minMaxScalerDemo():
    # feature_range是映射到的区间
    transfer = MinMaxScaler(feature_range是映射到的区间=(0,1))
    data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
    res = transfer.fit_transform(data)
    print(res)

if __name__ == '__main__':
    minMaxScalerDemo()

输出

[[0.   0.  ]
 [0.25 0.25]
 [0.5  0.5 ]
 [1.   1.  ]]

标准化

将数据变换到均值为0,标准差为1的范围内
x ′ = x − m e a n σ x'=\frac{x-mean}{\sigma} x=σxmean

  • 少量异常值对均值和标准差影响不大

代码示例

python">from sklearn.preprocessing import StandardScaler

def standardScalerDemo():
    transfer = StandardScaler()
    data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18], [10, 5]]
    # transfer.fit(data)
    res = transfer.fit_transform(data)
    print(res)

if __name__ == '__main__':
    standardScalerDemo()

http://www.niftyadmin.cn/n/17422.html

相关文章

【图像处理】图像拼接原理介绍

问题 图像拼接是图像处理的基础之一,虽然自己并没有直接做图像拼接方面的研究,但在面试中却多次被问到这方面的内容,可见这个知识点还是很重要的。事实上,很多场景都会用到图像拼接的知识,例如运动检测与跟踪、游戏画…

12个python超强学习网站

一、python学习网站 1 CSDN 地址: CSDN学院 特点:从免费视频到入门项目,从入门到进阶,学习视频应有尽有,还有Python学习社区,良好的学习和沟通氛围! 2 Python123 地址:python123…

Tomcat安装配置全解

👌 棒棒有言:也许我一直照着别人的方向飞,可是这次,我想要用我的方式飞翔一次!人生,既要淡,又要有味。凡事不必太在意,一切随缘,缘深多聚聚,缘浅随它去。凡事…

DSP篇--C6701功能调试系列之 UART串口测试

目录 1、原理 2、测试 调试的前期准备可以参考前面的博文:DSP篇--C6701功能调试系列之前期准备_nanke_yh的博客-CSDN博客 UART串口收发数据存在两种模式:通常的串口模式(McBSP in Serial Port Mode)和GPIO模式(McBS…

JavaScript-BOM

💖通过看视频教程和红宝书浅浅的写下一些关于BOM的笔记 红宝书知识系统全面,精炼。大概是因为太干货了,涉及的知识点太多,所以我选择看着简单的视频教程,同时打开红宝书。笔记的内容以红宝书为基准。 window对象 BOM的…

利用 ALV 实现增删改查系列之一:让 ALV 报表进入可编辑状态试读版

在 CSDN 和我的知识星球里有朋友向我提出同样的问题,询问如何在 ALV 里实现增删改查操作。 虽然需求只有一句话,但是这个需求背后涉及到的知识点不少,因此笔者会通过几篇文章的篇幅,来介绍这个需求的详细实现步骤。 本文先解决第…

【Python实验】面向对象程序设计

目录 一、实验目的 二、实验重点与难点 三、实验内容 实验内容1 已知下面的向量类如下所示,请增加内积的功能。 实验内容2 设计自定义栈类,模拟入栈、出栈、判断栈是否为空、是否已满以及改变栈大小等操作,其具体如下所示, 要…

每天记录学习的新知识:UUID

UUIDUUIDUUID 格式标准格式Java 适配UUID转换参考地址UUID UUID 是指(Universally Unique Identifier)通用唯一识别码 UUID 格式 1个UUID是1个16字节(128位)的数字; 为了方便阅读,通常将UUID表示成如下…