admin管理员组

文章数量:1650771

sklearn 库有六大模块,分别是分类、回归、聚类、降维、模型选择和预处理preprocessing。MinMaxScaler()函数在preprocessing模块,用来实现数据的归一化,即把数据映射到 [ 0,1 ] 。

1 怎么归一化

其中是指映射的最小值和最大值,一般是0和1;,是指每列中元素的最小值和最大值,因为是对每一列做这样的归一化操作,这比较符合实际应用。

2 MinMaxScaler代码

import numpy as np
from sklearn.preprocessing import MinMaxScaler #从preprocessing库导入MinMaxScaler函数
scaler = MinMaxScaler(feature_range=(0, 1)) #数据转换的范围是[0,1],scaler代表min和max
x_1 = np.array([[3, -1, 2, 613],
                [2, 0,  0, 232],
                [0, 1, -1, 113],
                [1, 2, -3, 489]])
x_1_scaled = scaler.fit_transform(x_1)#scaler代表min和max,fit找出每列的Min和Max,将x(i,j)代入归一化公式进行transform
x_2 = np.array([[2, 1, 4, 7],
                [8, 7, 6, 6]])
x_2_scaled = scaler.transform(x_2)#每一列数据的归一化公式已确定,直接代入数据就可以。
#这里不用再次fit是因为scaler.fit_transform(x_1)已经确定了每列的归一化公式。由此可知x_2归一化数据,并不是把数据映射到 [ 0,1 ] ,只是用了和x_1一样的归一化公式。
print("矩阵1:\n",x_1)
print("归一化矩阵1:\n",x_1_scaled)
print("矩阵2:\n",x_2)
print("归一化矩阵2:\n",x_2_scaled)
#归一化矩阵1:
 [[1.         0.         1.         1.        ]
  [0.66666667 0.33333333 0.6        0.238     ]
  [0.         0.66666667 0.4        0.        ]
  [0.33333333 1.         0.         0.752     ]]
#归一化矩阵2:
 [[0.66666667 0.66666667 1.4       -0.212     ]
  [2.66666667 2.66666667 1.8       -0.214     ]]

3 数据验证

已知x_1第一列的Min和Max为0和3,映射min和max为0和1,可确定每列的归一化公式:

将第一列第一个数3代入公式,得

将第一列第二个数2代入公式,得

将第一列第三个数0代入公式,得

将第一列第四个数1代入公式,得

因此x_1_scaled的第一列应该是,可知计算结果与代码结果一致。

x_2第一列数据的归一化直接将数据代入下列归一化公式即可:

将第一列第一个数2代入公式,得

将第一列第二个数8代入公式,得

因此x_2_scaled的第一列应该是,可知计算结果与代码结果一致。

本文标签: MinMaxScalerfeaturerangesklearn