预处理之特征编码方法总结

编程入门 行业动态 更新时间:2024-10-21 15:32:15

预处理之<a href=https://www.elefans.com/category/jswz/34/1769701.html style=特征编码方法总结"/>

预处理之特征编码方法总结

(1)one-hot编码:
独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
已知三个feature,三个feature分别取值如下:
feature1=[“male”, “female”]
feature2=[“from Europe”, “from US”, “from Asia”]
feature3=[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]
one-hot编码后:
feature1=[01,10]
feature2=[001,010,100]
feature3=[0001,0010,0100,1000]
所以,对于前边样本[“male”,“from Asia”, “uses Chrome”],经过独热编码后,它应该为:
[01,00, 000,000,100, 0000,0010,0000,0000]

(2)sklearn中的DictVectorizer

from sklearn.feature_extraction import DictVectorizer  
measurements = [  {'city': 'Dubai', 'temperature': 33.},  {'city': 'London', 'temperature': 12.},  {'city': 'San Fransisco', 'temperature': 18.},  ]  vec = DictVectorizer()   
print(vec.fit_transform(measurements).toarray())
""" 
输出: 
array([[  1.,   0.,   0.,  33.], [  0.,   1.,   0.,  12.], [  0.,   0.,   1.,  18.]]) 
"""  
print(vec.get_feature_names())
""" 
输出: 
['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature'] 
"""  

(3)Python机器学习库SKLearn:数据集转换之特征提取
(4)大规模特征编码问题和工程实践
(5)特征抽取:特征字典向量化和特征哈希变换

更多推荐

预处理之特征编码方法总结

本文发布于:2024-02-26 17:52:50,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1703370.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:特征   方法

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!