心得体会"/>
浅谈在实际工程中关于特征选择的一些心得体会
浅谈在实际工程中关于特征选择的一些心得体会
- 关于特征选择方法的总结
- 多级特征选择方法
- 综合特征打分方法
关于特征选择方法的总结
- 原始特征数据集经过评价函数(过滤法、封装法、嵌入法)直接进行筛选;
- 原始特征数据集包含有2的N次方个特征子集(N为特征向量种类),通过合适的算法得到最优或者次优的数据集子集,转化为最优解问题或次优解问题;
- 多级特征选择方法,通过设置第一级、第二级的方法对原始特征数据集进行多次处理;
- 综合特征打分方法,利用评价函数(Pearson 相关系数、距离相关系数、随机森林等)对特征变量分别进行打分,并进而计算其总得分,以尽量减少数据和单一特征选择方法引起的问题,进而改善特征选择的效果。
目前,在博主所研究的工程中上述所总结的4种常见方法都已经得到了较好的应用,并取得了不错的结果。对于较为简单的1、2两种方式不再进行赘述,主要围绕3、4的方法进行阐述。同时,上述两种工程应用思路已成功申请软著。
多级特征选择方法
由于所涉及的原始特征数据集为前端设备所采集的小样本数据,因此在这里不再提供数据集,仅提供核心代码。
1. 第一级特征选择方法
在第一级的特征选择方法中,主要采用遗传算法随机滤除含有异常值、无用值较多的特征向量对原始数据进行预处理。在一开始的探索尝试中,也有用过滤法、封装法等作为第一级选择方法使用,但对于本工程而言其应用效果不太理想,为了提供多种思路供大家探索,这里放了多种已经验证过的第一级特征选择方法。
遗传算法作为第一级特征选择方法:
from _csv import reader
from sklearn.datasets import make_classification
from sklearn import linear_model
from feature_selection_ga import FeatureSelectionGA
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_scoreclass CustomFitnessFunctionClass:def __init__(self, n_total_features, n_splits, alpha, *args, **kwargs):"""Parameters-----------n_total_features :intTotal number of features N_t.n_splits :int, default = 5Number of splits for cvalpha :float, default = 0.01Tradeoff between the classifier performance P and size offeature subset N_f with respect to the total number of featuresN_t.verbose: 0 or 1"""self.n_splits = n_splitsself.alpha = alphaself.n_total_features = n_total_featuresdef calculate_fitness(self, model, x, y):alpha = self.alphatotal_features &
更多推荐
浅谈在实际工程中关于特征选择的一些心得体会
发布评论