浅谈在实际工程中关于特征选择的一些心得体会

编程入门行业动态更新时间:2024-10-27 22:28:00

浅谈在实际工程中关于特征选择的一些<a href=https://www.elefans.com/category/jswz/34/1747755.html style= 心得体会"/>

浅谈在实际工程中关于特征选择的一些心得体会

- 关于特征选择方法的总结
- 多级特征选择方法
- 综合特征打分方法

关于特征选择方法的总结

原始特征数据集经过评价函数（过滤法、封装法、嵌入法）直接进行筛选；
原始特征数据集包含有2的N次方个特征子集（N为特征向量种类），通过合适的算法得到最优或者次优的数据集子集，转化为最优解问题或次优解问题；
多级特征选择方法，通过设置第一级、第二级的方法对原始特征数据集进行多次处理；
综合特征打分方法，利用评价函数（Pearson 相关系数、距离相关系数、随机森林等）对特征变量分别进行打分，并进而计算其总得分，以尽量减少数据和单一特征选择方法引起的问题，进而改善特征选择的效果。

目前，在博主所研究的工程中上述所总结的4种常见方法都已经得到了较好的应用，并取得了不错的结果。对于较为简单的1、2两种方式不再进行赘述，主要围绕3、4的方法进行阐述。同时，上述两种工程应用思路已成功申请软著。

多级特征选择方法

由于所涉及的原始特征数据集为前端设备所采集的小样本数据，因此在这里不再提供数据集，仅提供核心代码。

1. 第一级特征选择方法
在第一级的特征选择方法中，主要采用遗传算法随机滤除含有异常值、无用值较多的特征向量对原始数据进行预处理。在一开始的探索尝试中，也有用过滤法、封装法等作为第一级选择方法使用，但对于本工程而言其应用效果不太理想，为了提供多种思路供大家探索，这里放了多种已经验证过的第一级特征选择方法。

遗传算法作为第一级特征选择方法：

from _csv import reader
from sklearn.datasets import make_classification
from sklearn import linear_model
from feature_selection_ga import FeatureSelectionGA
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_scoreclass CustomFitnessFunctionClass:def __init__(self, n_total_features, n_splits, alpha, *args, **kwargs):"""Parameters-----------n_total_features :intTotal number of features N_t.n_splits :int, default = 5Number of splits for cvalpha :float, default = 0.01Tradeoff between the classifier performance P and size offeature subset N_f with respect to the total number of featuresN_t.verbose: 0 or 1"""self.n_splits = n_splitsself.alpha = alphaself.n_total_features = n_total_featuresdef calculate_fitness(self, model, x, y):alpha = self.alphatotal_features &

更多推荐

浅谈在实际工程中关于特征选择的一些心得体会

本文发布于:2024-02-25 07:10:31，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1698197.html