浅谈在实际工程中关于特征选择的一些心得体会

编程入门 行业动态 更新时间:2024-10-27 22:28:00

浅谈在实际工程中关于特征选择的一些<a href=https://www.elefans.com/category/jswz/34/1747755.html style=心得体会"/>

浅谈在实际工程中关于特征选择的一些心得体会

浅谈在实际工程中关于特征选择的一些心得体会

    • 关于特征选择方法的总结
    • 多级特征选择方法
    • 综合特征打分方法

关于特征选择方法的总结

  1. 原始特征数据集经过评价函数(过滤法、封装法、嵌入法)直接进行筛选;
  2. 原始特征数据集包含有2的N次方个特征子集(N为特征向量种类),通过合适的算法得到最优或者次优的数据集子集,转化为最优解问题或次优解问题;
  3. 多级特征选择方法,通过设置第一级、第二级的方法对原始特征数据集进行多次处理;
  4. 综合特征打分方法,利用评价函数(Pearson 相关系数、距离相关系数、随机森林等)对特征变量分别进行打分,并进而计算其总得分,以尽量减少数据和单一特征选择方法引起的问题,进而改善特征选择的效果。

目前,在博主所研究的工程中上述所总结的4种常见方法都已经得到了较好的应用,并取得了不错的结果。对于较为简单的1、2两种方式不再进行赘述,主要围绕3、4的方法进行阐述。同时,上述两种工程应用思路已成功申请软著。

多级特征选择方法

由于所涉及的原始特征数据集为前端设备所采集的小样本数据,因此在这里不再提供数据集,仅提供核心代码。

1. 第一级特征选择方法
在第一级的特征选择方法中,主要采用遗传算法随机滤除含有异常值、无用值较多的特征向量对原始数据进行预处理。在一开始的探索尝试中,也有用过滤法、封装法等作为第一级选择方法使用,但对于本工程而言其应用效果不太理想,为了提供多种思路供大家探索,这里放了多种已经验证过的第一级特征选择方法。

遗传算法作为第一级特征选择方法:

from _csv import reader
from sklearn.datasets import make_classification
from sklearn import linear_model
from feature_selection_ga import FeatureSelectionGA
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_scoreclass CustomFitnessFunctionClass:def __init__(self, n_total_features, n_splits, alpha, *args, **kwargs):"""Parameters-----------n_total_features :intTotal number of features N_t.n_splits :int, default = 5Number of splits for cvalpha :float, default = 0.01Tradeoff between the classifier performance P and size offeature subset N_f with respect to the total number of featuresN_t.verbose: 0 or 1"""self.n_splits = n_splitsself.alpha = alphaself.n_total_features = n_total_featuresdef calculate_fitness(self, model, x, y):alpha = self.alphatotal_features &

更多推荐

浅谈在实际工程中关于特征选择的一些心得体会

本文发布于:2024-02-25 07:10:31,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1698197.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:心得体会   浅谈   特征   工程   在实际

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!