特征哈希（Feature Hashing）|电子爱好者

admin管理员组
文章数量:1650776

基于词表的特征向量化

分类问题中，一种常见的方法是构造一个特征词典，如文本分类，会给每个词（可能还有ngram，词性等）设置一个feature_id（向量化(vectorize)），并记录在一个词典（{feature: feature_id}）里，从而抽取特征权重的过程通常是这样的：text => feature => feature_id => feature_value
其中第二步的空间复杂度是 O ( d ) \mathcal{O}(d) O(d)， d d d是词典的大小，会有这样的问题：

训练时需要把词典提前准备好，包括确定维数 d d d和特征的顺序(id)，这样就要求需要提前做一次遍历
- 扩展性差：当引入新数据时，如果存在新特征，需要重新设定特征维度和词表，无法做到online learning，也不利于并行训练时的同步
- 对于邮件过滤这类问题，攻击者可以采用新词（如：异体字，火星文），这些对于模型来说就是unknown特征，而模型可能不会激进地标为垃圾邮件
当特征维度非常大时，词表也变得很大，导致查找速度显著下降，甚至加载不进内存

特征哈希

考虑到以上的问题，以下paper中介绍了一种方法，叫做特征哈希(Feature Hashing/Hashing trick)
Feature Hashing for Large Scale Multitask Learning

具体方法如下：

def feature_hashing(features, m):
	"""
	Args:
		features: 输入特征序列，可以是数字，字符串(本质还是数字)
		m: 输出的特征维度，通常是2**26(vw),2**20(scikit-learn)
	Returns:
		m维的（稀疏）向量
	"""
	# 这里的x一般是稀疏表示的（如：scipy.sparse.csr_matrix），这里是为了方便说明
    x = np.zeros(m)
    for feature in features:
        idx = hash_func_1(feature) % m
        sign = hash_func_

本文标签：特征 feature Hashing

版权声明：本文标题：特征哈希（Feature Hashing）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1729533298a1205087.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

特征哈希（Feature Hashing）

基于词表的特征向量化

特征哈希

更多相关文章

启动Matlab安装包时出现Unable to open the requested feature.

机器学习－特征选择( Feature Selection )

PADS9.5 出现 No license was found for feature pwrshell的解答方法

feature_importances_提取特征重要性的应用

RESA: Recurrent Feature-Shift Aggregator for Lane Detection (AAAI 2021)

R语言基于递归特征消除RFE（Recursive Feature Elimination）进行特征筛选（feature selection）

使用RFECV、递归特征消除 (Recursive Feature Elimination)进行特征筛选详解及实战

ArcGIS中对Feature的操作

论文阅读：AlignDet：Revisiting Feature Alignment for One-stage Object Detection

特征工程之自动特征生成（自动特征衍生）工具Featuretools——深度特征合成

feature map大小计算方法

RabbitMQ：rabbitmqtcl工具的使用(7)--Feature flags、Queue、Definitions操作

keras学习之：20分钟，教你通过 feature map 生成 attention 图（heatmap 图）

FFD：Fast Feature Detector运行失败解决

深入理解深度学习中的【卷积】和 feature map

RESA: Recurrent Feature-Shift Aggregator for Lane Detection 论文阅读+代码复现(车道线检测)

FeatureLayer，FeatureDataset，FeatureClass，Feature几个概念一点点总结

安装matlab2020a出现 Unable to open the requested feature. Check your internet connection and proxy sett

Image EmbeddingFeature Embedding(图片嵌入）

python报错：Do not support special JSON characters in feature name

发表评论

推荐文章

vue-pdf 单页显示所有pdf页,实现滚动分页跳转分页显示

Infinidat第三次重要升级：加速数据处理、内嵌iSCSI支持

win11打开控制面板闪退怎么办 Windows11控制面板闪退的解决方法

Window控制面板中NVIDIA Control Panel缺失找不到文件解决方案

Java基础：设计模式之建造者模式

热门文章

苹果手机添加 qq 邮箱的方法

前台页面jsp调用qq发起聊天，点击“联系我们”链接弹窗qq聊天窗口

怎么使用XCode给iOS手机安装测试包

The provided password or token is incorrect or your account

大数据技术原理与应用第2版-林子雨版-课后习题答案

使用宝塔面板部署前端项目到服务器

使用360浏览器+VScode来调试js的尝试

解决警告：X does not have valid feature names, but SGDClassifier was fitted with feature names

springCloud学习

计算机如何恢复桌面,如何恢复计算机桌面图标不见了

最新文章

转载win7(windows7旗舰版)声卡High Definition Audio驱动不能安装(安装失败）解决方案

服务器如何开启电脑的虚拟化技术,win7怎么打开vt虚拟化技术|win7在bios开启vt虚化的方法...

windows7的用户账户控制每次重启计算机时都会被关闭,win7系统更改设置总是弹出用户账户控制的解决方法...

驰为vi10旗舰版linux,驰为Vi10平板电脑完全安装Win10步骤 BY Chinasred

windows7系统屏幕一直闪屏的解决教程

想知道PDF转Word软件哪个好？向你推荐3个自用软件

win7系统打印机开启服务器,开启打印机服务【设置模式】

服务器真在运行中,win7电脑服务器正在运行中的解决教程

windows 从命令行启动进入系统

计算机文件预览取消,关闭视频文件预览，保留图片文件预览（windows7） -电脑资料...

pdf转word的几个方案

iwork8旗舰版 android,小身材大不凡 酷比魔方iWork8旗舰版评测

windows7 64位旗舰版 完美安装64位Oracle11g+32位plsql

windows7现实计算机内存不足,win7 64位有剩余空间却提示内存不足的解决方法

Windows7共享文档—开启方法及用户权限设置

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

iwork8旗舰版 android,小身材大不凡酷比魔方iWork8旗舰版评测

windows7 64位旗舰版完美安装64位Oracle11g+32位plsql

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载