Featuretools快速使用指南--看这一篇就够了|电子爱好者

admin管理员组
文章数量:1650765

Featuretools简单攻略

Featuretools介绍
Featuretools快速开始

Featuretools介绍

人工特性工程是一项冗长乏味的任务，并且受到人类想象力的限制——我们可以思考创建的特性只有这么多，而且随着时间的推移，创建新特性需要大量的时间。理想情况下，应该有一个客观的方法来创建一系列不同的候选新特性，然后我们可以将这些特性用于机器学习任务。这个过程的目的不是替换数据科学家，而是使他的工作更容易，并允许他使用自动工作流补充领域知识。

Featuretools快速开始

以官方文档为例：

下面是使用深度特征合成 (DFS) 执行自动化特征工程的示例。在此示例中，我们将 DFS 应用于由带有时间戳的客户交易组成的多表数据集。

import featuretools as ft #引用featuretools库

加载模拟数据

data = ft.demo.load_mock_customer()

准备数据
在这个模拟数据集中，有 3 个 DataFrame：

customers: unique customers who had sessions
sessions: unique sessions and associated attributes
transactions: list of events in this session

注意我标红的地方

customers_df = data["customers"]
customers_df

sessions_df = data["sessions"]
sessions_df.sample(5)

transactions_df = data["transactions"]
transactions_df.sample(5)

首先，我们指定一个包含数据集中所有 DataFrame 的字典。如果 DataFrame 存在索引列和时间索引列，则 DataFrame 将与其索引列和时间索引列一起传入。

dataframes = {
   "customers" : (customers_df, "customer_id"),
   "sessions" : (sessions_df, "session_id", "session_start"),
   "transactions" : (transactions_df, "transaction_id", "transaction_time")
}

其次，我们指定 DataFrames 是如何关联的。当两个 DataFrame 具有一对多关系时，我们称“一个”DataFrame，即“父 DataFrame”。sessions中包含重复的customer_id值，即customers是父而sessions是子，父子关系定义如下：

(parent_dataframe, parent_column, child_dataframe, child_column)

在这个数据集中，我们有两个关系

relationships = [("sessions", "session_id", "transactions", "session_id"),
                 ("customers", "customer_id", "sessions", "customer_id")] #左为父，右为子

运行深度特征合成
DFS 的最小输入是 DataFrame 的字典（dataframes）、关系列表（relationships）以及我们要计算其特征的目标 DataFrame 的名称（target_dataframe_name）。 DFS 的输出是一个特征矩阵和相应的特征定义列表。

feature_matrix_customers, features_defs = ft.dfs(dataframes=dataframes,
                                                 relationships=relationships,
                                                 target_dataframe_name="customers")
feature_matrix_customers

我们现在有几十个新特征来描述客户的行为。
更改目标 DataFrame
DFS 如此强大的原因之一是它可以为我们的 EntitySet 中的任何 DataFrame 创建一个特征矩阵。例如，如果我们想为会话构建功能。

feature_matrix_sessions, features_defs = ft.dfs(dataframes=dataframes,
                                                relationships=relationships,
                                                target_dataframe_name="sessions")
feature_matrix_sessions.head(5)

了解特征输出
一般来说，Featuretools 通过特征名称引用生成的特征。为了让特性更容易理解，Featuretools 提供了两个额外的工具，featuretools.graph_feature() 和 featuretools.describe_feature()，帮助解释什么是特征以及 Featuretools 生成它的步骤。让我们看一下这个示例功能。

feature = features_defs[18]
feature

特征谱系图
特征谱系图直观地遍历特征生成。从基础数据开始，它们逐步显示应用的基元和生成的中间特征以创建最终特征。

ft.graph_feature(feature)

功能描述
Featuretools 还可以自动生成特征的英文句子描述。功能描述有助于解释什么是功能，并且可以通过包含手动定义的自定义定义来进一步改进。关如何自定义自动生成的功能描述的更多详细信息，请参阅生成功能描述。

ft.describe_feature(feature)

‘The most frequently occurring value of the year of the “transaction_time” of all instances of “transactions” for each “session_id” in “sessions”.’

这样，我们就基于三个DataFrame利用Featuretools生成十几个特征，供我们挖掘数据信息。后面会利用用实体集来表示数据，而不是字典。

本文标签：这一使用指南快速就够了 Featuretools

版权声明：本文标题：Featuretools快速使用指南--看这一篇就够了内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729531174a1204824.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Featuretools快速使用指南--看这一篇就够了

Featuretools简单攻略

Featuretools介绍

Featuretools快速开始

更多相关文章

怎样快速将pdf在线转换成word转换

修复QQ在网页上的快速登录

【移除谷歌重定向】开源项目使用指南

菜鸟入门之火狐浏览器扩展和插件使用指南

msvcp140.dll丢失的解决方法-一键下载自动快速修复msvcp140.dll

kernel32.dll如何解决，教你如何快速修复kernel32.dll文件缺失问题

docker快速安装onlyoffice

Office与visio的快速下载与安装

长文慎入，如何快速开发区块链游戏

Docker学习（4）——如何通过阿里云的镜像加速器快速拉取镜像到本地

SpringBoot + Activiti 完美结合，快速实现工作流（最详细版）

Win7系统缺失user32.dll怎么办，如何快速修复Win7的user32.dll文件错误

TortoiseSVN日常使用指南

【建站教程】如何快速搭建自己独立的个人博客？

网络安全快速入门（三）windows批处理

什么软件可以测试QQ特别关心,手机qq怎么看特别关心我的人？学会这一招就够了...

怎么给文件加密？六种方法快速教会你

Featuretools快速使用指南--看这一篇就够了

酷狗音乐快速转换MP3格式的方法

开源项目教程：KuGouMusicApi使用指南

发表评论

推荐文章

网络知识必知

取证与数据恢复：冷系统分析，实时系统分析与镜像分析之间的过渡办法

Delphi 获得Windows操作系统主版本号

2022最新软件测试面试题

linux点击桌面图标无反应,电脑点击图标没反应怎么回事

热门文章

2024最干净的一键重装系统软件全解析

前端快速切图：PS切图常用快捷键、精准测量尺寸，1px不差

基于51单片机3轴加速度计ADXL345计步器卡路里系统设计

idea用gitee插件出现loading Account information gitee.com解决办法

在 kubectl 中使用 Service Account Token

手把手教你搭建入门级免费私有云盘NAS——基于syncthing——基础篇（树莓派、PC机）

f12弹出debug_360浏览器网站按f12弹出新窗口解决办法

公司文件加密了如何带走？

Android App Bundle

android6恢复桌面,安卓手机桌面日期和天气误删除的恢复方法

最新文章

驰为vi10旗舰版linux,驰为Vi10平板电脑完全安装Win10步骤 BY Chinasred

windows7系统屏幕一直闪屏的解决教程

windows7电脑删除文件特别慢的解决方法

iwork8旗舰版 android,性能彪悍 双面神兽——酷比魔方iwork8旗舰版体验

win7如何设置通电自动开机_windows7自动开机怎么设置？

计算机文件预览取消,关闭视频文件预览，保留图片文件预览（windows7） -电脑资料...

Win7 64位旗舰版系统取消电脑开机自动检测硬盘的方法

如何避免计算机被别人共享,win7如何防止别人偷窥电脑 win7防止别人偷窥电脑操作方法...

如何把win7电脑设置成网站服务器吗,如何为win7电脑设置服务器

windows7电脑怎么永久关闭广告

Windows7共享文档—开启方法及用户权限设置

计算机管理记事本,win7旗舰版系统下自带记事本的强大功能汇总【图文详解】...

计算机全盘搜索功能不见了,新萝卜家园win7旗舰版电脑中的搜索功能不见了怎么办...

电脑Windows7系统上的appdata是什么文件夹

电脑windows7系统环境Framework 4.6.2无法安装的解决方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

iwork8旗舰版 android,性能彪悍双面神兽——酷比魔方iwork8旗舰版体验

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载