LightGBM两种使用方式|电子爱好者

admin管理员组
文章数量:1608813

LightGBM（Light Gradient Boosting Machine）是微软开源的一个实现 GBDT 算法的框架，支持高效率的并行训练。

更快的训练速度
更低的内存消耗
更好的准确率
分布式支持，可以快速处理海量数据

LightGBM是一个梯度提升框架，使用基于树的学习算法。

LightGBM树的生长方式是垂直方向的，其他的算法都是水平方向的，也就是说LightGBM生长的是树的叶子，其他的算法生长的是树的层次。LightGBM选择具有最大误差的树叶进行生长，当生长同样的树叶，生长叶子的算法可以比基于层的算法减少更多的loss。

原生形式使用lightgbm(import lightgbm as lgb)

import lightgbm as lgb
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
data = iris.data
target = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
print("Train data length:", len(X_train))
print("Test data length:", len(X_test))

# 转换为Dataset数据格式
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)

# 参数
params = {
    'task': 'train',
    'boosting_type': 'gbdt',  # 设置提升类型
    'objective': 'regression',  # 目标函数
    'metric': {'l2', 'auc'},  # 评估函数
    'num_leaves': 31,  # 叶子节点数
    'learning_rate': 0.05,  # 学习速率
    'feature_fraction': 0.9,  # 建树的特征选择比例
    'bagging_fraction': 0.8,  # 建树的样本采样比例
    'bagging_freq': 5,  # k 意味着每 k 次迭代执行bagging
    'verbose': 1  # <0 显示致命的, =0 显示错误 (警告), >0 显示信息
}

# 模型训练
gbm = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, early_stopping_rounds=5)

# 模型保存
gbm.save_model('model.txt')

# 模型加载
gbm = lgb.Booster(model_file='model.txt')

# 模型预测
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)

# 模型评估
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)
'''
Train data length: 120
Test data length: 30
[LightGBM] [Warning] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000019 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 89
[LightGBM] [Info] Number of data points in the train set: 120, number of used features: 4
[LightGBM] [Info] Start training from score 1.016667
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[1]	valid_0's auc: 0.9775	valid_0's l2: 0.548619
Training until validation scores don't improve for 5 rounds
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[2]	valid_0's auc: 1	valid_0's l2: 0.500157
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[3]	valid_0's auc: 1	valid_0's l2: 0.454786
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[4]	valid_0's auc: 1	valid_0's l2: 0.414112
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[5]	valid_0's auc: 1	valid_0's l2: 0.377665
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[6]	valid_0's auc: 1	valid_0's l2: 0.346867
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[7]	valid_0's auc: 1	valid_0's l2: 0.319188
Early stopping, best iteration is:
[2]	valid_0's auc: 1	valid_0's l2: 0.500157
The rmse of prediction is: 0.7072175933903914
'''

Sklearn接口形式使用lightgbm(from lightgbm import LGBMRegressor)

from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import joblib

# 加载数据
iris = load_iris()
data = iris.data
target = iris.target

# 划分训练数据和测试数据
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)

# 模型训练
gbm = LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20)
gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='l1', early_stopping_rounds=5)

# 模型存储
joblib.dump(gbm, 'loan_model.pkl')
# 模型加载
gbm = joblib.load('loan_model.pkl')

# 模型预测
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration_)

# 模型评估
print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)

# 特征重要度
print('Feature importances:', list(gbm.feature_importances_))

# 网格搜索，参数优化
estimator = LGBMRegressor(num_leaves=31)
param_grid = {
    'learning_rate': [0.01, 0.1, 1],
    'n_estimators': [20, 40]
}
gbm = GridSearchCV(estimator, param_grid)
gbm.fit(X_train, y_train)
print('Best parameters found by grid search are:', gbm.best_params_)
'''
[1]	valid_0's l1: 0.564611	valid_0's l2: 0.53568
Training until validation scores don't improve for 5 rounds
[2]	valid_0's l1: 0.541868	valid_0's l2: 0.492686
[3]	valid_0's l1: 0.520262	valid_0's l2: 0.45387
[4]	valid_0's l1: 0.499592	valid_0's l2: 0.419784
[5]	valid_0's l1: 0.475829	valid_0's l2: 0.383425
[6]	valid_0's l1: 0.457481	valid_0's l2: 0.354883
[7]	valid_0's l1: 0.436038	valid_0's l2: 0.324898
[8]	valid_0's l1: 0.419327	valid_0's l2: 0.302255
[9]	valid_0's l1: 0.399978	valid_0's l2: 0.27748
[10]	valid_0's l1: 0.385154	valid_0's l2: 0.258424
[11]	valid_0's l1: 0.37125	valid_0's l2: 0.240029
[12]	valid_0's l1: 0.359304	valid_0's l2: 0.225339
[13]	valid_0's l1: 0.344684	valid_0's l2: 0.208233
[14]	valid_0's l1: 0.332142	valid_0's l2: 0.194488
[15]	valid_0's l1: 0.320227	valid_0's l2: 0.182062
[16]	valid_0's l1: 0.310099	valid_0's l2: 0.169595
[17]	valid_0's l1: 0.30074	valid_0's l2: 0.16047
[18]	valid_0's l1: 0.29047	valid_0's l2: 0.151185
[19]	valid_0's l1: 0.280713	valid_0's l2: 0.142789
[20]	valid_0's l1: 0.270687	valid_0's l2: 0.133844
Did not meet early stopping. Best iteration is:
[20]	valid_0's l1: 0.270687	valid_0's l2: 0.133844
The rmse of prediction is: 0.36584694593602285
Feature importances: [9, 6, 44, 10]
Best parameters found by grid search are: {'learning_rate': 0.1, 'n_estimators': 40}

'''

eval_metric：【默认=通过目标函数选择】
 rmse：均方根误差
 mae: 平均绝对值误差
 logloss：negative log-likelihood
 error：二分类错误率=错误分类数目/全部分类数目。对于预测，预测值>0.5被认为是正类，其他归为负类。error@t:不同的划分阈值可以通过 ‘t’进行设置
 merror：多分类错误率=错误分类数目/全部分类数目
 mlogloss：多分类log损失
 auc：曲线下的面积
 map：平均正确率

调参1：提高准确率"：num_leaves, max_depth, learning_rate

调参2：降低过拟合 max_bin min_data_in_leaf

调参3：降低过拟合正则化L1, L2

调参4：降低过拟合数据抽样列抽样

本文标签：两种方式 lightgbm

版权声明：本文标题：LightGBM两种使用方式内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728550133a1163320.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

LightGBM两种使用方式

原生形式使用lightgbm(import lightgbm as lgb)

Sklearn接口形式使用lightgbm(from lightgbm import LGBMRegressor)

更多相关文章

英伟达驱动更新记录_英伟达更新驱动最好的方式 - 卡饭网

telnet 命令参数及其应用方式

一文详解matplotlib的配置文件以及配置方式

一种新的杀毒方式----利用Windows PE的文件共享进行杀毒

华为云计算IE面试笔记-华为云迁移工具Rainbow功能简介。支持哪些虚拟化平台和操作系统的迁移？支持哪些业务迁移方式？Windows在线迁移和Linux在线迁移前针对OS需要做哪些检查？

通用的激活StarUml的方式|仅供学习使用

DXGI 方式采集流程

rpm方式安装Mysql数据库

使用Pyspark 运行lightgbm的预测函数时遇到 expected zero arguments for construction of ClassDict (for numpy.dtype)

台式计算机声音输出方式在哪里,电脑声音无法找到输出设备怎么办？

笔记本扩展之后，插上耳机就会没有声音的解决方式

因谷歌Play Store审核超过7天和联系他们的方式

PDF转Word时提示有密码两种常用解密技巧分享

Ubuntu下安装打印机驱动（两种方法）

linux的十大方式

QQ浏览器彻底卸载方式

Kubernetes - CentOS7搭建k8s_v1.18集群高可用（kubeadm二进制包部署方式）实测配置验证手册

iOS中常见的几种加密方式总结

使用分页导入的方式把大量数据从mysql导入单点的es时报错：Connection refused: no further information

Lightgbm多余信息显示

发表评论

推荐文章

Google play重置上传秘钥教程

录音转文字软件免费工具好用吗？这些工具能帮你及时完成信息提取

NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing...

使OrangePi Zero+支持U盘启动

RTKLIB源码阅读（九）相对定位 RTK、PPK、RTD

热门文章

Android从应用内跳转到Google Play市场，进行下载或者好评

中标麒麟系统u盘安装_优盘安装《中标麒麟7.0（龙芯）》

SSD（固态硬盘）和HHD（混合硬盘）的区别

下一代JVM：GraalVM的十大特性

OBS Studio下载速度慢，加速下载！11ms

Java实现调用默认浏览器打开网址

GraphConnect 2022 大会的产品发布一览

2021年值得关注的15种软件测试趋势

科研团队如何探索商业化落地？这家语音AI公司用十年科学试验打了样

【计算机毕业设计】图书馆管理系统设计与实现

最新文章

移动互联网APP测试流程及测试点（2014版）【转】

Apache服务器访问过慢分析及解决

互联网 APP 测试流程以及测试点

网络营销推广，微商引流48招技能

OSChina 周六乱弹 ——还有一口气，我就学好PHP

Android FrameWork(AMS，WMS，PMS等)的概念及解析，获取系统服务

全面保护网速 瑞星路由安全卫士让你向弹窗卡顿说不！

PRD学习笔记：一些需要注意的说明

陌陌5周年变阵：流量东风已尽 到了精耕细作的时候

软件测试之App测试-功能测试

让你的 Android 应用拥有微信一样的实时沟通体验

【目录】从苏宁电器到卡巴斯基

APP测试注意点！

Ubuntu常用软件合集

APP测试点分析

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

全面保护网速瑞星路由安全卫士让你向弹窗卡顿说不！

陌陌5周年变阵：流量东风已尽到了精耕细作的时候

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载