admin管理员组

文章数量:1648645

这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且了解项目情况的朋友。本文分为两部分介绍Kaggle,Part One简单介绍Kaggle,Part Two将简单介绍正规的竞赛的项目,大家可以针对性的解决感兴趣的题目。

0、一个小推荐~

目前,在kaggle中应用的最广泛的语言就是python, 相较于传统的机器学习算法, 深度学习算法在kaggle比赛产生了巨大的影响,如果大家想要系统的学习和研究python以及在其基础上的常见的机器学习和深度学习框架和工具包, 那么强烈推荐大家学习CSDN开设的:

人工智能在网络领域的应用与实践:

https://edu.csdn/course/play/10319?utm_source=sooner

这个课程我实际听了, 老师的讲授水平很好, 条理清晰,思路明确,例子丰富, 非常值得大家学习借鉴, 在此强烈推荐一波, 让我们一起学习进步~

ps: 如果想要系统学习python的朋友,下面这门课是涵盖了python基础语法、web开发、数据挖掘以及机器学习,是CSDN强力推荐的课程,有需要的朋友可以看看哈:

Python全栈工程师:

https://edu.csdn/topic/python115?utm_source=sooner

1、Kaggle简介

Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle/

企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、深度学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合指标要求(比如logloss,mse等)并且在参赛者中排名第一,将获得比赛丰厚的奖金(都是以美元为单位哦!)。

下面以图文的形式介绍Kaggle:


Kaggle的正规项目分为四类,
分别是:FeaturedResearchRecruitmentGetting Started。下面,分别介绍

Featured

Featured译为“号召”,召集数据科学高手去参赛,这里面的竞赛平均难度是比较高的,而且项目涉及到的大部分是企业或政府的实际需求。

目前这类项目有129个,为正式的Kaggle项目比例最大的一部分。

Research
香蕉黄对应的是Research,奖金少一点。这个类别的比赛和Featured一样,是有奖竞赛,难度自然不小,作为入门者,可以先做做练习赛(Getting Started)

Recruitment
Recruitment是一些顶尖的公司用于招聘数据科学家来帮助公司解决难题的。这些公司(如Facebook、Airbnb等)会提出一些问题,来考察各路大神的算法和解决方案的可行性,最终给出工作offer。这一块着重是对于尖端数据科学人才的考验。

Getting Started
Getting Started是入门赛,最典型的是大家应该都听过的
Titanic: Machine Learning from Disaster(泰坦尼克号预测乘客死亡情况

2、Kaggle各类项目简介

本节以最主要的两类项目为例进行分析,其他类别(Getting Started,Recruitment等)的项目分析如有需要,可以联系我qq。

Featured

Featured以最近两年的项目(30个)进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。

① Zillow Prize: Zillow’s Home Value Prediction (Zestimate)


问题目标:预测加州三郡(LA Orange Ventura)未来某个时间段内的房屋价格
问题类型:回归问题(Regression);时间序列分析;特征工程
问题特点:考虑影响房价的因素,并根据时间段做时间序列分析;可以使用Xgboost或LightGBM框架来做。

② Passenger Screening Algorithm Challenge


问题目标:提升美国国土安全部(DHS)的威胁评估算法
问题类型:分类问题(Classification);监督学习
问题特点:机场安检的威胁评估算法,考虑的数据量很大,而且要求保证算法的速度。

③ Carvana Image Masking Challenge

问题目标:自动识别图片中汽车的边界
问题类型:计算机视觉(CV)
问题特点:边界处理,模型提取。

④ Instacart Market Basket Analysis

问题目标:预测Instacart的客户将会再次购买的产品
问题类型:推荐系统 (Recommendation System)
问题特点:根据用户行为建模,预测出跟用户相性好的产品。

⑤ Planet: Understanding the Amazon from Space

问题目标:根据卫星数据预测人类在亚马逊雨林的足迹
问题类型:计算机视觉(CV);时间序列分析(Time-Series Analysis);动态规划(DP)
问题特点:非常综合的问题,即涉及到图像处理,又与图算法有关。

⑥ Mercedes-Benz Greener Manufacturing

问题目标:优化奔驰车在测试时的时间
问题类型:回归问题(Regression);模式识别(Pattern Recognition)
问题特点:维度灾难(curse of dimensionality)

⑦ Sberbank Russian Housing Market

问题目标:预测俄罗斯的房地产市场波动情况
问题类型:回归问题(Regression)
问题特点:多层次的特征,不仅限于房屋状况,还与国内经济状况有关的特征,综合分析。

⑧ NOAA Fisheries Steller Sea Lion Population Count

问题目标:根据航拍图像内容,研究算法分析图片中有几个海狮
问题类型:计算机视觉(CV);模式识别(Pattern Recognition)
问题特点:典型的计算机视觉和边界识别的综合问题。

⑨ Intel & MobileODT Cervical Cancer Screening

问题目标:预测女性宫颈癌类别
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:图像识别,确定宫颈癌类别。

⑩ Quora Question Pairs

问题目标:根据问题内容,定位已经被回答过的类似问题
问题类型:聚类(Cluster);自然语言处理(NLP)
问题特点:避免用户问重复的问题,也节省答题人的时间。

⑪ Google Cloud & YouTube-8M Video Understanding Challenge

问题目标:训练一个分类器,为视频做标签
问题类型:分类问题(Classification);深度学习(DL)
问题特点:噪声数据;主特征提取

⑫ The Nature Conservancy Fisheries Monitoring


问题目标:根据视频内容,识别鱼的种类
问题类型: 计算机视觉(CV);分类问题(Classification);深度学习(DL)
问题特点:模式识别加上Deep Learning的内容。

⑬ Data Science Bowl 2017


问题目标:提高肺癌预测的准确性
问题类型: 计算机视觉(CV);模型识别(Pattern Recognition);分类问题(Classification)
问题特点:根据高分辨率的肺部扫描精准判断病变是否为癌变。

⑭ Dstl Satellite Imagery Feature Detection


问题目标:从高空图像中准确辨别各种特征
问题类型:计算机视觉(CV);深度学习(DL)
问题特点:根据卫星图像对地球上的物体进行识别。

⑮ Two Sigma Financial Modeling Challenge


问题目标:预测未来经济走势(只要算法)
问题类型: 算法(Algorithms)
问题特点: 根据世界的不确定性,科学预测未来的经济发展和机会。

⑯ Outbrain Click Prediction


问题目标: 预测文章的哪部分是全球读者更喜欢的(有意愿点击的)
问题类型: 推荐系统(Recommendation System);自然语言处理(NLP)
问题特点: 文本相似度分析,新闻热度分析。

⑰ Santander Product Recommendation


问题目标:为Santander用户推荐产品
问题类型:推荐系统(Recommendation System)
问题特点:个性化的产品推荐,依据用户行为建模。

⑱ Bosch Production Line Performance


问题目标:预测Bosch的内部失败率
问题类型:分类问题(Classification)
问题特点:根据上千种检测手段,预测某批产品失败的可能性。

⑲ Predicting Red Hat Business Value


问题目标:根据用户的特点和活动情况,分析其对RedHat的商业价值
问题类型:分类问题(Classification)
问题特点:用户价值分析

⑳ TalkingData Mobile User Demographics


问题目标:根据用户的手机使用情况,地理位置等信息对用户做画像
问题类型:用户画像(User portrait);聚类(Cluster)
问题特点:特征维数多且不同尺度;聚类分析。

㉑ Grupo Bimbo Inventory Demand


问题目标:宾宝希望最大化销量的同时,减少从烘焙店返还过期未销售的食品
问题类型:动态规划(DP)
问题特点:根据商店的销量情况和返还率,设计每家店的供货分配算法。

㉒ Ultrasound Nerve Segmentation


问题目标:根据颈部超声图像识别神经结构
问题类型:计算机视觉(CV);分类问题(Classification)
问题特点:根据超声图像自动识别神经结构

㉓ State Farm Distracted Driver Detection


问题目标:计算机视觉能否发现驾驶员分心?
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:利用视频实时追踪驾驶员,判断驾驶员是否出现注意力不集中的现象。

㉔ Avito Duplicate Ads Detection


问题目标: 欺骗性、重复性的广告检测
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 相似度分析。

㉕ Draper Satellite Image Chronology


问题目标: 根据五天的卫星图片,预测卫星图片拍摄的时间顺序
问题类型: 计算机视觉(CV)
问题特点: 需要额外的特征,比如白天和晚上,图片的变化情况等等。

㉖ Expedia Hotel Recommendations


问题目标: 在用户数据不全的情况下,根据用户的搜索情况,预测用户可以预定的酒店类型(100种)
问题类型: 分类问题(Classification)
问题特点: 数据不全;日志数据分析。

㉗ Santander Customer Satisfaction


问题目标: 预测银行客户对交易体验的感觉(好/坏)
问题类型: 情感分析;分类问题(Classification)
问题特点: 根据上百维未知的特征,来预测客户的体验,筛选特征的重要程度。
㉘ Home Depot Product Search Relevance


问题目标: 预测Home Depot网站相关的搜索结果
问题类型: 推荐系统(Recommendation System);聚类(Cluster)
问题特点: 产品相似度分析。

㉙ BNP Paribas Cardif Claims Management


问题目标: 加速BNP Paribas Cardif公司的出险赔付流程
问题类型: 优化问题
问题特点: 1、什么样的索赔更容易得到赔付?2、索赔所需要的额外信息?

㉚ Prudential Life Insurance Assessment


问题目标: 简化个人购买保险业务的难度
问题类型: 聚类(Clsuter);非监督学习;NLP
问题特点: 噪声数据;把相似的保险方案归并成一套,供消费者选择,以免消费者懵掉。

Research

Research的项目进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。

① Personalized Medicine: Redefining Cancer Treatment


问题目标:根据给定数据,预测基因变种属于哪一类
问题类型:分类问题(Classification);NLP;监督学习
问题特点:对临床数据的处理甚至对专家来说也是复杂和费时的,所以,依据临床数据建立的模型是非常重要的。

② Create an image classifier that is robust to adversarial attacksHouse Prices: Advanced Regression Techniques


问题目标:针对广告图片稍微变化,就导致分类器分类错误的情况。训练一个鲁棒性强的图片分类器
问题类型:分类问题(Classification);监督学习
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

③ Imperceptibly transform images in ways that fool classification models


问题目标:将图片的内容转换,争取迷惑分类模型(跟②是一个系列的问题)
问题类型:分类问题(Classification)
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

④ Develop an adversarial attack that causes image classifiers to predict a specific target class


问题目标:开发一个广告图片攻击工具,目标是使分类器的效果下降
问题类型:分类问题(Classification)
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

⑤ Web Traffic Time Series Forecasting


问题目标:预测维基百科(Wikipedia)的页面未来的访问情况
问题类型:回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点:典型的时间序列分析问题,需要先验知识。

⑥ Fine-grained classification challenge spanning 5,000 species.


问题目标:相似生物分类识别
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:大型分类问题;深度学习。

⑦ Can you assign accurate description labels to images of apparel products?


问题目标:准确的为图片中的明显物品做标注(Label)
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:深度学习的重要应用;标签相似性处理;照片背景不同处理。

⑧ Predict seizures in long-term human intracranial EEG recordings


问题目标:根据癫痫患者的脑电图,预测其癫痫发作的情况
问题类型:时间序列分析(Time-Series Analysis)
问题特点:典型的时间序列分析问题,推荐对每个癫痫患者的癫痫模式进行建模,从而有针对性的安排人照顾。

⑨ How Much Did It Rain? II


问题目标:跟How Much Did It Rain?一样,预测降雨量
问题类型:分类问题(Classification);时间序列分析(Time-Series Analysis)
问题特点:将降雨量限定在一定范围内,满足一个范围的话,对应的类设为1。

⑩ Right Whale Recognition


问题目标:根据航拍照片,预测图片中是否有濒危动物脊美鲸(right whales)
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:类似于物体检测的情况。

⑪ Grasp-and-Lift EEG Detection


问题目标:根据EFG信号进行手势识别
问题类型:分类问题(Classification)
问题特点:噪声数据

⑫ ECML/PKDD 15: Taxi Trajectory Predictiont’s Cooking?(Ⅰ)


问题目标:根据出租车当前运行轨迹,预测其目的地
问题类型: 计算机视觉(CV);动态规划(DP)
问题特点:涉及到图运算和拓扑学的内容

⑬ ECML/PKDD 15: Taxi Trip Time Prediction(Ⅱ)


问题目标:根据出租车当前运行轨迹,预测本次行程时间
问题类型: 计算机视觉(CV);动态规划(DP);回归问题(Regression)
问题特点:涉及到图运算和拓扑学的内容

⑭ 15.071x - The Analytics Edge (Spring 2015)


问题目标:预测纽约时报哪篇博文最受欢迎
问题类型: 分类问题(Classification)
问题特点:多维度分析

⑮ Microsoft Malware Classification Challenge (BIG 2015)


问题目标:基于文件内容和特点对恶意软件进行分类
问题类型: 分类问题(Classification)
问题特点:神经网络(NN)

⑯ BCI Challenge @ NER 2015


问题目标:根据脑波数据预测对应的单词和图像是否对应
问题类型: 分类问题(Classification);FFT(Fast-Fourier analysis)
问题特点:对频域数据进行分析

⑰ American Epilepsy Society Seizure Prediction Challenge


问题目标:根据颅内EFG信号预测狗的癫痫症状发生情况
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点:典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。

⑱ Display Advertising Challenge


问题目标:预测广告的点击转化率(CTR)
问题类型: 回归问题(Regression)
问题特点:FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。

⑲ Click-Through Rate Prediction


问题目标:预测广告的点击转化率(CTR)
问题类型: 回归问题(Regression)
问题特点:FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。

⑳ Africa Soil Property Prediction Challenge


问题目标:预测土壤的物理化学成分
问题类型: 回归问题(Regression)
问题特点:特征维数多;官方示例是用贝叶斯加性模型做的。

㉑ UPenn and Mayo Clinic’s Seizure Detection Challenge


问题目标:根据颅内EFG信号预测癫痫症状发生情况
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点:典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。

㉒ DecMeg2014 - Decoding the Human Brain


问题目标:预测视觉刺激对人脑活动的影响
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis);计算机视觉(CV);二分类问题(Binary Classification)
问题特点:问题㉑的升级版

㉓ MLSP 2014 Schizophrenia Classification Challenge


问题目标:通过MRI扫描预测是否患有精神分裂症(schizophrenia)
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 利用不同切面的核磁共振图像来进行诊断;多模态分析。

㉔ KDD Cup 2014 - Predicting Excitement at DonorsChoose


问题目标:对慈善项目进行评级,决定是否捐赠
问题类型: 分类问题(Classification)
问题特点: 多维度分析,类似信用评级问题。

㉕ Greek Media Monitoring Multilabel Classification (WISE 2014)


问题目标:对项目评级,决定是否捐赠
问题类型: 分类问题(Classification);NLP
问题特点: 噪声数据;希腊语。

㉖ CONNECTOMICS


问题目标:根据1000个神经元的活动情况,判断神经元之前是否有突触连接。
问题类型: 时间序列分析(Time-Series Analysis);计算机视觉(CV)
问题特点: 神经元;树突轴突。

㉗ Large Scale Hierarchical Text Classification


问题目标: 大规模文本(维基百科)分类问题
问题类型: NLP
问题特点: 可以用LSTM来做。

㉘ Galaxy Zoo - The Galaxy Challenge


问题目标: 对宇宙中的不同距离的星系的形态进行分类
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 宇宙。

㉙ PAKDD 2014 - ASUS Malfunctional Components Prediction


问题目标: 预测Asus笔记本未来可能发生故障的部位
问题类型: 分类问题(Classification);
问题特点: 多维度分析(销售时间、销量和修理次数等等)

㉚ Loan Default Prediction - Imperial College London


问题目标: 构造最优贷款组合(optimal portfolio of loans)
问题类型: 贷款组合;
问题特点: 噪声数据;降维。

㉛ Multi-label Bird Species Classification - NIPS 2013


问题目标: 根据风声记录预测87类动物(鸟/两栖动物)
问题类型: 语音识别;分类问题(Classification)
问题特点: 声音识别。

㉜ Accelerometer Biometric Competition


问题目标: 根据加速度记录仪的数据预测其是否属于特定的手机
问题类型: 分类问题(Classification)
问题特点: 手机加速度计数据分析。

㉝ AMS 2013-2014 Solar Energy Prediction Contest


问题目标: 预测奥克拉荷马每日的太阳能情况
问题类型: 回归问题(Regression)
问题特点: 空间;先验知识。

㉞ The Big Data Combine Engineered by BattleFin


问题目标: 根据新闻和情感数据分析来预测短期股价的变化
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 情感分析;金融数据。

㉟ RecSys2013: Yelp Business Rating Prediction


问题目标: Yelp商业评分预测
问题类型: 回归问题(Regression);NLP
问题特点: 情感分析;多维度分析。

㊱ Multi-modal Gesture Recognition


问题目标: 多模态手势识别(2D/3D)
问题类型: 计算机视觉(CV)
问题特点: 卷积神经网络;RGB;降维。

㊲ The ICML 2013 Bird Challenge


问题目标: 根据语音记录识别鸟的类别
问题类型: 语音识别
问题特点: 频域分析。

㊳ Challenges in Representation Learning: Multi-modal Learning


问题目标: 为图像做Label
问题类型: 计算机视觉(CV);自然语言处理(NLP)
问题特点: 多模态分析(图片/文字);标注。

㊴ Challenges in Representation Learning: Facial Expression Recognition Challenge


问题目标: 识别图像中人脸表情
问题类型: 计算机视觉(CV);分类问题(Classification)
问题特点: 面部表情分类器;灰度图片。

㊵ Challenges in Representation Learning: The Black Box Learning Challenge


问题目标: 黑箱预测问题
问题类型: 分类问题(Classification)
问题特点: 数据没有实际意义;降维。

㊶ ICDAR2013 - Handwriting Stroke Recovery from Offline Data


问题目标: 预测手写签名的轨迹
问题类型: 动态规划(DP);计算机视觉(CV)
问题特点: 笔画方向;左/右撇子。

㊷ ICDAR2013 - Gender Prediction from Handwriting


问题目标: 预测手写笔记的作者是男还是女
问题类型: 计算机视觉(CV);分类问题(Classification)
问题特点: 性别特征对字体形态的影响;神经网络

㊸ Predicting Parkinson’s Disease Progression with Smartphone Data


问题目标: 根据用户的手机信息评估帕金斯综合症患者是否有症状发作的迹象/情况
问题类型: 时间序列分析(Time-Series Analysis);语音处理(Speech Processing)
问题特点: 多尺度数据;语音数据处理。

㊹ Visualize the State of Public Education in Colorado


问题目标: 根据科罗拉多州各学校3年的成绩数据,预测每个学校可能升到好学校的可能性
问题类型: 特征工程(Feature Engineering );回归问题(Regression)
问题特点: 多指标考核;评分标准。

㊺ Global Energy Forecasting Competition 2012 - Load Forecasting


问题目标: 预测美国20个地区的小时用电量(功率)
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 多维度分析。

㊻ Global Energy Forecasting Competition 2012 - Wind Forecasting


问题目标: 预测7个风力发电厂的现在——未来48小时每小时产生的电量
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 多维度分析。

㊼ Data Mining Hackathon on (20 mb) Best Buy mobile web site - ACM SF Bay Area Chapter


问题目标: 基于用户的查询记录预测其最感兴趣的Xbox游戏类别
问题类型: 推荐系统(Recommendation system)
问题特点: 词云;关键词分析。

㊽ Data Mining Hackathon on BIG DATA (7GB) Best Buy mobile web site


问题目标: 基于用户的查询记录预测其最感兴趣的BestBuy产品类别
问题类型: 推荐系统(Recommendation system)
问题特点: 大数据分析;关键词分析。

㊾ CPROD1: Consumer PRODucts contest #1


问题目标: 自动分辨消费者提到的产品并正确的识别产品的类别
问题类型: 分类问题(Classification);NLP
问题特点: 大数据分析;自然语言处理。

㊿ Practice Fusion Diabetes Classification


问题目标: 诊断病人是否患有二型糖尿病
问题类型: 分类问题(Classification)
问题特点: 非线性边界。

剩余的项目分析可以联系我的qq获取。

本文标签: 深度机器数据平台kaggle