Task1:赛题理解
一、赛题背景
本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 —— 零基础入门数据挖掘之二手车交易价格预测大赛。
赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。通过这道赛题来引导大家走进AI数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高。
为了更好的引导大家入门,我们同时为本赛题定制了系列学习方案,其中包括数据科学库、通用流程和baseline方案学习三部分。通过对本方案的完整学习,可以帮助掌握数据竞赛基本技能。同时我们也将提供专属的视频直播学习通道。
二、赛制说明
本次赛事分为两个阶段,分别为正式赛及长期赛。
正式赛(3月12日 - 4月11日)
- 报名成功后,选手下载数据,在本地调试算法,通过赛题页左侧提交入口提交结果;
- 提交后将进行实时评测;每天每支队伍可提交2次;排行榜每小时更新,按照评测指标得分从高到低排序;排行榜将选择历史最优成绩进行展示;
- 最后一次排行榜更新时间为4月11日晚上20点,将以该榜单成绩作为依照,评选出正式赛期间的奖项名次,予以奖励。
长期赛(4月11日以后)
自4月1日开始,本场比赛将长期开放,报名和参赛无时间限制。
对于参加长期赛的同学,我们同样提供分享激励:
新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于对赛题的理解、数据分析及可视化、算法模型的分析以及一些核心的思路等内容。
社区会根据分享内容的数量以及程度,给予丰富的专属天池奖品以及粮票奖励。分享后您也可以通过下方钉钉群主动联系我们的社区运营同学,获取相关奖励。
三、赛题理解
二手车价格影响因素
硬性指标
车自身硬件信息,
车型,
配置,颜色、高低配、天窗等等
车况,不同的人,不同的路况,爱惜程度,是否改装都会影响车况
里程,
上市时间(使用年限)等
软指标
违章次数、
地域,经济发达地区豪车保值率较高;比如广州本田就非常保值,长春大众就保值,为什么?因为广汽,一汽都在当地生产汽车,对应的车型的配件都很齐全也便宜。
新车价格、新车价格如果下降,势必会引起二手车价格的降低
购车时机、二手车也有淡旺季。旺季价格都会上涨。比如春节前2个月,中国人嘛都讲究个衣锦还乡,过年回家开辆新车走亲访友既方便又有面儿。
购车渠道,二手车的流通,大概会经历这么一个过程,个人卖家-4S店置换-拍卖商家A-(商家B)-个人卖家。从个人和渠道商购买,成本是不一样的。
二手车常用估价方法
残值法
新车使用10年视为报废,把15%作为不折旧的固定部分为残值,其余85%为浮动折旧值。可分三个阶段:3年4年3年来折旧,折旧率分别为11%、10%和9%,前三年每年折11%。
计算公式为:评估价=市场现行新车售价×[15%(不动残值)+85%(浮动值)×(分阶段折旧率)]+评估值。
评估值:应考虑该车在当地的保有量和车况(外观、保养程度),酌情给出评估值(一般为新车价的2%~5%)。
折旧法
里程法
具体为:一部车有效寿命30万公里,将其分为5段,每段6万公里,每段价值依序为新车价的5/15、4/15、3/15、2/15、1/15。假设新车价12万元,已行驶7.5万公里(5年左右),那么该车估值为12万元×(3+3+2+1)÷15=7.2万元。
建议:由于我国车辆庞杂,一种模式很难适应各
重置成本法
参考资料
影响二手车价格的有哪些因素啊?
影响二手车价格的因素有哪些?.html
你需要的二手车估价方法
如何评估一辆二手车的价钱?
中国二手车电商行业研究报告 .aspx?id=3359
汽车行业统计数据
2019年底全国私家车保有量首次突破2亿
新能源汽车保有量达381万辆。
汽车转移登记数量持续增长。(即二手车交易)
2019年新车市场销量2576.9万辆、同比下滑8.2%
二手车全年交易量为1492.28万辆,同比增幅收窄至个位数7.96%
全年交易金额为9356.86亿元,同比增长8.76%,这是2016年我国二手车交易量首次突破千万辆以来的最低年度增幅。
2019年底全国私家车保有量首次突破2亿
2019年二手车交易量近1500万辆 新旧车交易比达1.73:1
二手车市场分析报告
中国汽车流通协会:2019年9月二手车市场详细分析
赛题相关的变量
车型
私用 >> 商用
私用:基本型 >> SUV > MPV
商用:客车 >> 货车
MPV是指多用途汽车(multi-Purpose Vehicles),通俗地说,就是可以坐7-8人的小客车,MPV是主要针对家庭用户的车型。
SUV的全称为:Sports Utility Vehicle,即“运动型多功能车”。这类车既可载人,又可载货,行驶范围广,具有豪华轿车的功能。
交易地区
广东 > 浙江 > 山东
车龄
3-6 > 3 > 7-10
车型
A >> B > A0 > A00 > C > D (后两者可理解为豪华轿车)
汽车级别
价格区间
3 > 3-5 > 5-8 > 8-12
且与18年相比,3万元以内的交易大幅下降
交易均价
17-19:6.53 - 6.22 - 6.30
新能源汽车
近几年呼声极高的概念车,且从数据特征上看与整体不大一致,可能需要单拎出来分析
交易车型
A00 >> A > SUV(D?) > A0
价格
3-5 > 5-8 > 3 > 8-12
车龄
2 >> 2-4 > 4-6
其它
自动车销量未来趋势应该比手动好
2019年美国电动车销量首次超越手动挡燃油车
结论
-
私用车和商用车可以拆开分析(题目中主要区分开车型)
-
车型中,小型车如B以下的可单独分析(题目中为微型车)
-
新能源车和燃油车可拆开分析(题目中主要用以区分燃油类型)
-
华东地区是二手车交易的主要地区
-
一些有联系的字段:车型-发动机功率-价格,行驶公里-注册日期
评测标准
平均绝对误差 MAE
极值带来的误差影响会非常大。对于price的离群点可能要做专门的分析
回归一般需要注意的问题
- 极值的处理
- 多重共线性的问题
参考链接:=5176.12586969.1002.21.1cd8593a1BKdq3&postId=97258
更多推荐
Task1:赛题理解
发布评论