1、项目实验介绍
- 背景
- 目前很多个省份区域都在发展电动汽车为代表的新能源汽车,这可以很大程度的解决能源问题,自己也是发现现在杭州和宁波绿牌的新能源汽车越来越多,作为一个市区内短途的代步工具,新能源汽车未来的市场前景还是很广阔的。但新能源汽车毕竟是一个新兴的事物,消费者在一些领域如电池问题,还是存在着一些疑虑的,因此新能源汽车的销售需要一个科学的决策。
- 实验目的
- 通过对下列数据的分析,了解目前新能源汽车的销售情况,提高新能源汽车的销售率,最终为销售部门提出相应的销售策略和意见
2、数据集介绍
a开头的是电动汽车的特征,B开头的是体验者目标客户个人特征
a1:电池技术性能(电池耐用和充电方便)满意度得分
a2:舒适性(环保与空间座椅)整体表现满意度得分
a3:经济性(耗能与保值率)整体满意度得分
a4:安全性表现(刹车和行车视野)整体满意度得分
a5:动力性表现(爬坡和加速)整体满意度得分
a6:驾驶操控性表现(转弯和高速的稳定性)整体满意度得分
a7:外观内饰整体表现满意度得分
a8:配置与质量品质整体满意度得分
B1 :户口情况,1 表示户口在老家、2表示户口在本城市、3表示其他
B2:在本城市居住了多少年
B3:居住在以下哪个区域,1 表示市中心、2表示非市中心的城区、3表示城乡结合部、4表示县城、5表示乡镇中心地带、6表示农村
B4:驾龄是多少年
B5:家里有几口人
B6:婚姻家庭状况,1表示“未婚,单独居住”、2表示“未婚,与父母同住”、3表示“已婚/同居无子女(两人世界)”、4表示“已婚/同居无子女(与父母同住)”、5表示“已婚,有小孩,不与父母同住”、6表示“已婚,有小孩,与父母同住”、7表示“离异/丧偶”、8表示“其他”
B7:有几个孩子
B8:出生年
B9:最高学历是,1表示“未受过正式教育”、2表示“小学”、3表示“初中”、4表示“高中/中专/技校”、5表示“大专”、6表示“本科”,8表示“双学位/研究生及以上”
B10:工作年限,指从毕业后正式参加工作到现在为止
B11:所在单位的性质,1表示"机关单位政府部门/基层组织”、2表示"科研l教育/文化/卫生/医疗等事业单位”、3表示"国有企业”、4表示“精营l民营企业”雇员人数在8人以上“、5表示”外资企业“、6表示"合资企业"“、7表示"个体户小型公司《雇员人教在8人及以下)、8表示"自由职业者”、9表示"不工作”
B12:职位,1表示"高层管理者/企业主l老板”、2表示"中层管理者"、3表示"资深技术人员l高级技术人员"、4表示"中级技术人员”、5表示"初级技术人员”、6表示"资深职员/办事员”、7表示"中级职员动·事员"、8表示"初级职员协事员”、9表示"个体户小型公司业主"、10表示"自由职业者”、11表示"其他""
B13: 家庭年收入
B14 :个人年收入
B15 :家庭的可支配年收入 (家庭可支配收入包括娱乐、购物、生活费、交通费等支出,不包括房贷、车贷、水电费、小孩学费等每月固定支出)
B16: 全年房贷的支出占家庭年总收入的比例
B17 :全年车贷的支出占家庭年总收入的比例
3、实验目标
问题一
(异常点检测,缺失点检测,不同品牌汽车满意度的比较分析)
本文首先通过绘制箱线图,挖掘出落在四分位数加减1.5倍四分位距之外的潜在异常值。接下来研究了存在少量缺失值的特征B7与B6之间的关系,并对缺失值进行了填补。最后,绘制不同品牌服务满意度小提琴图,并依据Wilcox统计量和Kruskal-Wallis统计量,比较了不同汽车品牌满意度之间的差异
问题二
(使用模型进行特征选择)
决定目标客户是否购买电动车的影响因素有很多,有电动汽车本身的因素,也有目标客户个人特征的因素,研究那些因素可能会对不同品牌电动车的销售有影响
问题三
结合前面的研究成果,建立不同品牌电动汽车的客户挖掘模型,并评价模型的优良性。运用模型判断15 名目标客户购买电动车的可能性
4、实验简述
相关代码可以在colab链接中找到:
https://colab.research.google.com/drive/1kBnKj_4DDgyJn6633jti0w27Wmnv-2Bt?usp=sharing
实验使用的数据集已经上传百度网盘:
https://pan.baidu.com/s/1Wruo3g3CbSeS7hiUNe9vRA?pwd=vioc
整个实验的过程还是比较清晰的。首先对数据进行各种清洗以及数据描述性统计分析;接着使用模型筛选数据集中的特征,确保输入的特征是合理高效的;然后对三个品牌的数据分别进行多个模型的训练,并分别筛选出每个品牌最适合的模型;最后使用贝叶斯调参对筛选出的三个最合适的模型进行调参然后训练出最佳的模型进行实验数据的预测。
5、实验结果分析
5.1、数据缺失值分析
可以发现缺失值仅存在于B7(孩子数量)这一特征中,且缺失值在数据集中不同行的分布较为均匀,说明这些缺失值是随机缺失的。统计出B7所在列的缺失值个数为500,进一步探究缺失值所在观测的内在联系,结合问卷的信息,可以明确目标用户的B6(婚姻家庭情况)的取值,会限制B7的取值范围,因此我们就根据B6来确定B7的缺失值:
5.2、数据异常值分析
大部分的异常值我们使用箱线图来进行查找和恢复。在箱型图中,异常值通常被定义为小于QL-1.5QR或大于QU+1.5IQR的值,其中QL表示下四分位数,表示全部观察值中有四分之一的数据取值比它大、QU表示上四分位数,表示全部观察值中有四分之一的数据取值比它小、IQR表示四分位数间距,是QU与QL之差,其间包含了全部观察值的一半。
另外的一些异常值我们根据数据特征进行了筛选和修正。比如修正B13,家庭年收入(B13)应大于等于个人年收入(B14),同时大于家庭可支配年收入(B15)。
最终箱线图可视化结果如下
初始数据箱线图:
异常值处理后的箱线图:
5.3 数据描述性统计分析
5.3.1、小提琴图
下面这张图展示的是3个品牌关于8个满意度变量的小提琴图
v
可以发现:对于品牌类别1,数据分布基本上只有一个明显的峰值,说明客户对于该种品牌的满意度较为一致;对于品牌类别2,数据分布呈多峰形态,说明不同客户对该种品牌的满意度呈现多级分化;对于品牌类别3,a1电池技术性能满意度得分有两个分支,说明其满意度呈两极分布;a2-a8大体上呈单峰分布,说明客户对于品牌3的a2-a8满意度较为统一。
5.3.2、Wilcoxon检验和Kruskal-Wallis分析
Wilcoxon属于非参数检验,用于检验两个“独立样本”是否来自同一分布;Kruskal-Wallis 单因素方差分析是一个将两样本的 W-M-W 检验推广到三个或更多组检验的方法
Wilcoxon检验:
Kruskal-Wallis分析:
最终可以发现仅有特征a5(动力性表现满意度得分)的P值小于显著性水平0.1,表明客户对于不同品牌汽车的动力性能的满意度存在着较为明显的差异,而对于汽车其它性能的满意度差异不太明显
5.3.3、相关性分析
热力图展示相关系数
相关系数图表的颜色越蓝,表示两个变量之间的相关系数越接近1,从图中可以看出,a1-a8这些变量所在的区域为蓝色,说明这些变量的相关程度较高。
除此之外,(B10、B8)、(B13、B14、B15)之间也有着较强的相关性
对于相关性强的变量,往往存在着多重共线性。在进行特征工程时可以考虑剔除部分强相关的变量,以免导致因多重共线性造成的过拟合。
5.3.4、单变量的描述统计分析
从树状图中可以看出,居住在不同区域的目标客户数量差别明显。其中,居住在市中心的客户数量最多,有1010个,其次是居住在非市中心城区的客户数量,有770个。这从一定程度上表明电动汽车的目标客户主要集中在城市区域,而居住在农村和乡镇的目标客户数量极少。
除了上面的树状图可以了解到一定的信息外,通过频数分布图也可以进一步分析居住区域变量的统计分析量,经过对"居住区域"进行频数描述统计分析后发现居住在市中心以及城区的人占购买人数的大部分,属于购买的主力军
而居住在3 4 5 6区域的居民基本没有购买的意图。
5.4、特征筛选
采用基于惩罚项和基于树模型两种不同的嵌入法,前一种用LR、LASSO、SVM 三种模型,后一种用RF、LightGBM 模型共五个模型,求出影响不同品牌销售的相关特征。再根据五个模型选出的结果采用投票法,筛选出大于等于2 票的特征,作为影响该品牌销售主要因素。
经过模型特征筛选和投票,最终筛选的特征为:
【品牌1】 a3, a2, B13, B16, B17
【品牌2】 a2, a3, a5, B13, B16, B17
【品牌3】 a1, a2, a5, B6, B15, B16
以此作为输入特征进行下一步的实验操作
5.5、进行模型训练并筛选最优模型
分别在三个品牌上总共训练了8种模型
对应每个品牌选出一个最优模型,用F1和AUC的值作为指标进行筛选,最终的结果如下表所示,标黄的就是筛选出来的最优模型
5.6、模型调参
基于不同汽车品牌,各建立了三个分类模型:LightGBM、随机森林和Catboost,并使用贝叶斯调参对模型参数进行了优化,最优的参数如下,之后要根据最优参数训练模型进行预测
LightGBM:
{‘colsample_bytree’: 0.8355711727041659, ‘learning_rate’: 0.44781385174994104, ‘max_depth’: 8.792834264678396, ‘min_child_samples’: 34.01824715299404, ‘min_gain_to_split’: 0.04057136524907479, ‘n_estimators’: 398.44118903336954, ‘num_leaves’: 177.8104898243785, ‘reg_alpha’: 0.7559515415640095, ‘reg_lambda’: 1.0630604595697424, ‘subsample’: 0.7910496260293871}
随机森林:
{‘max_depth’: 13.902909375961684, ‘max_features’: 0.36472470106937904, ‘max_leaf_nodes’: 39.66364544325877, ‘min_samples_leaf’: 2.222423737558458, ‘min_samples_split’: 7.541652749129076, ‘n_estimators’: 215.74741953409503}
Catboost:
5.7、模型训练预测
使用之前得到的参数对顾客的购买行为进行预测,结果如下:
6、总结
这个实验对电动汽车的销售数据进行分析,使用机器学习和数据分析的模型算法了解了用户的满意度行为,同时能很好的预测客户的购买结果,能够为销售人员提出合理的销售策略建议。