天池-工业蒸汽量排放预测2
链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com)
特征工程
——“数据和特征决定了机器学习的上限,而模型与算法只是逼近这个上限”
数据预处理
没啥好说的,但是有一个正负样本不平衡的问题:
正样本>负样本,且量大的情况下,采用下采样
正样本<负样本,且量不大的情况下,采用上采样,修改损失函数,设置样本权重
特征处理
1. 标准化:通过求标准分数的方法,将特征转换为标准正态分布,并和整体样本分布相关
2. 区间放缩:常见为用极值进行缩放
3. 归一化
归一化与标准化使用场景:
- 对输出范围有要求,使用归一化
- 不存在极端最大值与最小值,使用归一化
- SVM,KNN,PAC必须进行操作
4. 定量特征二值化:大于阈值的为1,小于的为0
5. 定性特征哑编码:把不能定量处理的变量进行量化
6. 缺失值处理
7. 数据转换
特征降维1:特征选择
最简单粗暴的办法,直接将不重要的特征删除,不过会造成特征信息的丢失,模型精度会得到下降
1. 过滤法:查看特征变量与目标变量之间的关系
- 相关系数
- 卡方检验
- 信息增益,互信息
- RFE,使用一个基模型进行多伦训练,每次训练后消除若干权值系数的特征,在基于新的特征集进行下一轮训练(一般使用树模型)
2. 包装法:通过目标函数的AUC或MES决定是否添加变量
- 产生特征子集
3. 嵌入法:学习期自身自动选择特征
- 正则化
- 决策树
- 深度学习
特征降维2:线性降维度
1. PCA:使用之前需进行多重共线性分析,大才可以使用PCA
2. 线性判别分析法:使降维后的数据点尽可能容易的被区分