天池-工业蒸汽量排放预测2

特征工程

——“数据和特征决定了机器学习的上限，而模型与算法只是逼近这个上限”

没啥好说的，但是有一个正负样本不平衡的问题：

正样本>负样本，且量大的情况下，采用下采样

正样本<负样本，且量不大的情况下，采用上采样，修改损失函数，设置样本权重

1. 标准化：通过求标准分数的方法，将特征转换为标准正态分布，并和整体样本分布相关

2. 区间放缩：常见为用极值进行缩放

3. 归一化

归一化与标准化使用场景：

4. 定量特征二值化：大于阈值的为1，小于的为0

5. 定性特征哑编码：把不能定量处理的变量进行量化

6. 缺失值处理

7. 数据转换

最简单粗暴的办法，直接将不重要的特征删除，不过会造成特征信息的丢失，模型精度会得到下降

1. 过滤法：查看特征变量与目标变量之间的关系

2. 包装法：通过目标函数的AUC或MES决定是否添加变量

3. 嵌入法：学习期自身自动选择特征

1. PCA：使用之前需进行多重共线性分析，大才可以使用PCA

2. 线性判别分析法：使降维后的数据点尽可能容易的被区分