天池-工业蒸汽量排放预测2

天池-工业蒸汽量排放预测2

链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com)

特征工程

​ ——“数据和特征决定了机器学习的上限,而模型与算法只是逼近这个上限”

数据预处理

没啥好说的,但是有一个正负样本不平衡的问题:

正样本>负样本,且量大的情况下,采用下采样

正样本<负样本,且量不大的情况下,采用上采样,修改损失函数,设置样本权重

特征处理

1. 标准化:通过求标准分数的方法,将特征转换为标准正态分布,并和整体样本分布相关

2. 区间放缩:常见为用极值进行缩放

3. 归一化

归一化与标准化使用场景:

  • 对输出范围有要求,使用归一化
  • 不存在极端最大值与最小值,使用归一化
  • SVM,KNN,PAC必须进行操作

4. 定量特征二值化:大于阈值的为1,小于的为0

5. 定性特征哑编码:把不能定量处理的变量进行量化

6. 缺失值处理

7. 数据转换

特征降维1:特征选择

最简单粗暴的办法,直接将不重要的特征删除,不过会造成特征信息的丢失,模型精度会得到下降

1. 过滤法:查看特征变量与目标变量之间的关系

  • 相关系数
  • 卡方检验
  • 信息增益,互信息
  • RFE,使用一个基模型进行多伦训练,每次训练后消除若干权值系数的特征,在基于新的特征集进行下一轮训练(一般使用树模型

2. 包装法:通过目标函数的AUC或MES决定是否添加变量

  • 产生特征子集

3. 嵌入法:学习期自身自动选择特征

  • 正则化
  • 决策树
  • 深度学习

特征降维2:线性降维度

1. PCA:使用之前需进行多重共线性分析,大才可以使用PCA

2. 线性判别分析法:使降维后的数据点尽可能容易的被区分

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇