Kaggle比赛:Titanic – Machine Learning from Disaster
Kaggle比赛:Titanic - Machine Learning from Disaster 链接:https://www.kaggle.com/competitions/titanic 成绩758/15641(2024.4.21): 还算不错吧,虽然是学习赛但好歹也是个5%嘻嘻 代码分析及思路 导入包与数据集 所有的包都放在一个代码块了,个…
2024-4-21 18:13
|
127
|
|
1642 字
|
19 分钟
天池-工业蒸汽量排放预测4
天池-工业蒸汽量排放预测4 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征优化 合成特征 从一个或多个输入特征衍生而来的特征,包括以下类型 将一个特征与其本身或其他特征相乘(特征组合) 两个特征相除 对连续特征分箱处理,分为多个区间分箱 特征的简单变换 单调变换(取对数)都不适用于决策树。…
2024-4-20 16:45
|
79
|
|
241 字
|
1 分钟内
天池-工业蒸汽量排放预测3
天池-工业蒸汽量排放预测3 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 模型评估 欠拟合与过拟合 模型的泛化与正则化 泛化:处理新样本的能力 正则化:添加一些规则以防止过拟合 交叉验证 1. 简单交叉验证 2. k折交叉验证,k值通常需要大于等于3 from sklearn.model_se…
2024-4-20 16:21
|
75
|
|
233 字
|
1 分钟内
天池-工业蒸汽量排放预测2
天池-工业蒸汽量排放预测2 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征工程 ——“数据和特征决定了机器学习的上限,而模型与算法只是逼近这个上限” 数据预处理 没啥好说的,但是有一个正负样本不平衡的问题: 正样本>负样本,且量大的情况下,采用下采样 正样本<负样本,且量不…
2024-4-20 16:04
|
90
|
|
644 字
|
3 分钟
天池-工业蒸汽量排放预测1
天池-工业蒸汽量排放预测1 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 数据探索 变量识别 通过变量类型,数据类型等方面分析,常见的有:字符型变量,数值型变量,连续性变量,类别性变量 变量分析 单变量分析 连续性变量需要统计数据的中心分布趋势与变量分布 类别性变量使用频次或者占比表示每一个类…
2024-4-19 23:13
|
115
|
|
1000 字
|
6 分钟
机器学习_4:模型实用技巧
机器学习_4:模型实用技巧 只套用模型会造成以下问题: 不能保证数据特征都是好的 学习得到的参数不一定是最优的 默认配置下的模型不是最佳的 因此,本节给出三种提升模型性能的方法 特征提升 特征抽取 将类似于声纹,图像,符号化等文本量化为特征向量。可以用DictVectorizer对特征进行抽取与向量化 # 自定义字典 measurements=[{…
2024-4-19 20:16
|
81
|
|
777 字
|
7 分钟
机器学习_3:无监督学习经典模型
机器学习_3:无监督学习经典模型 可以算作是一种特征工程的办法了。他最重要的是发现数据本身的特点。功能如下: 发现数据的群落(聚类),寻找离群的样本 降维处理(PCA),保留低维且相关性高的特征 数据聚类 k均值算法 导包+导数据集 import numpy as np import matplotlib.pyplot as plt import …
2024-4-19 17:41
|
66
|
|
406 字
|
5 分钟
机器学习_2:监督学习经典模型
机器学习_2:监督学习经典模型 模型是小,因为通过百度掉包都可以实现,但是重要的是流程 分类学习 线性分类器 数据集url地址(乳腺癌良恶性预测):https://archive. ics. uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ 假设特征与分类结果存在线性关系,…
2024-4-19 15:21
|
82
|
|
1164 字
|
12 分钟
机器学习_1:基础知识
想恶补一下基础,为5月份的实习做准备,写一篇浅浅记录一下吧 引言 分类 有监督学习:有特征与标记(决定监督学习的种类),使用特征向量描述数据样本, 无监督学习:没有特征与标记,无法预测 从原始数据转为特征向量的过程中,存在多种数据数据类型(类别形,数值型,缺失值) 性能 预测性质:预测正确类别的百分比,俗称准确性(Accuracy) 回归:预测值与…
2024-4-19 11:03
|
68
|
|
219 字
|
1 分钟内
特征工程方法总结4
滑动窗口差分特征 (Difference in Rolling Window):在滑动窗口内计算差分特征,用于捕捉时间序列的趋势变化。 卡方分箱 (Chi-Square Binning):将连续特征分成不同区间,以保留数据分布的重要信息。 时间序列聚类特征 (Time Series Clustering):将相似的时间序列数据聚类,以提取聚类标签作…
2024-1-22 18:21
|
70
|
|
1121 字
|
5 分钟