某只菜鸡 – 一个纯粹的人

西瓜皮

2024-5-13 18:45

|

82

|

0

|

机器学习

6716 字

|

26 分钟

模型评估与选择评估方法留出法就是目前用的划分数据集的办法，注意是互斥的数据集交叉验证分为k个子集，用k-1作为训练集，剩下的作为测试集性能度量回归最常用的是均方误差定义混淆矩阵：正例反例 TP（预测为真，实际为真） FN（预测为假，实际为真） FP（预测为真，实际为假） TN（预测为假，实际为假）查准率（Precision）=…

Kaggle比赛：Titanic – Machine Learning from Disaster

2024-4-21 18:13

|

90

|

0

|

比赛

1642 字

|

19 分钟

Kaggle比赛：Titanic - Machine Learning from Disaster 链接：https://www.kaggle.com/competitions/titanic 成绩758/15641（2024.4.21）：还算不错吧，虽然是学习赛但好歹也是个5%嘻嘻代码分析及思路导入包与数据集所有的包都放在一个代码块了，个…

天池-工业蒸汽量排放预测4

2024-4-20 16:45

|

49

|

0

|

比赛

241 字

|

1 分钟内

天池-工业蒸汽量排放预测4 链接：工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征优化合成特征从一个或多个输入特征衍生而来的特征，包括以下类型将一个特征与其本身或其他特征相乘（特征组合）两个特征相除对连续特征分箱处理，分为多个区间分箱特征的简单变换单调变换（取对数）都不适用于决策树。…

天池-工业蒸汽量排放预测3

2024-4-20 16:21

|

42

|

0

|

比赛

233 字

|

1 分钟内

天池-工业蒸汽量排放预测3 链接：工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 模型评估欠拟合与过拟合模型的泛化与正则化泛化：处理新样本的能力正则化：添加一些规则以防止过拟合交叉验证 1. 简单交叉验证 2. k折交叉验证，k值通常需要大于等于3 from sklearn.model_se…

天池-工业蒸汽量排放预测2

2024-4-20 16:04

|

61

|

0

|

比赛

644 字

|

3 分钟

天池-工业蒸汽量排放预测2 链接：工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征工程 ——“数据和特征决定了机器学习的上限，而模型与算法只是逼近这个上限” 数据预处理没啥好说的，但是有一个正负样本不平衡的问题：正样本>负样本，且量大的情况下，采用下采样正样本<负样本，且量不…

天池-工业蒸汽量排放预测1

2024-4-19 23:13

|

86

|

0

|

比赛

1000 字

|

6 分钟

天池-工业蒸汽量排放预测1 链接：工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 数据探索变量识别通过变量类型，数据类型等方面分析，常见的有：字符型变量，数值型变量，连续性变量，类别性变量变量分析单变量分析连续性变量需要统计数据的中心分布趋势与变量分布类别性变量使用频次或者占比表示每一个类…

机器学习_4:模型实用技巧

2024-4-19 20:16

|

50

|

0

|

机器学习

777 字

|

7 分钟

机器学习_4:模型实用技巧只套用模型会造成以下问题：不能保证数据特征都是好的学习得到的参数不一定是最优的默认配置下的模型不是最佳的因此，本节给出三种提升模型性能的方法特征提升特征抽取将类似于声纹，图像，符号化等文本量化为特征向量。可以用DictVectorizer对特征进行抽取与向量化 # 自定义字典 measurements=[{…

机器学习_3:无监督学习经典模型

2024-4-19 17:41

|

42

|

2

|

机器学习

406 字

|

5 分钟

机器学习_3:无监督学习经典模型可以算作是一种特征工程的办法了。他最重要的是发现数据本身的特点。功能如下：发现数据的群落（聚类），寻找离群的样本降维处理（PCA），保留低维且相关性高的特征数据聚类 k均值算法导包+导数据集 import numpy as np import matplotlib.pyplot as plt import …

机器学习_2:监督学习经典模型

2024-4-19 15:21

|

60

|

0

|

机器学习

1164 字

|

12 分钟

机器学习_2:监督学习经典模型模型是小，因为通过百度掉包都可以实现，但是重要的是流程分类学习线性分类器数据集url地址（乳腺癌良恶性预测）：https://archive. ics. uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ 假设特征与分类结果存在线性关系，…

机器学习_1:基础知识

2024-4-19 11:03

|

40

|

0

|

机器学习

219 字

|

1 分钟内

想恶补一下基础，为5月份的实习做准备，写一篇浅浅记录一下吧引言分类有监督学习：有特征与标记（决定监督学习的种类），使用特征向量描述数据样本，无监督学习：没有特征与标记，无法预测从原始数据转为特征向量的过程中，存在多种数据数据类型（类别形，数值型，缺失值）性能预测性质：预测正确类别的百分比，俗称准确性（Accuracy）回归：预测值与…