分类: 机器学习

18 篇文章

西瓜皮
模型评估与选择 评估方法 留出法 就是目前用的划分数据集的办法,注意是互斥的数据集 交叉验证 分为k个子集,用k-1作为训练集,剩下的作为测试集 性能度量 回归最常用的是均方误差 定义混淆矩阵: 正例 反例 TP(预测为真,实际为真) FN(预测为假,实际为真) FP(预测为真,实际为假) TN(预测为假,实际为假) 查准率(Precision)=…
机器学习_4:模型实用技巧
机器学习_4:模型实用技巧 只套用模型会造成以下问题: 不能保证数据特征都是好的 学习得到的参数不一定是最优的 默认配置下的模型不是最佳的 因此,本节给出三种提升模型性能的方法 特征提升 特征抽取 将类似于声纹,图像,符号化等文本量化为特征向量。可以用DictVectorizer对特征进行抽取与向量化 # 自定义字典 measurements=[{…
机器学习_3:无监督学习经典模型
机器学习_3:无监督学习经典模型 可以算作是一种特征工程的办法了。他最重要的是发现数据本身的特点。功能如下: 发现数据的群落(聚类),寻找离群的样本 降维处理(PCA),保留低维且相关性高的特征 数据聚类 k均值算法 导包+导数据集 import numpy as np import matplotlib.pyplot as plt import …
机器学习_2:监督学习经典模型
机器学习_2:监督学习经典模型 模型是小,因为通过百度掉包都可以实现,但是重要的是流程 分类学习 线性分类器 数据集url地址(乳腺癌良恶性预测):https://archive. ics. uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ 假设特征与分类结果存在线性关系,…
机器学习_1:基础知识
想恶补一下基础,为5月份的实习做准备,写一篇浅浅记录一下吧 引言 分类 有监督学习:有特征与标记(决定监督学习的种类),使用特征向量描述数据样本, 无监督学习:没有特征与标记,无法预测 从原始数据转为特征向量的过程中,存在多种数据数据类型(类别形,数值型,缺失值) 性能 预测性质:预测正确类别的百分比,俗称准确性(Accuracy) 回归:预测值与…
特征工程方法总结4
滑动窗口差分特征 (Difference in Rolling Window):在滑动窗口内计算差分特征,用于捕捉时间序列的趋势变化。 卡方分箱 (Chi-Square Binning):将连续特征分成不同区间,以保留数据分布的重要信息。 时间序列聚类特征 (Time Series Clustering):将相似的时间序列数据聚类,以提取聚类标签作…
特征工程方法总结3
频率编码 (Frequency Encoding):用类别出现的频率替代原始值,有助于模型学习类别的稀有程度。 目标编码 (Target Encoding):用目标变量的统计信息(如平均值、标准差)替换类别特征,从而传递目标变量的信息。 时间特征 (Time Features):从时间戳中提取年、月、日、小时等信息,帮助模型捕捉时间相关的模式。 季…
Scientific Machine Learning Through Physics–Informed
摘要(中) 物理信息神经网络(PINN)是一种神经网络(NNs),它编码模型方程,如偏微分方程(PDE),作为神经网络本身的一个组成部分。pinn目前被用于求解偏微分方程、分数方程、积分微分方程和随机偏微分方程。这种新颖的方法已经成为一种多任务学习框架,其中神经网络必须拟合观测数据,同时减少PDE残差。这篇文章提供了一个关于pinn的文献的全面回顾…
特征工程方法总结2
前言 越写越上头,话不多说,再续前缘! 方法 空间特征 (Spatial Features):对于地理数据,可以提取经纬度、距离、区域等空间特征,用于地理信息系统分析。 音频特征 (Audio Features):从音频数据中提取梅尔频谱、音高、节奏等特征,适用于语音识别和音乐分析。 图像颜色特征 (Color Features):提取图像的颜色直…
特征工程方法总结1
起因 很想打比赛,然后发现大部分的机器学习比赛中特征工程才是最重要的,因此就小小的总结一下把,也省得天天打游戏==(也不知道能坚持多久🤣🤣🤣) 方法 归一化 (Normalization):通过将特征缩放到一定范围,如0到1或-1到1,以便模型更好地处理不同尺度的特征。避免数据过于离散 标准化 (Standardization):通过减去均值并除以…