特征工程方法总结4
滑动窗口差分特征 (Difference in Rolling Window):在滑动窗口内计算差分特征,用于捕捉时间序列的趋势变化。 卡方分箱 (Chi-Square Binning):将连续特征分成不同区间,以保留数据分布的重要信息。 时间序列聚类特征 (Time Series Clustering):将相似的时间序列数据聚类,以提取聚类标签作…
2024-1-22 18:21
|
74
|
|
1121 字
|
5 分钟
特征工程方法总结3
频率编码 (Frequency Encoding):用类别出现的频率替代原始值,有助于模型学习类别的稀有程度。 目标编码 (Target Encoding):用目标变量的统计信息(如平均值、标准差)替换类别特征,从而传递目标变量的信息。 时间特征 (Time Features):从时间戳中提取年、月、日、小时等信息,帮助模型捕捉时间相关的模式。 季…
2024-1-22 18:21
|
54
|
|
1203 字
|
5 分钟
Scientific Machine Learning Through Physics–Informed
摘要(中) 物理信息神经网络(PINN)是一种神经网络(NNs),它编码模型方程,如偏微分方程(PDE),作为神经网络本身的一个组成部分。pinn目前被用于求解偏微分方程、分数方程、积分微分方程和随机偏微分方程。这种新颖的方法已经成为一种多任务学习框架,其中神经网络必须拟合观测数据,同时减少PDE残差。这篇文章提供了一个关于pinn的文献的全面回顾…
2023-11-15 21:56
|
192
|
|
2179 字
|
9 分钟
特征工程方法总结2
前言 越写越上头,话不多说,再续前缘! 方法 空间特征 (Spatial Features):对于地理数据,可以提取经纬度、距离、区域等空间特征,用于地理信息系统分析。 音频特征 (Audio Features):从音频数据中提取梅尔频谱、音高、节奏等特征,适用于语音识别和音乐分析。 图像颜色特征 (Color Features):提取图像的颜色直…
2023-11-12 23:37
|
121
|
|
1359 字
|
6 分钟
特征工程方法总结1
起因 很想打比赛,然后发现大部分的机器学习比赛中特征工程才是最重要的,因此就小小的总结一下把,也省得天天打游戏==(也不知道能坚持多久🤣🤣🤣) 方法 归一化 (Normalization):通过将特征缩放到一定范围,如0到1或-1到1,以便模型更好地处理不同尺度的特征。避免数据过于离散 标准化 (Standardization):通过减去均值并除以…
2023-11-12 22:55
|
81
|
|
1720 字
|
7 分钟
常用损失函数选取及其优缺点
常用损失函数 SSE(和方差) 最简单的了,就是拟合数据和原始对应点的误差的平方和(有平方和是为了排除负的情况) MES(均方方差) 比SSE稍微厉害一点,是预测数据和原始数据对应点误差的平方和的均值,即SSE/n(n为样本个数) RMSE(拟合标准差) 是MSE的平方根。又叫回归系统的拟合标准差 缺点 MSE 当偏导值接近0或1时,梯度可能会消失…
2023-11-06 21:24
|
110
|
|
196 字
|
1 分钟内
PINN实例
题目 求解过程 首先观察该式子,是一个偏微分方程再加上4个边界条件。由此应该会有五个损失函数。本题的解析解为u=sin(pix)sin(piy),我们也可以将PINN求解出的u与解析解进行比较(训练的时候不要放进去,不然产生逻辑错误)你都有解析解了还要求来干啥QAQ 代码部分 导入该有的包(其实一个pytorch就够了,画图是为了显示出差异) im…
2023-11-05 22:59
|
174
|
|
651 字
|
11 分钟
DL之PINN
PINN是什么? 本质上依然是神经网络,但是又把物理方程作为限制加入神经网络中使训练的结果满足物理规律。通过把物理方程的迭代前后的差值加到神经网络的损失函数里面去,让物理方程也“参与”到了训练过程。这样,神经网络在训练迭代时候优化的不仅仅是网络自己的损失函数,还有物理方程每次迭代的差,使得最后训练出来的结果就满足物理规律。相对于其他普通的神经网络,…
2023-11-05 16:44
|
122
|
|
580 字
|
5 分钟
tensorflow_5:高级操作
常用, 但是稍复杂的功能函数 1. tf.gather 该函数可以根据索引号收集数据 假设共有4个班级,每个班级35个学生,8门科目,保存成绩册的张量shape为[4,35,8]. x = tf.random.uniform([4, 35, 8], maxval=100) 收集第 1~2 个班级的成绩册,可以给定需要收集班级的索引号:[0,…
2023-9-22 16:21
|
90
|
|
723 字
|
4 分钟
tensorflow_4:合并,分割等基础操作
拼接 合并是指将多个张量在某个维度上合并为一个张量。以某学校班级成绩册数据为例,设张量𝑨保存了某学校 1~4 号班级的成绩册,每个班级 35 个学生,共 8 门科目成绩,则张量𝑨的 shape 为:[4,35,8];同样的方式,张量𝑩保存了其它 6 个班级的成绩册,shape [6,35,8]。通过合并这 2 份成绩册,便可得到学校所有班级的成绩册…
2023-9-22 16:11
|
83
|
|
673 字
|
4 分钟