生信分析2_差异基因与细胞标注
单细胞测序分析 3. 差异基因(DEG) 在单细胞RNA测序分析中,聚类之后筛选差异基因的主要目的是为了深入理解不同细胞群体之间的生物学差异。首先先看我们筛选出来的数据并对其进行解释 p_val:基因表达量差异P值(一般不看这个) p_val_adj:校正后的P值(一般看这个) avg_log2FC:基因在该细胞簇中与其他细胞簇表达量差异倍数的lo…
|
192
|
|
1116 字
|
5 分钟
生信分析1_质控与聚类
单细胞测序分析 1. 测出数据部分 在通过前文的处理之后,我们得到了两个输出文件,分别为raw_feature_bc_matrix和filter_feature_bc_matrix。前者为原始数据,后者为cellranger经过自己处理后的数据,后续的分析会基于filter_feature_bc_matrix文件夹(上游比对分析产生的三个文件)。文…
|
203
|
|
1631 字
|
7 分钟
西瓜皮
模型评估与选择 评估方法 留出法 就是目前用的划分数据集的办法,注意是互斥的数据集 交叉验证 分为k个子集,用k-1作为训练集,剩下的作为测试集 性能度量 回归最常用的是均方误差 定义混淆矩阵: 正例 反例 TP(预测为真,实际为真) FN(预测为假,实际为真) FP(预测为真,实际为假) TN(预测为假,实际为假) 查准率(Precision)=…
|
225
|
|
6716 字
|
26 分钟
Kaggle比赛:Titanic – Machine Learning from Disaster
Kaggle比赛:Titanic - Machine Learning from Disaster 链接:https://www.kaggle.com/competitions/titanic 成绩758/15641(2024.4.21): 还算不错吧,虽然是学习赛但好歹也是个5%嘻嘻 代码分析及思路 导入包与数据集 所有的包都放在一个代码块了,个…
|
227
|
|
1642 字
|
19 分钟
天池-工业蒸汽量排放预测4
天池-工业蒸汽量排放预测4 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征优化 合成特征 从一个或多个输入特征衍生而来的特征,包括以下类型 将一个特征与其本身或其他特征相乘(特征组合) 两个特征相除 对连续特征分箱处理,分为多个区间分箱 特征的简单变换 单调变换(取对数)都不适用于决策树。…
|
184
|
|
241 字
|
1 分钟内
天池-工业蒸汽量排放预测3
天池-工业蒸汽量排放预测3 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 模型评估 欠拟合与过拟合 模型的泛化与正则化 泛化:处理新样本的能力 正则化:添加一些规则以防止过拟合 交叉验证 1. 简单交叉验证 2. k折交叉验证,k值通常需要大于等于3 from sklearn.model_se…
|
166
|
|
233 字
|
1 分钟内
天池-工业蒸汽量排放预测2
天池-工业蒸汽量排放预测2 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征工程 ——“数据和特征决定了机器学习的上限,而模型与算法只是逼近这个上限” 数据预处理 没啥好说的,但是有一个正负样本不平衡的问题: 正样本>负样本,且量大的情况下,采用下采样 正样本<负样本,且量不…
|
187
|
|
644 字
|
3 分钟
天池-工业蒸汽量排放预测1
天池-工业蒸汽量排放预测1 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 数据探索 变量识别 通过变量类型,数据类型等方面分析,常见的有:字符型变量,数值型变量,连续性变量,类别性变量 变量分析 单变量分析 连续性变量需要统计数据的中心分布趋势与变量分布 类别性变量使用频次或者占比表示每一个类…
|
204
|
|
1000 字
|
6 分钟
机器学习_4:模型实用技巧
机器学习_4:模型实用技巧 只套用模型会造成以下问题: 不能保证数据特征都是好的 学习得到的参数不一定是最优的 默认配置下的模型不是最佳的 因此,本节给出三种提升模型性能的方法 特征提升 特征抽取 将类似于声纹,图像,符号化等文本量化为特征向量。可以用DictVectorizer对特征进行抽取与向量化 # 自定义字典 measurements=[{…
|
160
|
|
777 字
|
7 分钟
机器学习_3:无监督学习经典模型
机器学习_3:无监督学习经典模型 可以算作是一种特征工程的办法了。他最重要的是发现数据本身的特点。功能如下: 发现数据的群落(聚类),寻找离群的样本 降维处理(PCA),保留低维且相关性高的特征 数据聚类 k均值算法 导包+导数据集 import numpy as np import matplotlib.pyplot as plt import …
|
139
|
|
406 字
|
5 分钟