生信分析0_linux操作指南
上游分析 1. 安装linux 这就不多说了,自己搞一个虚拟机,我用的是Centos7 2. 预先安装 首先要安装anaconda,为了不污染环境 -- 安装linux安装包(如果报错自己去网站找地址) wget https://repo.anaconda.com/archive/Anaconda3-2023.07-Linux-x86_64.sh …
生信分析-拟时序
拟时序分析 在进行了聚类之后,其实各细胞是否具有同种生存状态是未知的。拟时序分析的目的就在于将细胞分为不同的分支,将各点(细胞)体现在不同的时间坐标中,从而了解各细胞的状态定位 在做拟时序分析的时候,采取的是机器学习方法(无监督和有监督),因此需要一定的生物学知识对图标进行判断,图中主要是为了表达细胞之间(簇)表达谱系的连续性,因此方向未必与现实情…
生信分析-单细胞测序2
单细胞测序分析 3. 差异基因(DEG) 在单细胞RNA测序分析中,聚类之后筛选差异基因的主要目的是为了深入理解不同细胞群体之间的生物学差异。首先先看我们筛选出来的数据并对其进行解释 p_val:基因表达量差异P值(一般不看这个) p_val_adj:校正后的P值(一般看这个) avg_log2FC:基因在该细胞簇中与其他细胞簇表达量差异倍数的lo…
生信分析-单细胞测序1
单细胞测序分析 1. 测出数据部分 不是很懂,但是听说是利用linux上的cellranger进行操作,输出结果为两个文件夹,分别为raw_feature_bc_matrix和filter_feature_bc_matrix。前者为原始数据,后者为cellranger经过自己处理后的数据,后续的分析会基于filter_feature_bc_matr…
西瓜皮
模型评估与选择 评估方法 留出法 就是目前用的划分数据集的办法,注意是互斥的数据集 交叉验证 分为k个子集,用k-1作为训练集,剩下的作为测试集 性能度量 回归最常用的是均方误差 定义混淆矩阵: 正例 反例 TP(预测为真,实际为真) FN(预测为假,实际为真) FP(预测为真,实际为假) TN(预测为假,实际为假) 查准率(Precision)=…
Kaggle比赛:Titanic – Machine Learning from Disaster
Kaggle比赛:Titanic - Machine Learning from Disaster 链接:https://www.kaggle.com/competitions/titanic 成绩758/15641(2024.4.21): 还算不错吧,虽然是学习赛但好歹也是个5%嘻嘻 代码分析及思路 导入包与数据集 所有的包都放在一个代码块了,个…
天池-工业蒸汽量排放预测4
天池-工业蒸汽量排放预测4 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征优化 合成特征 从一个或多个输入特征衍生而来的特征,包括以下类型 将一个特征与其本身或其他特征相乘(特征组合) 两个特征相除 对连续特征分箱处理,分为多个区间分箱 特征的简单变换 单调变换(取对数)都不适用于决策树。…
天池-工业蒸汽量排放预测3
天池-工业蒸汽量排放预测3 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 模型评估 欠拟合与过拟合 模型的泛化与正则化 泛化:处理新样本的能力 正则化:添加一些规则以防止过拟合 交叉验证 1. 简单交叉验证 2. k折交叉验证,k值通常需要大于等于3 from sklearn.model_se…
天池-工业蒸汽量排放预测2
天池-工业蒸汽量排放预测2 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征工程 ​ ——“数据和特征决定了机器学习的上限,而模型与算法只是逼近这个上限” 数据预处理 没啥好说的,但是有一个正负样本不平衡的问题: 正样本>负样本,且量大的情况下,采用下采样 正样本<负样本,且量不…
天池-工业蒸汽量排放预测1
天池-工业蒸汽量排放预测1 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 数据探索 变量识别 通过变量类型,数据类型等方面分析,常见的有:字符型变量,数值型变量,连续性变量,类别性变量 变量分析 单变量分析 连续性变量需要统计数据的中心分布趋势与变量分布 类别性变量使用频次或者占比表示每一个类…