Bow&Word2Vec
在对文本数据集进行预处理之后,后续办法与其他机器学习方法类似,即:特征工程+模型建立求解。本文介绍两种方法 Bag Of Words(Bow) 所谓BOW,便是先将所有出现过的单词记录下来,接着将句子转化为文本向量,表示盖茨在文本中出现的频率或次数 EXP 有以下两个句子: 文本1:I love machine learning 文本2:I lov…
nlp预处理常用函数
删除html标签 from bs4 import BeautifulSoup a = BeautifulSoup() a.get_text() 删除数字与标点符号 import re letter_only = re.sub("[^a-zA-Z]", " ", example.get_text() ) 转化大…
第一次雅思杂记
雅思终于考完了md,这次找不到借口因为别的东西不想敲代码了(虽然我感觉tmd听力还是过不了,运气好希望能一次过吧(虽然每次感觉运气好的时候运气都不好))。 无论如何,英语的学习算是告一段落了,就算运气不好的话,单科重考我认为还是很有把握的。 所以!接下来我要开始学习LLM了!但是如何入门呢?这个太宽太杂,我目前有这两种ideas: 直奔导师 直接去…
生信分析4_PPI与FT分析
这两块代码含量都比较少,大部分通过在线分析就可以出结果 7 PPI分析 构建差异表达基因编码的蛋白质之间的相互作用网络,识别关键调控蛋白质或蛋白质复合物。 输出的是PPI网络图及其分析结果,发现核心蛋白质。 在线分析网站:356 items (Macaca mulatta) - STRING interaction network (string-…
生信分析3_富集分析
5. 富集分析 通过前文我们可以提取出差异基因,然而差异基因的数量较多,对其进行分析会十分冗长,因此我们可以采取富集分析的方式进行归类。富集的意思是表示差异基因或者差异物质中注释到某个代谢通路的基因或者物质数目在所有差异基因或者物质中的比例显著大于背景基因或物质中注释到某个代谢通路的基因或物质数目在所有背景基因或者物质中的比例。简而言之一句话概括:…
生信分析0_linux操作指南
上游分析 1. 安装linux 这就不多说了,自己搞一个虚拟机,我用的是Centos7。 ps:如果使用的是学校集群的话,注意在修改密码中改一下自己的密码,开启后账号为:root,密码自定义(注意是暗文,你敲进去是不会显示的)结束了enter即可 2. 预先安装 首先要安装anaconda,为了不污染环境 -- 安装linux安装包(如果报错自己去…
生信分析4_拟时序
拟时序分析 在进行了聚类之后,其实各细胞是否具有同种生存状态是未知的。拟时序分析的目的就在于将细胞分为不同的分支,将各点(细胞)体现在不同的时间坐标中,从而了解各细胞的状态定位 在做拟时序分析的时候,采取的是机器学习方法(无监督和有监督),因此需要一定的生物学知识对图标进行判断,图中主要是为了表达细胞之间(簇)表达谱系的连续性,因此方向未必与现实情…
生信分析2_差异基因与细胞标注
单细胞测序分析 3. 差异基因(DEG) 在单细胞RNA测序分析中,聚类之后筛选差异基因的主要目的是为了深入理解不同细胞群体之间的生物学差异。首先先看我们筛选出来的数据并对其进行解释 p_val:基因表达量差异P值(一般不看这个) p_val_adj:校正后的P值(一般看这个) avg_log2FC:基因在该细胞簇中与其他细胞簇表达量差异倍数的lo…
生信分析1_质控与聚类
单细胞测序分析 1. 测出数据部分 在通过前文的处理之后,我们得到了两个输出文件,分别为raw_feature_bc_matrix和filter_feature_bc_matrix。前者为原始数据,后者为cellranger经过自己处理后的数据,后续的分析会基于filter_feature_bc_matrix文件夹(上游比对分析产生的三个文件)。文…
西瓜皮
模型评估与选择 评估方法 留出法 就是目前用的划分数据集的办法,注意是互斥的数据集 交叉验证 分为k个子集,用k-1作为训练集,剩下的作为测试集 性能度量 回归最常用的是均方误差 定义混淆矩阵: 正例 反例 TP(预测为真,实际为真) FN(预测为假,实际为真) FP(预测为真,实际为假) TN(预测为假,实际为假) 查准率(Precision)=…