1.基于python的单细胞数据预处理-特征选择

文章目录

  • 特征选择背景
  • 基于基因离散度
  • 基于基因归一化方差
  • 基于基因皮尔森近似残差
  • 特征选择总结

参考:
[1] https://github.com/Starlitnightly/single_cell_tutorial
[2] https://github.com/theislab/single-cell-best-practices

特征选择背景

现在已经获得了经过归一化的测序数据,其保留了细胞异质性,同时削弱了测量误差。统计发现,一个细胞表达的基因大约是3000个左右。这意味着测序数据中的一大部分基因是0计数。对于细胞亚型的研究,大部分0计数基因都在这些细胞亚型中,因此,预处理还包含特征选择,可以排除这些不具备分析意义的基因。

基因特征选择一般有三种方法:基于基因离散度,基于基因归一化方差,基于基因的皮尔森残差。

基于基因离散度

在传统的分析流程中,我们会采用基于基因离散度的方式去计算高变基因,一般来说,我们首先确定了单细胞数据集中变异最大的一组基因。我们计算了所有单细胞中每个基因的平均值和离散度(方差/平均值),并根据基因的平均值将基因分为 20 个箱(bins)。然后,在每个箱内,我们对箱内所有基因的离散度进行z归一化,以识别表达值高度可变的基因。

我们使用移位对数归一化后的数据:

import omicverse as ov
import scanpy as scov.utils.ov_plot_set()adata = sc.read("./data/s4d8_quality_control.h5ad")#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts'] = adata.X.copy()sc.pp.normalize_total(adata)
sc.pp.log1p(adata)
print(adata)

调用scanpy包里的pp.highly_variable_genes函数来计算高可变基因,由于我们使用的是基于基因离散度的方法,故设置flavor='seurat',该方法也是默认方法。基于基因离散度的方法寻找高变基因有两个方式:

  • 指定HVG数量,应用广泛,简单直接。
  • 指定离散度,数据敏感,应用其实很少,还是推荐指定HVG数量。

对于指定HVG数量:

adata_dis_num=sc.pp.highly_variable_genes(adata,flavor="seurat",n_top_genes=2000,subset=False,inplace=False,
)
print(adata)
print(adata_dis_num)
print(adata_dis_num['highly_variable'].value_counts())

设置inplace=False,将不会改变adata的var(打印adata的视图时,var中没有出现highly_variable)。输出为:
fig1
我们发现,一共选择了2000个高可变基因,这与我们最开始的分析目标一致。

基于基因归一化方差

在seurat v3中,提出了基于基因归一化方差做特征选择,我们不再使用归一化后的数据来计算高变基因。我们首先计算每一个基因的平均值 x ‾ i \overline{x}_{i} xi与方差 σ i \sigma_{i} σi,然后分别对平均值与方差进行log对数变换,然后用2次多项式,将方差作为均值的函数,进行多项式回归: σ ( x ) = a x 2 + b x + c \sigma(x)=ax^{2}+bx+c σ(x)=ax2+bx+c通过这个公式,可以获得每一个基因的预测方差,然后进行z变换: z i j = x i j − x ‾ i σ ( x i ) z_{ij}=\frac{x_{ij}-\overline{x}_{i}}{\sigma(x_{i})} zij=σ(xi)xijxi其中, z i j z_{ij} zij是细胞 j j j中基因 i i i的归一化值, x i j x_{ij} xij是细胞 j j j中基因 i i i的原始值, x ‾ i \overline{x}_{i} xi是所有细胞基因 i i i的平均原始值, σ ( x i ) \sigma(x_{i}) σ(xi)是预测的方差。对于特征选择,根据预测的方差进行排序即可。

在scanpy中,需要flavor='seurat_v3',并指定计数矩阵是没有归一化的layer='counts'

adata_var_num=sc.pp.highly_variable_genes(adata,flavor="seurat_v3",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_var_num['highly_variable'].value_counts())

基于基因皮尔森近似残差

基于皮尔森近似的方法也是使用原始计数:

adata_pearson_num=sc.experimental.pp.highly_variable_genes(adata, flavor="pearson_residuals",layer='counts',n_top_genes=2000,subset=False,inplace=False,
)
print(adata_pearson_num['highly_variable'].value_counts())

特征选择总结

对比三种不同的方法:

import matplotlib.pyplot as plt
from matplotlib_venn import venn3adata_dis_num.index=adata.var_names.copy()
adata_var_num.index=adata.var_names.copy()
adata_pearson_num.index=adata.var_names.copy()# 三个列表的元素
list1 = set(adata_dis_num.loc[adata_dis_num['highly_variable']==True].index.tolist())
list2 = set(adata_var_num.loc[adata_var_num['highly_variable']==True].index.tolist())
list3 = set(adata_pearson_num.loc[adata_pearson_num['highly_variable']==True].index.tolist())# 绘制 Venn 图
venn = venn3([list1, list2, list3], set_labels=('Dis', 'Var', 'Pearson'))# 显示图形
plt.title("Venn Diagram of Three HVGs")
plt.savefig("./result/2-5.png")

fig2

发现三种不同方法所找到的高可变基因(HVGs)仅有656个是相同的,这意味着不同的方法所寻找到的高可变基因会影响下游分析的结果一致性。如果对时间要求不严格,推荐使用皮尔森残差法来获得高可变基因。如果需要快速,推荐基于基因离散度的方法。

在omicverse中,归一化和特征选择预处理被包装好了,mode参数为normalize|HVGs,前者是归一化,后者是特征选择:

adata = sc.read("./data/s4d8_quality_control.h5ad")
#存储原始数据以便后续还原
ov.utils.store_layers(adata,layers='counts')
adata.layers['counts']=adata.X.copy()adata=ov.pp.preprocess(adata,mode='shiftlog|pearson',n_HVGs=2000)
print(adata)# 存储预处理后的数据
adata.write_h5ad('./data/s4d8_preprocess.h5ad')

在结果上,注意:与scanpy不同,omicverse计算高可变基因后,将保存为var['highly_variable_features'],而在scanpy中,HVG将保存为var['highly_variable'],都是包含bool值的Series。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3031739.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Python之数据分析基础

导言: “21世纪的竞争是数据的竞争,谁掌握数据,谁就掌握未来”。如何将大量看似杂乱无章的数据进行聚合,并发现潜在的规律也变得越来越重要。本文将先说明数据分析的步骤,再通过python完成实例数据的处理、分析最终展…

针对 % 号 | 引起的 不安全情况

把网站开放的课程都检索下来了 一、情况1 org.apache.tomcat.util.http.Parameters processParameters 信息: Character decoding failed. Parameter [Mac] with value [%%%] has been ignored. Note that the name and value quoted here may be corrupted due to the failed…

【北京迅为】《iTOP-3588从零搭建ubuntu环境手册》-第4章 Ubuntu20.04支持中文

RK3588是一款低功耗、高性能的处理器,适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用,RK3588支持8K视频编解码,内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

电商购物系统商品数据结构设置

电商购物系统商品数据结构设置 如上图所示 , 该表为商品表关系的示意图 , 气质我们要溥仪一个电视购物系统要用到的知识那就是SPU和SKU 简单来说这两种就是不同的分类方式 , 我们在浏览淘宝等页面的时候也会遇见相同的情况如我们可以进行品牌的筛选 , 也可以进行商品价格的筛选…

C# WinForm —— 13 ComboBox下拉框/组合框介绍

1. 简介 ComboBox 是由 textBox 和 listBox 组合而成的,只能选择一项,不能选择多项,其他功能和 listBox类似 ComboBox 下拉框的三种样式:(通过 DropDownStyle属性 设置) Simple: 最简单的样式&#xff0c…

YOLO系列笔记(十四)——Compute Canada计算平台及其常见命令介绍

Compute Canada平台及其常见命令介绍 前言优势使用方法1. 检查模块不带版本号带版本号 2. 加载模块3. 检查模块是否加载成功4. 创建虚拟环境5. 编写作业脚本6. 提交作业7. 监控作业状态8. 查看作业开始预计时间9. 查看作业的详细输出10. 取消作业 注意结语 前言 大家好&#x…

QML 本地存储(Setting,sqlite)

Qt hello - 专注于Qt的技术分享平台 QML 原生的储存方有两种: 1,Settings 跟QWidget 中的QSettings 一样,可以简单的存储一些配置。 2,Sqlite sqlite数据库。可以存储一些复杂的数据。 一,Settings 我们以一个按钮的位…

揭秘微服务架构:十大设计模式助力企业数字化转型

微服务架构中10个常用的设计模式 微服务是一种架构风格,它将一个复杂的应用拆分成多个独立自治的服务,每个服务负责应用程序中的一小部分功能。这些服务通过定义良好的API进行通信,通常是HTTP RESTful API或事件流。微服务架构的主要特点包括…

【SpringSecurity源码】过滤器链加载流程

theme: smartblue highlight: a11y-dark 一、前言及准备 1.1 SpringSecurity过滤器链简单介绍 在Spring Security中,过滤器链(Filter Chain)是由多个过滤器(Filter)组成的,这些过滤器按照一定的顺序对进…

工作中使用Optional处理空指针异常

工作中使用Optional处理空指针异常 实体类以前对空指针的判断Optional处理空指针测试结果 实体类 package po;import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor;import java.io.Serializable;Data AllArgsConstructor NoArgsConstruct…

某大型集团SAP数字化转型方案(95页PPT)

一、资料介绍 《某大型集团SAP数字化转型方案》是一份详尽的95页PPT资料,旨在为某大型集团提供一套全面而深入的SAP数字化转型方案。该方案紧密结合了集团的业务特点和发展需求,以SAP系统为核心,通过数字化技术的运用,实现业务流…

图片格式不对怎么转换?推荐几个图片转换的高效处理方法

在日常使用电脑或处理图片的过程中,我们经常会遇到图片格式不兼容的问题,例如,我们可能收到了一个无法打开的图片文件,或者想将图片转换为其他格式以便在不同的应用程序中使用,这时候就需要将图片转格式,所…

智慧公厕解决了什么问题?

在现代城市生活中,公厕是一个不可忽视的环节。然而,过去的公共厕所常常存在管理不力、环境脏乱差等问题,给人们的生活带来了许多不便和困扰。为了解决这些问题,智慧公厕应运而生,成为了公共厕所使用、运行、管理、养护…

无线收发模块家电控制实验

zkhengyang可申请加入数字音频系统研究开发交流答疑群(课题组) 当然可以先用固定电平发送,可以实现,0/1数据发送,接收。 可以使用51单片机来编码码,解码,或者任何MCU或者SOC,DSP,FPGA。 注意G…

WebSocket基础知识

WebSocket是什么? WebSocket 是一种网络通信协议,它提供了全双工通信机制,允许服务器主动向客户端发送消息,而不仅限于响应客户端的请求。它使用类似于 HTTP 的握手来建立连接,然后使用单独的持久连接来进行通信。这种…

电视剧推荐

1、《春色寄情人》 2、《唐朝诡事录》 3、《南来北往》 4、《与凤行》 5、《利剑玫瑰》 6、《承欢记》

使用nmcli命令在Linux系统上配置各种网络(有线、无线、vlan、vxlan、路由、网桥等)

前言:原文在我的博客网站中,持续更新数通、系统方面的知识,欢迎来访! 使用nmcli命令在Linux系统上配置各种网络(有线、无线、vlan、vxlan、路由、网桥等)https://myweb.myskillstree.cn/123.html 你是否会…

护眼台灯和普通台灯差别很大吗?专业护眼灯品牌有哪些?

随着科技的不断演进,台灯的设计也日益脱胎换骨,从曾经的笨重造型转变为如今轻盈雅致的外观。它们的功能同样经历了多样化的革新,变得更加人性化和便捷。作为学习、阅读和办公环境中不可或缺的照明工具,台灯所提供的光线舒适度至关…

ChatGLM 本地部署指南(问题解决)

硬件要求(模型推理): INT4 : RTX3090*1,显存24GB,内存32GB,系统盘200GB 如果你没有 GPU 硬件的话,也可以在 CPU 上进行推理,但是推理速度会更慢。 模型微调硬件要求更高。…

【ArcGISProSDK】condition属性

示例 通过caption属性可以看出esri_mapping_openProjectCondition的条件是一个工程被打开 condition的作用 由此可知示例中的Tab实在工程被打开才能使用,否则他禁用显示灰色,在未禁用的时候说明条件满足。 参考文档 insertCondition 元素 (arcgis.com…