爱爱动图 若何径直用Seurat读取GEO中的单细胞测序抒发矩阵

发布日期:2022-05-11 08:18    点击次数:89

爱爱动图 若何径直用Seurat读取GEO中的单细胞测序抒发矩阵

图片爱爱动图爱爱动图

图片

1 常见的单细胞count matrix

Cell Ranger生成的raw count

Cell Ranger (v3.0)中生成的文献除了bam文献外主要即是如下的三个表格文献(Seurat 的示例文献,2700个pbmc细胞单细胞测序):

图片

这个世界每一天都在产生变化。我们以往熟悉的模式,每一刻都有可能被颠覆、打破、重塑。

咱们不错诓骗head号召搜检数据三个表格的内容爱爱动图。

Barcodes粗鄙来讲即是每个细胞的代码,构成即是ATCG四个碱基胪列组合成的不同的14个碱基组合;

Gene.tsv简略features.tsv一般是基因的ensembl ID 和symbol

matrix.mtx说白了即是每个细胞不同基因的抒发矩阵,咱们诓骗永别搜检文献的发轫和收尾:     

图片

玩弄chinese丰满人妻videos "Clear Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;font-size: 16px;text-align: start;">这里咱们不错发现其实即是2700个细胞不同基因的抒发(第一列是基因的ID,用于与genes.tsv对应治愈;第二列则是细胞的编号,匹配barcodes.tsv;第三列则是基因的抒发量TPM)(莫得抒发的基因不做记载)这三组表格组合成。结合这三个表格构成后咱们也不难发现,不可偏废的是matrx.mtx文献,而genes.tsv则一般是用于留神的基因组通用文献;而如若缺失barcodes.tsv的话,则不错凭证matrix判断细胞数目我方“人为构建出”相应数目不同的barcode表格简略诓骗samtools从bam文献获得。当咱们把这三个文献后存在一个沉静文献夹后不错径直诓骗Seurat (v3.0)的Read10X()号召读取并构建成行称呼为基因名,列称呼为barcode序列(基因名x细胞)的抒发矩阵(也即是SeuratObject)进行后续分析。如若咱们只想从这三个表格径直整合成一个(基因名x细胞)的抒发矩阵,不错诓骗以下代码完成:

library(Matrix)matrix_dir = "~/filtered_feature_bc_matrix/hg19/"   ##凭证本色文献夹进行修改barcode.path <- paste0(matrix_dir,亚洲人成无码区在线观看 "barcodes.tsv")features.path <- paste0(matrix_dir, "genes.tsv")matrix.path <- paste0(matrix_dir, "matrix.mtx")mat <- readMM(file = matrix.path)feature.names = read.delim(features.path,                           header = FALSE,                           stringsAsFactors = FALSE)barcode.names = read.delim(barcode.path,                           header = FALSE,                           stringsAsFactors = FALSE)colnames(mat) = barcode.names$V1rownames(mat) = feature.names$V1

从全球数据库中获得的count matrix爱爱动图

拿咱们常见的GEO数据库为例,如若是上传到GEO数据的数据必须要上传处理后的数据(https://www.ncbi.nlm.nih.gov/geo/info/seq.html),这一方面轻便其他盘问人员径直更快速的获得简略考证领先的高通量测序,减少了下载SRA粗数据并进行再行比对的技能。

一般来讲这些数据经常是整合好的一个count matrix,比如最新上传的一组造血干细胞单细胞测序数据(A 3D Atlas of Hematopoietic Stem and Progenitor Cell Expansion by Multi-dimensional RNA-Seq Analysis)(GSE120503),咱们看到的处理后数据是单个文献,如下图所示:

图片

解压后咱们得到只消一个叫做“GSM3402061_zebrafish_HSC_counts_change.merge.txt”的文献,而不是Cell Ranger输出的三个文献。

咱们搜检一下文献的内容:

图片

其实这即是咱们在上一步整合出的(基因 x 细胞)的抒发矩阵,那么如若咱们想径直诓骗Seurat导入这个抒发矩阵进行后续分析该若何做呢?

图片

2 Count matrix导入Seur

关于上述的抒发矩阵,咱们不可径直使用Seurat的Read10X()函数进行读取,然而要进行后续分析咱们不错径直把这个抒发矩阵造成SeuratObject。这是一个R读取表格的基本操作:

setwd("/test/")  ##安静职责目次library(Seurat)  ##version 3.0library(dplyr)new_counts <- read.table(file="/test/GSM3402061_zebrafish_HSC_counts_change.merge.txt")head(new_counts)mydata <- CreateSeuratObject(counts = new_counts, min.cells = 3, project = "mydata_scRNAseq")

通过以上两种操作咱们就不错完成Cell Ranger产出数据与SeuratObject之间的相互治愈。而诓骗这种纯粹的几行号召,咱们不错较快的从别人上传好的数据中获得咱们所需的信息(诚然这需要咱们充分肯定诱骗者简略数据上传人关于数据处理的数据质料),简约了多半下载和处理数据的技能。

图片

本站是提供个人常识贬责的收罗存储空间,总共内容均由用户发布,不代表本站想法。致敬稳甄别内容中的相干方式、引导购买等信息,防卫诓骗。如发现存害或侵权内容,请点击一键举报。



Powered by 中文字幕无码亚洲字幕成a人 @2013-2022 RSS地图 HTML地图