single_cell_RNA/scRNA_Notes.Rmd at master · the8thday/single_cell_RNA · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
---
title: "scRNA notes"
author: "liuc"
date: '2022-03-28'
output: pdf_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## scRNA Notes

测序流程：现在主流的主要10X Genomics Chromium（较多细胞），SMART-seq2（较多基因）和Fluidigm C1等。当然还有其他的如：CELL-seq、Drop-seq、mas-seq和Wafergen ICELL8等.


10X用到的建库技术是微滴droplet-based 技术, 通过Poly(dT)与RNA 分子 3'端poly(A)尾巴互补配对以捕获 RNA分子.其下机fastq数据包括三个，分别是I1，R1，R2这三个文件，其中I1为index文件，
R1为Barcodes+UMI文件，R2是转录本3'端测序数据(测序长度为90？)。可以记成index标识样本、barcode标识细胞、UMI校准定量。
10X免疫组库建库一般会同时测V(D)J 区段的全长序列和5’端转录组。


*10X的测序样本数目和数据量: *一个样本100G的数据量，测大概10000个细胞，每个细胞可以测1000-2000左右的基因。


```{bash}

i='samplename'
time fastq-dump --gzip --split-files -A $i ${i}.sra && echo "** ${i}.sra to fastq done **"
```

### cellranger 的具体使用

cellrange 包装的较好

cellranger mkfastq ： 它借鉴了Illumina的bcl2fastq ，可以将一个或多个lane中的混样测序样本按照index标签生成样本对应的fastq文件

cellranger count ：利用mkfastq生成的fq文件，进行比对(基于STAR)、过滤、UMI计数。利用细胞的barcode生成gene-barcode矩阵，然后进行样本分群、基因表达分析

cellranger aggr ：接受cellranger count的输出数据， 将同一组的不同测序样本的表达矩阵整合在一起， 比如tumor组原来有4个样本，PBMC组有两个样本，现在可以使用aggr生成最后的tumor和PBMC两个矩阵，并且进行标准化去掉测序深度的影响

cellranger reanalyze ：接受cellranger count或cellranger aggr生成的gene-barcode矩阵，使用不同的参数进行降维、聚类

```{bash}

cellranger sitecheck #系统信息的整合

# 测试安装成功与否
/home/liuc/Software/cellranger-6.1.2/cellranger testrun --id=cellranger_test

# 参考序列下载
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz


```


## 几个疑问

1. 两分组设计时，需要几个重复
2. 重复样本怎么分析，怎么merge，DEGs分析时如何考虑重复样本


A: 对于生物学重复而言，单细胞测序不具备所谓的生物学重复，因为每一个细胞都是独特的，在分析中以一组细胞作为类似细胞。

在考虑批次和重复时，最好的建库方法为，不同处理的样本在同一批次中进行；单个样本可以在不同的区域进行取样等。

A: 对于每一个分组的重复, 可以有效的控制批次效应.if doing DE across conditions or making conclusions at the population level.


3. 数据整合后还需要质控吗？
一般在把多个数据merge后，会通过质控删掉一些cells和genes，然后进行integrate，那在integrate后需不需要进一步对数据进行质控呢？


## 常见的Marker基因


T Cells (CD3D, CD3E, CD8A,PTPRC,CD4,CD2),
B cells (CD19, CD79A, MS4A1 [CD20]),
Plasma cells (IGHG1, MZB1, SDC1, CD79A),
Monocytes and macrophages (CD68, CD163, CD14),
NK Cells (FGFBP2, FCG3RA, CX3CR1),
Fibroblasts (FGF7, MME,GSN,LUM,DCN),
Endothelial cells (PECAM1, VWF).
epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
immune (CD45+,PTPRC),
epithelial/cancer (EpCAM+,EPCAM),
stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
Mast(CPA3, CST3, KIT, TPSAB1, TPSB2, MS4A2)

髓系
macrophages (Adgre1, Cd14, and Fcgr3,LYZ,CD68,CD163),
cDCs (Xcr1, Flt3, Ccr7,CD1E),
pDCs (Siglech, Clec10a, Clec12a,CLEC4C),
monocytes (Ly6c2 , Spn,CD300E),
neutrophils (Csf3r, S100a8, and Cxcl3),


神经元相关marker基因GSE212199_中枢神经系统免疫细胞

astrocytes = c("AQP4", "ADGRV1", "GPC5", "RYR3")
endothelial = c("CLDN5", "ABCB1", "EBF1")
excitatory = c("CAMK2A", "CBLN2", "LDB2")
inhibitory = c("GAD1", "LHFPL3", "PCDH15")
microglia = c("C3", "LRMDA", "DOCK8")
oligodendrocytes = c("MBP", "PLP1", "ST18")
OPC='Tnr,Igsf21,Neu4,Gpr17'
Ependymal='Cfap126,Fam183b,Tmem212,pifo,Tekt1,Dnah12'
pericyte=c(  'DCN', 'LUM',  'GSN' ,'FGF7','MME', 'ACTA2','RGS5')


鼠肝脏GSE185042
Kupffer = c("CD163", "CD206", "F4/80", "CD68")
endothelial = c("CLDN5", "ABCB1", "EBF1","CD31","VWF")
macrophage = c('Adgre1', 'Cd14',  'Fcgr3')
Cholangiocyte = c("CK7", "CK19", "SOX9","EpCAM","FYXD2","TM4SF4","ANXA4")
Hepatocyte = c("ALB", "AFP", "CYP2E1","HNF4A","ASGR1","APOC3","FABP1"," APOA1")
Dividing='Ki-67,PCNA,MCM2,AURKA'
PlasmaB='CD138,CD19,CD20,CD27,CD38,IRF4'
Hepatic_stellate=c(  'GFAP', 'PDGFRβ',"ACTA2","COL1A1")
cDCs=c('Xcr1', 'Flt3',  'Ccr7')
pDCs=c('Siglech', 'Clec10a',  'Clec12a')


人类心脏GSE214611—心肌梗死心脏

Macrophages = c("APOC1","HLA-DRB5","C1QA","C1QB")
CM=c("TTN","MYH7","MYH6","TNNT2") #心肌细胞
endothelial=c("VWF", "IFI27", "PECAM1","MGP")
Fibroblast=c("DCN", "GSN" ,"LUM","FBLN1","COL1A2")
SMC=c("ACTA2", "CALD1", "MYH11","Myo1b","RGS5')
monocytes=c('Ly6c2' , 'Spn')
neutrophils=c('Csf3r', 'S100a8',  'Cxcl3')