❗时空组学数据基本处理流程与原理-从 reads 到表达矩阵#

Stereo-seq 技术基础原理#

文件#

mask 文件: 记录 CID 序列与空间位置的文件
image 文件: 图像质控结果文件
Fastq 文件: 转录粗测序数据文件

芯片#

芯片大小: 1cm*1cm
纳米球尺寸: 直径 220nm
纳米球间距: 500nm
spot 数量: $4\times10^8$ 个
barcode 长度: 25bp, $4^{25}种$
UMI 长度: 10bp
CID: 25bp

数据分析 SAW(STOmics analysis workflow)整体流程介绍#

SAW github link

Stereo-seq#

SAW 处理 Stereo-seq 的测序数据以生成空间基因表达矩阵，用户可以将这些文件作为起点进行下游分析。SAW 包含十三个基本和建议的流程和辅助工具，以支持其他便捷功能。

输入文件#

reference#

输入文件
- 基因组序列文件: genome.fa
- 基因注释文件: genes.gtf $/$ gff

1
.
2
└── specieName
3
    ├── STAR_SJ100
4
    │   ├── Genome
5
    │   ├── SA
6
    │   ├── SAindex
7
    │   ├── chrLength.txt
8
    │   ├── chrName.txt
9
    │   ├── chrNameLength.txt
10
    │   ├── chrStart.txt
11
    │   ├── exonGeTrInfo.tab
12
    │   ├── exonInfo.tab
13
    │   ├── geneInfo.tab
14
    │   ├── genomeParameters.txt
15
    │   ├── sjdbInfo.txt
16
    │   ├── sjdbList.fromGTF.out.tab
17
    │   ├── sjdbList.out.tab
18
    │   └── transcriptInfo.tab
19
    ├── genes
20
    │   └── genes.gtf
21
    └── genome
22
        └── genome.fa
23

24
4 directories, 17 files

输出文件
- 参考基因组索引目录: /path/to/genomeDir
检查索引文件的小工具
- SAW: checkGTF
参考脚本: example script

mask#

格式: *.h5

image#

格式:
- SN*.ipr
- SN*.tar.gz

fastq#

PE format

read1 = CID + MID
read2 = mRNA
不需要 splitMask SE format
read_name = CID + MID
read = mRNA
需要 splitMask

流程#

mapping 比对#

Step1 BarcodeMapping: 原始测序读取（存储在 FASTQ 文件中）的 CID 与 Stereo-seq Chip T MASK 文件中保存的 CID-坐标键值对记录进行匹配（允许 1 个错配）。根据 MASK 文件中的记录，为可以配对的读取添加坐标信息。获得坐标注释的读取被称为有效 CID mRNA 读取（有效 CID 读取）。
Step2 Filtering:
- 丢弃不合格的 MID 读取（不满足进一步分析要求）
- 过滤含有接头 adapter 的读取
- 过滤长度(去除 poly-A 后)小于 30 的短读取
Step3 GenomeMapping: mRNA 比对到参考物种基因组 输出文件:
BAM 格式比对结果文件:
- *.Aligned.sortedByCoord.out.bam
- tag 列包含每条 reads 的空间位置信息
比对结果数据统计文件
- *_barcodeMap.stat: BarcodeMapping 信息
- *.Log.final.out: GenomeMapping 信息
- *.barcodeReadsCount.txt: 每个 barcode 的 reads 数

merge 合并#

count 注释#

注释类型	注释逻辑
Intron 类型	reads 与 intron 有超过 50%的 overlap
antisense 统计	比对上任意反链的 gene
transcriptome 统计	注释上 exon 或 intron 且同链

输出文件

BAM 格式比对结果文件与 GEF 格式表达矩阵
- *.Aligned.sortedByCoord.out.merge.q10.deduo.target.bam, Tag 列新增了注释成功的基因信息
- .raw.gef, 基因表达矩阵
日志文件
- logs/Bam2Gem_data_time.log, 记录了被跳过的基因