Artwork from anime 'mono'
936 words
5 minutes
时空专题1_时空组学数据基本处理流程与原理_从reads到表达矩阵
❗时空组学数据基本处理流程与原理-从 reads 到表达矩阵
Stereo-seq 技术基础原理
文件
- mask 文件: 记录 CID 序列与空间位置的文件
- image 文件: 图像质控结果文件
- Fastq 文件: 转录粗测序数据文件
芯片
- 芯片大小: 1cm*1cm
- 纳米球尺寸: 直径 220nm
- 纳米球间距: 500nm
- spot 数量: 个
- barcode 长度: 25bp,
- UMI 长度: 10bp
- CID: 25bp
数据分析 SAW(STOmics analysis workflow)整体流程介绍
Stereo-seq
SAW 处理 Stereo-seq 的测序数据以生成空间基因表达矩阵,用户可以将这些文件作为起点进行下游分析。SAW 包含十三个基本和建议的流程和辅助工具,以支持其他便捷功能。
输入文件
reference
- 输入文件
- 基因组序列文件: genome.fa
- 基因注释文件: genes.gtfgff
.└── specieName ├── STAR_SJ100 │ ├── Genome │ ├── SA │ ├── SAindex │ ├── chrLength.txt │ ├── chrName.txt │ ├── chrNameLength.txt │ ├── chrStart.txt │ ├── exonGeTrInfo.tab │ ├── exonInfo.tab │ ├── geneInfo.tab │ ├── genomeParameters.txt │ ├── sjdbInfo.txt │ ├── sjdbList.fromGTF.out.tab │ ├── sjdbList.out.tab │ └── transcriptInfo.tab ├── genes │ └── genes.gtf └── genome └── genome.fa
4 directories, 17 files- 输出文件
- 参考基因组索引目录: /path/to/genomeDir
- 检查索引文件的小工具
- SAW: checkGTF
- 参考脚本: example script
mask
- 格式: *.h5
image
- 格式:
- SN*.ipr
- SN*.tar.gz
fastq
PE format
- read1 = CID + MID
- read2 = mRNA
- 不需要 splitMask SE format
- read_name = CID + MID
- read = mRNA
- 需要 splitMask
流程
mapping 比对
- Step1 BarcodeMapping: 原始测序读取(存储在 FASTQ 文件中)的 CID 与 Stereo-seq Chip T MASK 文件中保存的 CID-坐标键值对记录进行匹配(允许 1 个错配)。根据 MASK 文件中的记录,为可以配对的读取添加坐标信息。获得坐标注释的读取被称为有效 CID mRNA 读取(有效 CID 读取)。
- Step2 Filtering:
- 丢弃不合格的 MID 读取(不满足进一步分析要求)
- 过滤含有接头 adapter 的读取
- 过滤长度(去除 poly-A 后)小于 30 的短读取
- Step3 GenomeMapping: mRNA 比对到参考物种基因组 输出文件:
- BAM 格式比对结果文件:
- *.Aligned.sortedByCoord.out.bam
- tag 列包含每条 reads 的空间位置信息
- 比对结果数据统计文件
- *_barcodeMap.stat: BarcodeMapping 信息
- *.Log.final.out: GenomeMapping 信息
- *.barcodeReadsCount.txt: 每个 barcode 的 reads 数
merge 合并
count 注释
| 注释类型 | 注释逻辑 |
|---|---|
| Intron 类型 | reads 与 intron 有超过 50%的 overlap |
| antisense 统计 | 比对上任意反链的 gene |
| transcriptome 统计 | 注释上 exon 或 intron 且同链 |
输出文件
- BAM 格式比对结果文件与 GEF 格式表达矩阵
- *.Aligned.sortedByCoord.out.merge.q10.deduo.target.bam, Tag 列新增了注释成功的基因信息
- .raw.gef, 基因表达矩阵
- 日志文件
- logs/Bam2Gem_data_time.log, 记录了被跳过的基因
register/rapidRegister (图像)配准
基于空间位置信息, 将影像图最优映射到基因表达矩阵上 配准逻辑:
- 基于 TrackLine 配准
- 选模板(scale & rotation)
- 根据模板推全局
- 算法原理
- 重心法
- 修正/微调
- 根据 TrackLine 进行微调
tissueCut 组织分隔
在影像图上获取组织边界
- 有 ssDNA 图像: 基于影像图分隔
- 无 ssDNA 图像: 基于表达矩阵分隔 基于组织分隔掩模图, 结合矩阵进行组织区域表达矩阵提取, 输出 SN.tissue.gef
spatialCluster 空间聚类
筛选高变菊英后进行 PCA 和 UMAP 降维, 再使用 Leiden 等算法进行聚类分析
saturation 饱和度计算
根据饱和度曲线判断数据是否需要加测
report 报告输出

蛋白质组学和转录组学
SAW 蛋白质组学和转录组学工作流程处理来自单芯片的测序数据以生成空间基因和蛋白质表达矩阵。您可以使用这两个组学信息开始更高维度的研究。此工作流程包括 23 个基本和建议流程。

时空专题1_时空组学数据基本处理流程与原理_从reads到表达矩阵
https://blog.lihuax.online/posts/work/bgi/1_时空组学数据基本处理流程与原理-从reads到表达矩阵/