980 words
5 minutes
时空专题5_细胞注释方法和常用数据库

❗ 细胞注释方法和常用数据库#

基本概念#

目的#

  • 单细胞: 注释每个细胞的类型
  • 空间: 注释每个 spot 的细胞类型占比(由于现阶段分辨率低)

原理#

  • 相同的细胞类型具有相似的表达谱
  • 根据方法分类
    • 手动
    • 自动

细胞注释方法#

单细胞注释方法#

基于相似性与统计学#

SingleR1#
  • 步骤
    • 选择高变基因作为 feature
    • 计算 ref(参考数据集)和 qry(查询数据集)的 Spearman 相关系数
    • 80%分位数作为每个细胞类型的得分
    • 排除法循环注释
  • 创新性 - 循环排除法(LOOCV)注释 - 排除一个细胞类型:在每次迭代中,从参考数据集中排除一个细胞类型,剩下的细胞类型用作训练数据。 - 计算相关性:用排除后的参考数据集中的细胞类型的表达谱计算与查询数据集中细胞的相关性。 - 注释:根据计算出的相关性,为查询数据集中每个细胞分配一个最匹配的细胞类型。 - 验证:将被排除的细胞类型作为验证集,以检查该类型的细胞在查询数据集中的注释结果是否准确。 - 重复:对参考数据集中所有细胞类型进行上述步骤,每次排除不同的细胞类型,最终汇总所有迭代的结果,以提高整体的注释准确性。

    阈值的设定: 最高得分类 - 0.05

基于机器学习与深度学习#

scPred2#
  • 步骤
    • 选择能够区分细胞类型的主成分, 去除批次效应
    • SVM 分类器训练校验调整超参
    • 预测
  • 创新点
    • 可以区分细胞类型的主成分

基于半机器学习#

Seurat v43#
  • 步骤
    • sPCA 把 qry 投影到效用的低维嵌入中
    • 互临近的点作为 anchor
    • Anchor 和 qry 之间的相似性

多细胞分辨率的空间组注释#

基于非负矩阵分解的方法#

SPO Tlight 4#

img

基于一个种子的非负矩阵因子分解回归(Seeded NMF regression)及非负最小二乘法(NNLS) W: gene×topic\text{gene} \times \text{topic} H: topic×cell\text{topic}\times\text{cell}

  • Step1: 根据单细胞(参考转录组)初始化 W, H - W: marker gene 1p_value1-p\_value, 描述了每个细胞类型有哪些 marker 基因 - H: celltype 的 one-hot coding,

    参考转录组中:W×H=VW\times H = V > VV代表细胞表达谱

  • Step2: 非负矩阵分解获得 W, H

    • 此时 H 不是 celltype 的比例
  • Step3: 利用WW和 ST 数据(计数矩阵 VV′)进行 NNLS(非负最小二乘法)映射以获得系数矩阵HH′

    • HH′:列表示空间转录组学数据中每个点的主题特征。
SpatialDWLS#

基于统计模型的方法#

Cell2location5#
  1. 首先使用贝叶斯模型估计单细胞数据集中细胞类型的表达特征
  2. 把空间组数据集分解到特征空间, 获得每个 spot 的细胞类型

img

基因 g 在位置 s 的表达水平 μs,gμ_{s,g} 被建模为参考细胞类型特征 gf,gg_{f,g} (从单细胞数据中总结而来, f 为细胞类型)的线性函数:

μs,g=(mgtechnology sensitivityfws,fgf,gcell type contributions+se,gadditive shift)ysper-location sensitivity\mu_{s,g} = \left(\underbrace{m_{g}}_{\text{technology sensitivity}} \cdot \underbrace{\sum_{f} {w_{s,f} \: g_{f,g}}}_{\text{cell type contributions}} + \underbrace{ s_{e,g}}_{\text{additive shift}}\right) \cdot \underbrace{y_{s}}_{\text{per-location sensitivity}}

其中 $m_{g}$, $s_{e,g}$, $y_{s}$ 为修正项, 使用数学分布进行估计, 较为复杂不做展开。关键部分 $\sum_{f} w_{s,f} g_{f,g}$ 表示在 s 处细胞类型矩阵点乘细胞类型 f 每种基因的表达特征矩阵之和

代码中的两个关键参数:

  • N_cells_per_location: 每个 location 中估计的细胞数, 对 cellbin 来说为 1
  • detection_alpha: 玄学参数, 默认为 20, 可选 200
RCTD#
STdeconvolve#
Stereoscope#

基于深度学习#

CellDART#
DSTG#
Tangram6#

#TODO

代码实现#

网上一堆, 略

常用数据库#

Marker gene 数据库#

  • SCSig
  • PanglaoDB
  • CellMarker

物种和组织特异性数据库#

  • GEO
  • Express Atlas

大型 Atlas#

  • Human Cell Atlas
  • Tabula Muris
  • Mouse Cell Atlas

Footnotes#

  1. singleR link

  2. scPred

  3. seurat

  4. SPOTlight link

  5. cell2location link

  6. tangram link

时空专题5_细胞注释方法和常用数据库
https://blog.lihuax.online/posts/work/bgi/5_细胞注释方法和常用数据库/
Author
Lihuax
Published at
2024-07-22
License
CC BY-NC-SA 4.0