生命学院杨雪瑞课题组开发深度学习工具DeepLinc,使用单细胞空间转录组数据构建细胞互作网络

2022-06-06 11:24:25

作为近年来技术发展的前沿,单细胞空间组学技术同时提供了生理组织中细胞的空间定位及细胞内基因组、转录组、蛋白组等定量组学数据。细胞空间定位信息与分子特征谱的耦合为解析组织中细胞组装与互作关系、理解组织的形成与功能提供了前所未有的丰富信息。考虑到单细胞空间组学数据的复杂性,包括其多模态、高噪音、高稀疏性与高维度等特征,如何通过针对性、高效的算法设计,从该数据中提取深层次的隐藏信息,挖掘细胞内分子特征与细胞间组装互作的隐层关联,系统重构细胞互作关系网络图谱,这是生物信息领域,单细胞空间组学分析理论与技术研究方向的重要前沿问题。

单细胞空间组学数据通常具有数据点丰富、低信噪比、高维度高稀疏性、多因素非线性关联等复杂特征,这使得常规统计或数学分析方法的应用存在较大难度与局限性。杨雪瑞课题组使用新一代的深度学习模型从此类复杂数据中挖掘深层次的隐藏信息,开发了针对性的生物信息工具DeepLinc(deep-learning framework for landscapes of interacting cells),使用单细胞空间转录组数据,重构生理组织内的细胞互作关系网络,并提出整合了细胞空间编码信息的,新的细胞聚类模式。该方法于2022年6月3日发表于《基因组生物学》(Genome Biology),题为“使用DeepLinc从单细胞空间转录组数据出发从头重构细胞互作图谱”(De novo reconstruction of cell interaction landscapes from single-cell spatial transcriptome data with DeepLinc)。

图1 DeepLinc分析流程概念示意图

在单细胞组学研究中,细胞互作关系的鉴定往往依赖于已知的配体-受体关系,对配-受体注释的准确性与全面性有很高的要求。事实上,细胞互作模式复杂多样,配-受体对介导的机制远不能覆盖所有的互作模式。此外,单细胞解析度的空间转录组数据通常有缺失值多、信噪比低等问题,大多数细胞的配-受体表达数据往往残缺不全,不满足基于配体-受体关系鉴定细胞互作的要求。

针对细胞互作关系的全面重构这一重要需求,杨雪瑞课题组首先提出理论假设:组织中空间上临近的细胞间应该富集了多种模式的互作与信息交流,而细胞内多维度分子特征谱图是细胞互作的驱动与调控因素,同时也反映了细胞组装与互作状态对细胞内生物学过程所产生的影响。因此,可以利用空间临近细胞的多维度信息,学习、挖掘细胞内分子特征与细胞间互作二者之间的内在关联。基于该理论思路,杨雪瑞课题组2018级博士生李润泽同学尝试了多种分析方法,最终使用新型人工智能策略,基于变分图自动编码器 (variational graph autoencoder, VGAE)开发了对单细胞空间转录组数据的深度学习框架方法DeepLinc。

李润泽同学在多套单细胞空间转录组数据中测试了DeepLinc的一系列表现,结果显示DeepLinc能够使用高度非理想、不完整的空间转录组数据高效地学习,过滤原始数据中的错误互作,填补缺失的长、短程互作,从而从头重建细胞互作网络。使用DeepLinc构建的细胞互作图谱准确重现了人乳腺癌肿瘤组织内复杂的肿瘤-基底细胞、肿瘤-免疫细胞及免疫细胞间的长、短程互作,小鼠神经系统(嗅球、视觉皮层、下丘脑视前区)中神经元之间、神经元与小胶质细胞之间的复杂互作,表现出准确、全面的生物学意义。

除此之外,DeepLinc流程还推断了参与塑造细胞互作网络的关键基因,为解析细胞互作关系的调控机制提供靶点与线索。最后,基于深度学习获得的隐藏信息,DeepLinc重新定义整合了空间编码信息的单细胞亚群,为理解复杂组织内细胞的区块化功能提供直接的信息。

图2 DeepLinc重构的小鼠视觉皮层细胞互作网络,以一个谷氨酸能神经元与多个GABA能神经元之间的长程互作关系作为示例(下左);整合了细胞空间编码信息与互作关系之后,DeepLinc重新定义小鼠视觉皮层细胞聚类(下右)。

总之,DeepLinc针对单细胞空间转录组数据,提出新的方法理论,通过新型深度学习模型的创新应用,挖掘细胞分子特征谱图与复杂生理与病理组织之间的多层级复杂关联,充分释放单细胞空间组学分析的优势与潜力。清华大学生命学院CLS项目2018级博士生李润泽为论文第一作者,杨雪瑞副教授为论文通讯作者。研究工作得到国家自然科学基金委、国家重点研发计划重点专项的资助。国家蛋白质科学研究(北京)设施(清华大学蛋白质研究技术中心)下属生物计算平台、基因测序与分析平台为本研究提供了大力支持。

论文链接:http://doi.org/10.1186/s13059-022-02692-0