2025年2月5日,中國科學院廣州生物醫藥與健康研究院與北京大學生物醫學前沿創新中心(BIOPIC)/昌平實驗室合作在Small Methods期刊上發表題為Learning Phenotype Associated Signature in Spatial Transcriptomics withPASSAGE的研究論文。該研究創新性地將整張切片作為計算建模的對象,提出了切片級別嵌入(slice-levelembedding)的深度學習算法,有效地增強了算法的計算效率和可擴展性,可應用到大規模異質性空間轉錄組學數據的表型關聯空間特征識別。
生命是細胞有序排列構成的整體。單個細胞在脫離生物體后難以獨立發揮功能。因此需要聯合細胞所處的微環境和空間位置來全面理解細胞功能。隨著近年來空間組學技術的迅猛發展,已經基于多種技術平臺產生了大量來自不同組織、器官的空間組數據,如何精準表征這些快速增長的海量大規模異質性數據,不僅是相應人工智能方法開發的重大挑戰,也是有效解析其中蘊含豐富生物醫學信息的前提。
當前的一些計算方法主要關注于單個或數個切片中細胞級別特征,對大量空間轉錄組學切片數據處理的效能不足。有別于此,PASSAGE提出基于多層次注意力的大規模異構空間組學表征方法,從空間組切片(slice)、細胞與分子多個層次進行不同粒度的表征學習與解析,有效增強了計算效率和可擴展性。具體來說,PASSAGE在基于圖注意力自編碼器的細胞級表征基礎上設計了注意池化層(attention pooling layer),將同一切片的所有細胞加權融合成切片級表征,而后通過由表型信息指導的對比學習策略對切片級表征進行優化,并進而采用非負矩陣分解方法獲得基因級別的注意力分數,從而實現對特定表型關聯空間組學特征的有效解析(圖1)。
例如,針對來自兩個不同空轉平臺(ST,Visium)、42個不同病人的103張乳腺組織與乳腺癌切片,PASSAGE不僅有效處理了不同樣本之間存在的批次效應,從而準確識別出不同病人切片中與腫瘤相關的結構區域(圖2A)。與此同時,PASSAGE引入的分子水平注意力表征可從注意池化層權重中獲得與表型高度相關的基因集,如乳腺癌案例中PASSAGE識別的基因在之前的乳腺癌研究中已被發現與疾病進程高度相關,從而體現了模型較高的生物學可解釋性(圖2B)。此外,PASSAGE在鱗狀細胞癌數據集與三級淋巴結陽性的腎細胞癌數據集的表現均體現了方法的優良可拓展性,有望為癌癥等復雜疾病的空間特征和分子機制解析提供全新思路。
值得指出的是,上述多尺度表征學習架構使得PASSAGE可以有效實現針對大規模異質性空間轉錄組學數據的相關組學特征系統性解析,一張常規4090消費級別GPU卡的算力即可達到平均每分鐘600個空間點/細胞的處理速度。隨著融入更多的訓練數據以及對架構進一步優化,PASSAGE有潛力構建空間轉錄組學的基礎性人工智能算法模型。
中國科學院廣州生物醫藥與健康研究院彭廣敦研究員、北京大學生物醫學前沿創新中心(BIOPIC)/昌平實驗室高歌教授和曹智杰博士為該論文共同通訊作者,實驗室二年級碩士研究生郭臣凱與北京大學生命科學學院博士生夏辰睿為論文的共同第一作者。研究工作得到了國家自然科學基金、國家重點研發計劃、中國博士后基金、基因功能研究與操控全國重點實驗室、北京未來基因診斷高精尖創新中心和昌平實驗室的支持。
圖 1PASSAGE模型的結構示意圖
圖2 ?A)PASSAGE在乳腺癌案例中成功學習到良好的切片級表征與所識別的表型關聯空間特征?B)PASSAGE在乳腺癌案例中成功學習到與表型關聯空間特征高度關聯的基因集
附件下載: