赵扬团队和合作者建立基于活细胞动态图像机器学习的多能干细胞分化系统
多能干细胞(如iPS细胞)可分化为多种类型的功能性细胞(如心肌细胞、肝实质细胞、神经元等),这些功能性细胞为再生医学、发育和疾病体外建模以及药物筛选评估提供了无限的细胞来源,推动着再生医学的临床应用发展。例如,使用多能干细胞来源的视网膜色素上皮细胞有望治疗黄斑变性、使用胰岛细胞有望治疗糖尿病等。然而,目前多能干细胞的定向分化效率仍存在细胞系间和批次间的不稳定的问题,严重阻碍了多能干细胞临床应用产品的研发进程及规模化制造。因此,如何实现干细胞分化过程的实时质控和监控进而对多能干细胞的分化时间、诱导因子、分化轨迹等进行全自动化的动态调整,有效降低不同批次之间的多能干细胞产品的稳定性,是干细胞技术转化应用的关键问题。
2023年6月6日,我室赵扬团队和北京大学张珏团队、北京交通大学刘一团队合作在Cell Discovery杂志(IF=38)在线发表题为“A live-cell image-based machine learning strategy for reducing variability in PSC differentiation systems”的研究论文[1]。该研究首先以多能干细胞向心肌细胞分化为例,利用活细胞成像技术(通过蔡司Cell Discover 7成像系统实时采集细胞分化过程中的图像)与机器学习方法,成功实现了:(1)非侵入式地对多能干细胞诱导分化成心肌细胞的不同阶段的诱导效率的实时预测;(2)对分化时间和诱导因子浓度进行实时判断,有效调控和干预了多能干细胞向心肌细胞分化的效率;(3)建立了基于细胞图像的机器学习算法,且成功应用于多能干细胞在心肌细胞分化中间态细胞的纯化;(4)利用细胞图像机器学习算法,也为小分子筛选提供检测指标,可对细胞分化的“抗扰能力”进行有效优化(图1)。经验证,这套方法和流程还可以用于多能干细胞向肝、肾等前体细胞分化,有效优化及改进了分化体系。这些发现有望为促进高质量多能干细胞产品在再生医学领域里的临床研究及规模化生产提供重要技术基础。
▲图1 基于图像机器学习的稳定优化心肌分化体系的策略总流程图
在多能干细胞诱导分化过程中,由于走向不同分化的细胞通常会伴随着其特征性的形态变化,研究人员往往会根据经验及时调整实验方案,来降低多能干细胞定向分化的不稳定性。但这些经验往往难以量化和复制,细胞图像中快速或细微的变化也难以被人眼捕捉到。随着活细胞显微成像技术的成熟和机器学习方法的快速发展,多能干细胞诱导分化过程中这些特定的细胞类型和状态可被有效识别和标记,使得基于成像技术的机器学习,人工智能的全自动辅助系统开发成为可能。
功能1:基于机器学习对心肌细胞和心肌祖细胞进行识别和纯化
该研究以多能干细胞向心肌细胞分化体系为主要示例[2],收集分化全过程明场图像流和最终cTnT(一种心肌细胞的特异标志物)免疫荧光染色结果。在终末分化的心肌阶段(分化第12天),成功分化的心肌细胞具有明显形态特征(图2)。通过pix2pix深度学习模型[3],研究者利用心肌细胞诱导阶段的明场图像预测cTnT荧光阳性区域,成功实现了仅通过细胞明场图像直接进行跨细胞系、跨批次的心肌细胞识别和分化效率的评估。预测的分化效率与真实分化效率之间的相关系数达0.93。随后,研究者通过对图像流的回溯,发现最终能成功分化为心肌的细胞在心脏祖细胞阶段(分化第6天),其明场图像就已具备纹理特征。利用基于Grad-CAM的弱监督分割方法[4,5],机器学习模型成功识别了这群心肌祖细胞,它们被命名为“图像识别的心肌祖细胞(Image-Recognized CPC,IR-CPC)”。机器学习预测的IR-CPC比例和最终真实分化效率相关系数达0.88。以上研究结果表明,无论从心肌分化最终的分化效率还是心肌分化的中间阶段的分化效率,机器学习都可以准确的进行预测,可以提前识别出位于正确分化轨迹的细胞(图3)。
▲图2 心肌细胞分化全程的图像流
▲图3 心肌细胞与心肌祖细胞的识别与纯化
在此基础上,研究者基于机器学习对心肌祖细胞区域的预测和光激活探针DACT-1[6],对非目标细胞进行了荧光标记,并使用流式细胞分选有效纯化了目标细胞产物。利用纯化的心脏祖细胞继续分化,可获得纯度高达94.7%的心肌细胞,相较于未纯化组的纯度63.0%有显著提高。这一体系在没有生物标志物的情况下,实现了分化过程中目标细胞产物(心肌祖细胞)的实时分离纯化,有助于减少杂细胞污染,确保分化中间阶段的纯度和效率(图3)。
功能2:基于机器学习实时评估调整心肌分化早期诱导物CHIR99021的剂量
通过进一步回溯正确分化轨迹细胞的早期细胞形态动态特征,研究者发现中胚层阶段(0~3天)使用的小分子诱导物CHIR99021(CHIR)的剂量(浓度与处理时间)对心肌分化效率至关重要,其剂量稍高或稍低就会导致分化失败。研究者同时发现最佳的浓度和处理时间呈负相关关系,这意味着如果能在早期将不合适的剂量条件识别出来,将有可能帮助及时扭转错误的分化轨迹。
研究者使用逻辑回归模型,仅依靠分化初期0~12h明场图像流的特征评估CHIR剂量条件的合适程度。选定CHIR处理时间后,机器学习模型能对每个孔所用的CHIR浓度进行“偏低”、“适中”、“偏高”的判断,准确率可达93.1%。随后,研究者验证了在预测CHIR浓度不合适的情况下,及时调整CHIR处理时间和浓度确实能够纠正错误分化细胞的轨迹并提高心肌分化效率,这有助于维持心肌细胞分化的高效进行,实现对每批多能干细胞分化条件的实时控制和及时纠错(图4)。
▲图4 实时评估调整分化早期诱导物CHIR的剂量
功能3:基于机器学习模型实时判断多能干细胞起始分化的最佳状态
尽管机器学习模型能帮助研究者选择最佳的CHIR剂量,但研究者观察发现,即使在最佳的CHIR剂量下,细胞的分化仍然存在异质性,即仍然存在分化失败的细胞。通过追踪心肌分化全程的明场图像流,研究者发现多能干细胞的分化潜力存在空间异质性:分化第0天处于多能干细胞克隆边缘的细胞更容易分化成功,而位于多能干细胞克隆中心的细胞易分化失败。为了分析克隆形态和最终分化效率之间的关系,研究者提取了开始分化前多能干细胞克隆的图像特征,并建立了基于随机森林的机器学习模型,以识别最有利于分化的起始细胞图像特征。
这一模型可以实现在最佳CHIR剂量条件下,仅根据多能干细胞克隆状态成功预测多能干细胞的分化效果,其相关性达0.76。这一模型有望用于实时最终克隆形态,利用机器学习模型来判断最佳的分化起始时间。此外,通过对图像特征重要程度的分析,研究者发现克隆面积合适且边缘越长、越崎岖,越有利于分化。这启发研究者把目光转向细胞的传代操作,并发现通过调整实验操作,在相同起始细胞数的情况下尽可能地将每个细胞克隆的面积减小,也能有效提高心肌分化效率。总之,研究者通过对明场图像流的观察和机器学习,锁定关键图像特征,指导分化开始的最佳时机,实现了对分化起始多能干细胞状态的实时质控并进一步优化了分化体系(图5)。
▲图5 调控优化多能干细胞分化的起始状态
功能4:基于细胞图像的机器学习开展小分子筛选,提高心肌分化体系稳定性
研究者发现,在分化早期CHIR剂量偏高情况下,多能干细胞错误的向体节中胚层分化,而剂量不足的情况向内胚层分化,因而诱导心脏中胚层的CHIR剂量窗口较窄,这可能是心肌细胞分化批次不稳定的主要原因之一。因此,研究者以心肌分化第6天图像结合已建立的弱监督模型作为小分子筛选评价手段,构建了小分子筛选平台,并对3000多个小分子进行筛选以发现抑制体节中胚层细胞命运的小分子(确保CHIR高剂量仍然向心肌中胚层分化)。最终,研究者发现化合物BI-1347(一种CDK8抑制剂)可大幅拓宽分化早期CHIR浓度的适用范围,增加分化体系对CHIR过高浓度的容忍度,显著提高批次间与细胞系间的分化稳定性。
RNA-seq结果显示,BI-1347的加入使细胞在CHIR高剂量条件下仍向心肌中胚层分化,且各类功能鉴定结果显示是否加入BI-1347对分化的心肌细胞质量和亚型比例无影响。总之,研究者基于机器学习的细胞识别模型建立了一个具有早期准确评价标准的高通量筛选平台,缩短了筛选实验周期,降低了筛选成本;通过这一技术筛选到的小分子通过提升心肌分化体系对CHIR高剂量的耐受度,从而拓宽了CHIR剂量可应用的范围,显著提升了分化体系在不同细胞系和不同批次之间的稳定性(图6)。
▲图6 小分子筛选发现化合物BI-1347有效拓宽CHIR剂量的有效范围
综上所述,针对多能干细胞向功能性细胞分化不稳定的问题,这一研究开发了一种非侵入式的、基于细胞明场动态图像和机器学习的策略,实时智能地调节和优化分化过程,实现跨细胞系和批次的持续高效分化,为多能干细胞定向分化功能性细胞的高效、稳定生产提供了解决方案。最后,为拓展此文分化策略的应用场景,研究者在肾祖细胞分化和肝细胞分化早期分别采用以上策略,取得了准确预测效果,这能为分化提供实时的指导。该技术有望未来进一步发展成为基于人工智能的封闭式干细胞分化系统,并为建立基于细胞明场图像的“经验分享”平台提供技术支持。
该研究的共同第一作者是北京大学未来技术学院博士生杨晓淳、北京大学前沿交叉学科研究院博士生陈代超和北京交通大学计算机与信息技术学院孙秋实博士。天然药物及仿生药物全国重点实验室、北京大学未来技术学院分子医学研究所和北大-清华生命科学联合中心赵扬研究员、北京大学前沿交叉学科研究院张珏研究员、北京交通大学计算机与信息技术学院刘一研究员共同作为该文章的通讯作者。北京大学陈知行研究员对该项目基于探针的细胞纯化方法提供宝贵建议,北京大学邹鹏、王世强团队分别在建立细胞分选方法和鉴定多能干细胞分化心肌的电生理活性方面提供重要支持。该工作获得国家重点研发计划(2018YFA0800504,2019YFA0110000)、国家自然科学基金委(31771475,31371342,92254301)、北大-清华生命科学联合中心的经费支持。
论文链接:https://www.nature.com/articles/s41421-023-00543-1
参考文献:
[1] Yang, X. et al. A live-cell image-based machine learning strategy for reducing variability in PSC differentiation systems. Cell Discov. 9, 53 (2023).https://doi.org/10.1038/s41421-023-00543-1
[2] Lian, X. et al. Directed cardiomyocyte differentiation from human pluripotent stem cells by modulating Wnt/β-catenin signaling under fully defined conditions. Nat. Protoc. 8, 162–175 (2013).
[3] Isola, P., Zhu, J.-Y., Zhou, T. & Efros, A. A. Image-to-Image Translation with Conditional Adversarial Networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 5967–5976 (IEEE, 2017).
[4] Selvaraju, R. R. et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV) 618–626 (IEEE, 2017).
[5] Zhang, H. et al. ResNeSt: Split-Attention Networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 2735–2745 (2022).
[6] Halabi, E. A. et al. Dual-activatable cell tracker for controlled and prolonged single-cell labeling. ACS Chem. Biol. 15, 1613–1620 (2020).