查看原文
其他

计算如何赋能CRISPR的发现与技术发展?| 诺奖研究回顾

Nature Portfolio Nature Portfolio 2022-10-11


原文作者:Stephen Shang, Xiangmeng S. Cai, Lei S. Qi (斯坦福大学)

CRISPR是一种可编程的基因组工程技术,它已彻底改变了生物医学和生物工程研究。而不论是CRISPR的发现,还是基于CRISPR、有望解决众多难题的技术开发,都离不开计算工具。

因开发了CRISPR基因组编辑技术,Jennifer A. Doudna和Emmanuelle Charpentier共同获得了2020年诺贝尔化学奖。CRISPR是规律间隔成簇短回文重复序列(clustered regularly interspaced short palindromic repeats)的缩写,CRISPR是细菌内的一种包含重复性短片段DNA序列的特殊基因组结构。CRISPR与CRISPR相关蛋白(Cas)共同构成了细菌体内一种适应性免疫系统——CRISPR–Cas,帮助细菌抵御病毒的感染。

Jennifer Doudna 和 Emmanuelle Charpentier因开发出一种基因组编辑方法共同获得了2020年诺贝尔化学奖。来源:Alexander Heinel/Picture Alliance/DPA

因其具有精准靶向DNA的优良特性,CRISPR–Cas已被用于基因编辑:在一段可编程向导RNA(gRNA)的指引下,Cas蛋白理论上能靶向人类基因组中的任意DNA序列长约20个碱基对),并作为核酸酶断开双链,从而对DNA序列进行编辑。CRISPR–Cas为基因组编辑带来了前所未有的可编程性与灵活度,因而被广泛应用于生物学和医学领域。研究人员能通过删除、插入或诱变指定基因组位点的DNA序列,实现基因序列的高精度改写。此外,携带活化因子(CRISPRa)或抑制因子(CRISPRi)的失活Cas蛋白(dCas)无需剪断DNA,就能调控特定基因的表达情况。


计算科学在数十年的CRISPR–Cas发现与技术开发之旅中发挥了关键作用。该过程可分为两个阶段:自然CRISPR系统的发现与分类,以及基于gRNA设计和CRISPR筛选分析改进的CRISPR技术优化。即便在今天,计算方法的进步仍在不断推动新型CRISPRs的发现,完善基于CRISPR的技术,并使各种新应用成为可能。

计算赋能CRISPR发现

研究人员受到计算分析的启发,发现了在细菌中CRISPR的免疫功能。由于CRISPR系统含有高度重复序列,而且很难获得这些重复片段的高保真基因组测序数据,因此CRISPR序列和功能分析刚开始极富挑战性。推动了CRISPR系统发现的早期计算工作大多使用的是局部测序比对工具Basic Local Alignment Search Tool(BLAST)、重复序列识别程序(RepeatMasker)以及DNA碱基识别程序Phred。这些分析揭示了CRISPR系统广泛存在于多种细菌和古菌中,表明其一定具有某种生物学意义。这一认识激励着学者们利用计算和试验手段对CRISPR的功能展开进一步研究[1,2]


起初,研究人员提出CRISPR或会参与染色体分配和DNA修复过程[3,4]。后来,人们通过计算分析发现,CRISPR与病毒感染相关的遗传免疫有关。这一发现得益于优良的计算方法,如NCBI Short Read Archive、ENSEMBL和基于de Bruijn图的基因组组装。这些方法提高了重建速度,使大量的基因组测序成为可能[5]。分析发现,CRISPR通常含有由20–40个碱基对组成的短序列,这些短序列与噬菌体的基因组十分吻合,这些都表明CRISPR参与了细菌的遗传免疫。越来越多的计算证据显示,CRISPR间隔序列与病毒和质粒基因片段之间存在相似性。最终,人们通过实验证实了CRISPR含有一段综合外源DNA序列,它能帮助细菌抵御带有相同序列病毒的入侵[6]


计算方法帮助对不同CRISPR系统进行分类。CRISPR种类的不断扩充,推动了CRISPR的分类研究[7]。十年前,Eugene Koonin与其同事建立起了沿用至今的CRISPR分类标准[8]。自此,这一分类方案几乎每年都有更新——最新的一版包括2类6型,共33种亚型[9]。分类算法通常考虑核心Cas蛋白的序列保守性和进化关系:机器学习(ML)能帮助我们更好地分析已知Cas蛋白间的序列相似性,而分析基因上下文(包含CRISPR附近的其他基因)则让我们能深入了解其进化史。


随着更多CRISPRs的发现,CRISPR种类也在不断增加[10]。丰富的多样性既给CRISPR的分类带来了挑战,也是CRISPR工具箱不断发展的机遇。Cas蛋白的结构和功能注释是CRISPR分类中的关键步骤。新型Cas蛋白的注释局限于从数据库中找到序列与结构最为接近的相似物。然而,现有的相似物评分标准容易出现误判。因此,最好的解决方法可能是收集更多的实验(生物化学或结构)数据。而基于这些数据所开发的新算法,或能更准确地预测新型Cas蛋白的功能,这乃是今后CRISPR工具开发的关键。


我们也希望借助新的计算方法极大丰富实验证据,以更好地改进CRISPR分类,分析CRISPR系统的进化轨迹,并预测CRISPR系统的功能。深度学习通过识别现存CRISPR系统的特点和模式,能更准确地根据Cas蛋白的结构预测其功能。这类算法或许还能有效预测那些与现有CRISPR系统功能截然不同、需要区别对待的CRISPR族。这些技术进步将助力人们不断探索未知的CRISPR领域,最终带来新一代CRISPR技术。

计算赋能CRISPR技术发展

用于CRISPR基因组编辑工具设计的计算方法。除了用于天然CRISPR系统的发现和分类,计算方法(尤其是蛋白质设计)还能将天然Cas蛋白改造成全新的工具。理想的Cas蛋白应当具有尺寸小[11]、免疫原性弱[12],且能结合原间隔序列临近基序(PAM)新变体相邻的新基因组序列等特征[13]。目前为止,这一领域的研究主要采用经验方法,即理性设计新的蛋白质序列,或是进行随机诱变并通过迭代测试加以筛选。这些方法不仅耗时费力,而且不解析蛋白质结构,就难以获得机理性认识。


计算工具能通过预测蛋白质从头结构,大大加快其设计流程。近期,如AlphaFold2[14]等预测蛋白质结构的计算方法已经大获成功。AlphaFold2已经预测了超过两百万种蛋白质结构。而RoseTTAfold[15]不仅能预测蛋白质结构,还能用于蛋白质复合体建模。通过模拟各种序列的蛋白质结构和具有理想性能(如用于实验测试的、更强的Cas–DNA结合亲和力)的过滤变体,这类计算工具或能加快Cas蛋白工程的发展[16]


尽管计算工具已在蛋白质预测方面大获成功,但仍有难题尚待解决。首先,AlphaFold2在应用中存在如下缺点:无法揭示蛋白质折叠的机制或规律;计算错义突变的结构效应时表现不佳(可能是由于缺少突变训练样本所致)[17]。这意味着研究人员无法直接在Cas蛋白中设计点突变,亦无法利用现有工具对新变体进行准确预测。其次,许多天然蛋白质均以二聚体的形式存在,例如V-F亚型系统就由一个Cas12f二聚体和一条gRNA组成[18],而原始AlphaFold2仅能预测单体蛋白结构。虽然近期发布了AlphaFold-Multimer[19],但它预测Cas蛋白的多体结构的效果还有待检验。最后,根据蛋白质–DNA、蛋白质–RNA以及DNA–RNA的相互作用来预测Cas蛋白的结构也极其困难。


分子动力学(MD)模拟能从原子尺度表征蛋白质,并追踪蛋白质、DNA和RNA在不同时刻的相互作用。该技术已被用于模拟DNA结合时Cas9蛋白的构象变化[20]。倘若将蛋白质结构预测技术与MD模拟相结合——前者能阐明蛋白质残基的修饰如何影响其结构,后者能预测结构的变化对蛋白质功能的影响。这两种技术的联用将加快蛋白质工程流程,并增大从头设计的蛋白质在哺乳动物细胞中成功运转的几率。


计算工具提高CRISPR工具的特异性和效率。CRISPR现已被应用于人类临床试验,包括以增强肿瘤杀伤效果为目标的T细胞基因敲除[21],以及以治疗镰状细胞病为目标的突变纠正[22]。尽管CRISPR在临床上很有前景,但目前CRISPR对基因的修饰可能会脱靶,从而产生意外的得失位(插入或删除)突变,或是染色体重排。


计算工具已被广泛用于寻找潜在的gRNAs脱靶位点,从而提高CRISPR设计的特异性。早期的算法主要是寻找靶点区域以外的gRNA同源序列。这些算法需要确保潜在的脱靶位点邻近PAM位点。此外,这些算法还会考虑那些虽然不匹配,但具备高度相似性的序列。为此,研究人员开发出了Cas-OFFinder等计算工具,根据gRNA序列识别出所有潜在的脱靶点。


然而,基于同源性的计算工具也存在一些局限性。首先,仅找出所有潜在的脱靶位点,对gRNA的设计而言还远远不够。要想比较选出最佳实验gRNA,还要量化每个潜在位点的脱靶概率。其次,CRISPR实验设计还需要考虑gRNA的中靶效率。例如,靶点周围的表观遗传环境(如染色质可及性)会极大地影响基因编辑效率。再者,基于dCas9的基因调控技术很难预测哪种gRNA更有利于靶点基因的高效表达。


要解决这些问题,研究人员需要结合计算工具与多个数据集(包括潜在脱靶位点、CRISPR筛选、表观遗传特征分析等数据),全面评估gRNA设计的有效性。借助大型CRISPR–Cas活性数据集开发的机器学习(ML)工具,能根据不同数据类型的特征评估gRNAs。例如,DeepCRISPR利用卷积神经网络将遗传和表观遗传数据(如DNAse I超敏反应、转录阻抑物结合,以及H3K4me3占用率)相结合,以预测gRNAs的有效性。


多种计算工具已极大地助力了CRISPR实验的设计,并使该技术得到更多的应用,但仍有一些挑战亟待计算工具的进一步发展。首先,计算工具的不断丰富使工具性能的基准化和相互对比变得愈发重要。其次,不同的Cas系统在实际应用(如基因编辑、表观基因组工程、RNA编辑、DNA/RNA成像等)中对计算工具的需求也不同。其三,较少有计算工具能预测哪些gRNAs能有效用于转录调控、表观基因工程和成像等方面。最后,目前的ML工具缺乏可解释性,但解决这一问题会给我们带来更多机遇,并帮助我们深入理解CRISPR领域。如SHAP等ML模型解释的发展,可用于分析模型进行预测和特征重要性排序的依据。解释遗传和表观遗传数据集训练后的ML模型,并分析习得特征,能帮助我们深化对人类基因组的认识,如理解表观遗传学和基因组3D结构如何能影响基因编辑效率和DNA修复过程[23,24]


计算助力CRISPR筛选。高通量基因组功能筛选是CRISPR技术最强大的应用之一。相较于先前的低通量技术,其成本和速度都得到了极大(数个量级)的改善。包括MAGeCK、PinAPL-Py、CRISPRCloud2、BAGEL、CERES和PBNPA在内的许多先进计算工具,能够基于大规模CRISPR–Cas敲除筛选来确定基因功能。大多数工具是将gRNA短序列(reads)与基准库比对,并对测序深度进行归一化——通过这种方式来分析选定细胞群中已测序的gRNAs。部分工具能给出质量控制图,以更好地确保数据分析的合理性。得益于大量的筛选数据,计算工具能运用精密的统计方法消除批次效应。自动绘图和下游可视化也降低了新用户分析筛选数据的门槛。


虽然一些工具简便易用,但用户们应充分了解算法背后的统计假设,以正确解释数据并推断基因组功能。由于前人已在不同的生物情境中开展了众多筛选实验,这类实验的复现性可能较差。下一步应结合筛选数据和多个遗传及表观遗传数据集,开发用于情境特异性变量和相关的基因组功能分析的计算方法。例如,可以将CRISPR筛选数据和基础基因表达相结合,实现转录组依赖的药物反应预测[25]


机器学习(ML)算法结合丰富的数据集,能更好地分析筛选结果。但这些数据通常来自一组不同的细胞,因而需要将单个细胞数据与CRISPR筛选相匹配。随后,研究人员开发出了Perturb-seq[26],从实验上将CRISPR扰动和单细胞转录组联系到一起。scMAGeCK和Perturb-CITE-seq等计算工具,都能用于分析Perturb-seq产出的大型数据集。这些工具有待进一步完善,以推断生物学方面的因果联系。另外,由于上位作用会影响多基因组扰动的协同效应,联合筛选也是人们目前尚未涉足的领域。我们认为,计算方法在这一领域将大有可为。

展望

计算工具库的不断扩充,为CRISPR发现和技术发展(包括Cas分子发现、工具优化和生物功能分析)提供了极大帮助。这些工具拓展了CRISPR–Cas系统的应用潜力。时值CRISPR–Cas介导疗法的新时代,诸如Cas蛋白的体内免疫原性、Cas系统大分子尺寸所致的递送问题、脱靶效应,以及关于诱导DNA损伤的安全考虑等重大难题还有待解决。为此,我们需要借助精密的计算工具,更有效地探索CRISPR介导的基因组编辑规律,更准确地预测脱靶位点,更可靠地设计出广泛适用于基因组和表观基因组工程的有效gRNAs。而如今来自CRISPR实验的不断扩充的数据集,为计算工具的开发创造了大好机遇。


我们回顾了多种现有的预测gRNA效率的工具,认为当务之急是对现有的计算工具进行标准化,并探索不同工具间的协同作用。此外,深度学习模型的解释也是一个有前景的领域,能帮助我们从生物学角度深入理解CRISPR。测序和单细胞组学的发展带来了高内涵CRISPR筛选的概念[27],而这需要构建起推断遗传相互作用的可解释模型。


展望未来,其他领域正在开发的一些计算工具将会扩展CRISPR的潜力。蛋白质结构预测算法虽然已经大获成功,但AlphaFold2等工具还需用更多相关的数据进行训练,并结合分子动力学(MD)模拟探讨蛋白质、gRNA和目标DNA之间的相互作用,方能用于计算指导下的Cas蛋白设计。毫无疑问,这需要生物工程师、生物学家和计算科学家们通力合作。在各学科研究人员的协助下,我们能优化CRISPR数据库生成、标准化和模型解释,解决许多剩余的挑战,并迎来CRISPR发现和技术的新一轮浪潮。

扫码阅读更多《自然-计算科学》推出的诺贝尔系列文章


参考文献:

1. Agarwal, N. & Gupta, R. History, evolution and classifcation of CRISPR-Cas associated systems. In Progress in Molecular Biology and Translational Science 11–76 (Elsevier, 2021).

2. Giani, A. M., Gallo, G. R., Gianfranceschi, L. & Formenti, G. Comput. Struct. Biotechnol. J. 18, 9–19 (2019).

3. Jansen, R., van Embden, J. D. A., Gaastra, W. & Schouls, L. M. Mol. Microbiol. 43, 1565–1575 (2002).

4. Makarova, K. S., Aravind, L., Grishin, N. V., Rogozin, I. B. & Koonin, E. V. Nucleic Acids Res. 30, 482–496 (2002).

5. Giani, A. M. et al. Comput. Struct. Biotechnol. J.18, 9–19 (2020).

6. Barrangou, R. et al. Science 315, 1709–1712 (2007).

7. Haf, D. H., Selengut, J., Mongodin, E. F. & Nelson, K. E. PLoS Comput. Biol.1, e60 (2005).

8. Makarova, K. S. et al. Nat. Rev. Microbiol. 9, 467–477 (2011).

9. Makarova, K. S. et al. Nat. Rev. Microbiol. 18, 67–83 (2020).

10. Hidalgo-Cantabrana, C. & Barrangou, R. Biochem. Soc. Trans.48, 15–23 (2020).

11. Xu, X. et al. Mol. Cell81, 4333–4345e4 (2021).

12. Wagner, D. L., Peter, L. & Schmueck-Henneresse, M. Gene Ter.28, 549–559 (2021).

13. Collias, D. & Beisel, C. L. Nat. Commun.12, 555 (2021).

14. Jumper, J. et al. Nature596, 583–589 (2021).

15. Baek, M. et al. Science373, 871–876 (2021).

16. Yuan, Q. et al. Brief. Bioinform. 23, bbab564 (2022).

17. Buel, G. R. & Walters, K. J. Nat. Struct. Mol. Biol. 29, 1–2 (2022).

18. Takeda, S. N. et al. Mol. Cell81, 558–570e3 (2021).

19. Evans, R. et al. Preprint at bioRxiv https://doi.org/10.1101/2021.10.04.463034 (2022).

20. Palermo, G., Miao, Y., Walker, R. C., Jinek, M. & McCammon, J. A. Proc. Natl Acad. Sci.114, 7260–7265 (2017).

21. Lu, Y. et al. Nat. Med. 26, 732–740 (2020).

22. Frangoul, H. et al. N. Engl. J. Med.384, 252–260 (2021).

23. Daer, R. M., Cutts, J. P., Brafman, D. A. & Haynes, K. A. ACS Synth. Biol. 6, 428–438 (2017).

24. Schep, R. et al. Mol. Cell 81, 2216–2230e10 (2021).

25. Szlachta, K. et al. Nat. Commun.9, 4275 (2018).

26. Dixit, A. et al. Cell 167, 1853–1866e17 (2016).

27. Bock, C. et al. Nat. Rev. Methods Primers2, 8 (2022)

点击阅读原文查看英文原文

Computation empowers CRISPR discovery and technology


版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2022 Springer Nature Limited. All Rights Reserved

星标我们🌟,记得点赞、在看+转发哦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存