滚球app(中国)官网下载 Cell | 冲破单一靶点执念! AI基于全转录组逆转, 开启从新药物发现新范式
发布日期:2026-03-21 07:55 点击次数:103

在昔时的几十年里,当代药物研发主要战胜着被称为“靶点导向” (Target-based drug discovery)的逻辑。咱们试图在复杂的疾病网罗中找出一个要道的致病卵白,然后像配钥匙相同,联想一个小分子去精确地锁死它。然而,面对朽迈、纤维化或高度异质性的肿瘤等复杂疾病时,这种寻找单一“要道锁孔”的计谋正越来越平时地碰壁。很多疾病并非由单一靶点开动,而是扫数这个词细胞情景的系统性失衡。
那么,要是咱们不再执着于单一靶点,而是平直热心细胞的举座情景呢?要是咱们能找到一种药物,把疾病情景下的极端基因抒发图谱,举座“翻转”回健康情景呢?
3月17日,《Cell》的辩论报说念“Deep-learning-based de novo discovery and design of therapeutics that reverse disease-associated transcriptional phenotypes”,辩论东说念主员构建了一个名为 GPS (Gene expression Profile predictor on chemical Structures) 的深度学习平台。该平台能够平直根据分子的化学结构,预计其对全转录组的扰动情况,并以此为基础,在千万级别的化合物库中筛选和联想能够“逆转”疾病转录组表型的全新药物。这项辩论不仅为肝细胞癌 (Hepatocellular Carcinoma, HCC) 和特发性肺纤维化 (Idiopathic Pulmonary Fibrosis, IPF) 带来了极具后劲的候选药物,更进军的是,它向咱们展示了一种冲破传统药物研发瓶颈的全新范式。

突破单一靶点的执念:系统性表型逆转的崛起
在深入明白 GPS 模子之前,咱们先来望望当代药物发现所濒临的逆境。耐久以来,靶点导向的药物筛选主导了制药工业。这种计谋在应付某些由明确基因突变开动的疾病时取得了巨大生效。然而,对于大多数退行性疾病、复杂代谢病以及高度异质性的恶性肿瘤,寻找单一的灵验靶点变得极端清苦。举例在肝细胞癌中,莫得任何一个基因组特征在卓著 50% 的患者中发生改换,也莫得任何一个临床靶点在卓著 20% 的患者中高抒发。
当一条路走欠亨时,另一种陈腐的计谋——表型筛选 (Phenotypic screening) 再次回到了东说念主们的视线。传统的表型筛选不热心药物讨好什么具体的卵白,只热心药物是否能改换细胞的某种宏不雅特征(如细胞示寂、格局改换等)。但传统表型筛选的迤逦在于它如团结个“黑匣子”,咱们很难知说念药物在细胞内到底激发了怎样的级联反应,这给后续的先导化合物优化和机制辩论带来了巨大的退却。
跟着高通量测序技艺的发展,转录组学 (Transcriptomics) 为咱们提供了一种完满的折中决议。转录组不错被视为细胞在特定时分点的“分子快照”,它比单一靶点包含了更丰富的系统性信息,又比宏不雅表型具备更高的数据维度和可解析性。要是咱们能将疾病发生前后的转录组变化记载下来(即“疾病标签”),再找出一种能够引起相背转录变化模式的药物,这是否就意味着药物能够在系统层面上“校正”疾病情景?
这个基于“转录组逆转”的想法在药物重定位 (Drug repurposing) 范围已被平淡考证。然而,它一直受限于一个致命的瓶颈:现存的转录组数据库(如 LINCS 数据库)只包含了上万种已知药物或分子的抒发图谱。面对动辄数以千万计、以致数十亿的早期新药筛选分子库,咱们不成能在本质室里把它们挨个扔进细胞去测序。要是无法获取海量新分子的转录组图谱,基于转录组的从新药物发现 (De novo drug discovery)就无从谈起。这恰是 GPS 模子出生的布景:用东说念主工智能越过化学结构与生物转录组之间的界限。
在数据的噪波中索要真谛:GPS模子的架构与磨砺
要让深度学习模子学显露过化学结构预计基因抒发变化,起始需要处置的是磨砺数据的质地问题。LINCS 数据库诚然弘远,但高通量转录组数据自己充满了技艺和生物学变异。辩论标明,在 LINCS 数据库的团结阶段本质中,重叠样本之间的平均关连性仅为 0.5,不同阶段本质的中位可重叠性得分以致不到 0.6。要是在这么充满杂音的数据上平直磨砺,模子极易堕入过拟合的泥潭。
为了应付这一挑战,辩论东说念主员好意思妙地引入了一种称为“持重协同学习” (Robust Collaborative Learning, RCL) 的磨砺框架。在数据预处理阶段,他们并莫得使器具体的连气儿抒发值,而是将药物与基因的互相作用滚动为三种分类情景:下调(Z-score 1.5)和无影响。这种分类处理起始过滤掉了大批轻微的布景波动。随后,辩论东说念主员通过立时丛林模子筛选出那些其抒发变化能够被化学结构预计的“特征基因”。在 978 个标识性基因 (Landmark genes) 中,共有 307 个被认定为具有较高可预计性,其中卓著一半在不同细胞模子之间分享。
在模子架构上,GPS 的输入端交融了两种信息:一个是代表药物化学结构的分子指纹 (ECFP4),另一个是代表基因功能特征的基因内容论 (Gene Ontology, GO) 词汇。通过引入 GO 特征,模子不仅能贯通化学分子长什么样,还能“贯通”它正在预计的基因参与了什么生物学进程。
RCL 磨砺框架的中枢在于多网罗协同。系统包含了多个并行的神经网罗,它们在磨砺初期被饱读舞产生不合,以减少单一网罗的样本取舍偏差;在磨砺后期,跟着准确率上升,它们又被饱读舞达成共鸣。在每一轮迭代中,模子倾向于取舍亏本较小的“高质地”样原本更新参数,逐步将高置信度的数据权重提高。最终,该系统诈欺了大致 80% 的可用数据点进行磨砺。比较于传统的单任务模子或平直交融所少见据的普通多任务模子,RCL 在四种常用的癌细胞系(HEPG2、MCF7、PC3、VCAP)上,不管是在里面立时拆分照旧在包含全新分子的外部考证中,其 F1 得分和均衡准确率均完了了显赫进步,且扫数阐述差异在统计学上均极具显赫性 (p
更猛烈的是,通过诈欺 1107 个 GO 特征对基因进行镶嵌,GPS 将其预计范围从起始的数百个标识性基因大幅彭胀。通过在一个包含 45 种药物和 23 种细胞系全转录组图谱的校准数据集上进行对比,辩论东说念主员最终详情了 2198 个能够被高置信度预计的基因。针对这些基因的 GO 富集分析揭示了长远的生物学端正:其中卓著 26% 的基因位于核质中(富集倍数为 1.52,FDR = 4.72E-27),显赫富集的生物学进程主要与细胞周期退换相关,这也与细胞组分中纺锤体的显赫富集(富集倍数 2.05,FDR = 1.42E-4)相吻合。这示意了一个进军的生物学事实:与细胞周期、转录和激酶信号传导关连的基因抒发,对于外界的化合物微扰具有更明锐、更具可预计性的反应。
Z-RGES:臆想基因图谱逆转的刻度尺
当咱们领有了能够预计数百万分子转录组图谱的才能后,下一个问题是:如何量化一个分子“逆转”疾病情景的才能?
以往的辩论中,东说念主们常使用一种称为 RGES (Reverse Gene Expression Score) 的得分。但原始的 RGES 对化合物影响的基因数目相配明锐,要是平直用于评估 GPS 预计出的大小不一的基因集,会产生极大的偏差。为此,辩论东说念主员开采了一种革新的算法:Z-RGES。
Z-RGES 的联想进程严实且具有统计学说念理说念理。起始,根据疾病签名(疾病中极端上和谐下调的基因),评估化合物预计出的上和谐下调基因在疾病图谱中的富集位置。为了放手基因集大小带来的偏差,算法会对特定数目的基因在立时布景下的富集分数进行 1500 次采样散播,然后诈欺 Z 变换对原始富集分数进行归一化。最终,Z-RGES 的数值越呈负值,标明该化合物逆转疾病转录组特征的才能越强。
数据证明了这种革新的必要性。在评估已知抗癌化合物时,Z-RGES 与化合物遏抑肝癌细胞滋长的活性(pIC50 值)呈现出显赫的负关连(Spearman 关链接数 -0.554,p = 0.0049),而原始的 RGES 则未能夸耀出显赫的关连性。在包含 393 种化合物的 CTRP HepG2 药物明锐性数据辘集,Z-RGES 完了了 0.768 的受试者责任特征弧线底下积 (AU-ROC),前排行的射中率达到了惊东说念主的 40%。这个办法确凿立,标识着咱们领有了一把不错在普遍化学空间中丈量药物后劲的刻度尺。基于此,辩论东说念主员认真开启了顽抗两种高度复杂疾病的征途。
肝细胞癌的造谣试真金不怕火:从七百万分子到体内灵验抗肿瘤
肝细胞癌 (HCC) 是环球第六大常见癌症,致死率高且当今缺少普遍灵验的休养决议。面对 HCC 高度的异质性,辩论东说念主员决定诈欺 GPS 和 Z-RGES 计谋伸开全面攻势。
起始,他们尝试对一个已知的“老药”进行优化。在早期的重定位辩论中,驱虫药氯硝柳胺 (Niclosamide)被发现具有逆转 HCC 转录组的作用,但由于其极差的水溶性和短促的休养窗口,耐久无法上前股东。诈欺 Z-RGES 评分,辩论团队起始说明了 7 种商用氯硝柳胺访佛物的评分与其在 HepG2 和 Huh7 细胞系中的半数遏抑浓度 ($IC_{50}$) 高度关连。
随后,他们在包含约七百万种分子的 ZINC 数据库中,搜寻不仅具有更高预计水溶性,且保抓优异 Z-RGES 评分的访佛物。其中,候选分子 Cpd.5260420 脱颖而出。诚然其在 Huh7 细胞上的体外 $IC_{50}$ 值为 14.8 μM,不足原药,但它的能源学水溶性达到了 34 μM,何况在原代肝细胞中未不雅察到毒性。在皮下移植 Huh7 肿瘤的小鼠模子中,每 3 天进行 1 μg 的瘤内打针,抓续两周后,Cpd.5260420 显赫缩减了小鼠体内的肿瘤体积。这一初步生效,考证了通过转录组逆转评分来率领先导化合物优化的可行性。
但这只是是热身。真实的挑战在于从新发现全新骨架的化合物。诈欺包含 284 个上调基因和 91 个下调基因的 HCC 疾病标签,辩论团队对 ZINC 库中的 700 万个类药分子进行了全面筛查。为了幸免选出非特异性的毒性分子,他们还对那些可能引起不渴望基因抒发(举例进一步上调 HCC 中已过度抒发的基因)的分子进行了处分。
最终,滚球(中国)官网app18 种结构各别、Z-RGES 评分极佳且与已知抗 HCC 药物结构不相似的候选分子被送入本质室进行体外考证。成果令东说念主上涨:约三分之一的候选物在三种不同的 HCC 细胞系(HepG2, Huh7, Hep3B)中均阐述出显赫的增殖遏抑作用,这与前期联想得出的 40% 射中率高度吻合。其中,阐述最杰出的候选物之一 44443110 完了了 2-3 μM 的 $IC_{50}$ 值。而另一个极具后劲的分子 PB56874852($IC_{50}$ 约 4 μM)则展现出了极高的取舍性——即使在 100 μM 的高浓度下,它也莫得影响正常原代肝细胞的存活率。RNA 测序证实,使用 10 μM 的 PB56874852 处理 Huh7 细胞所激发的真实转录组变化模式,与 GPS 的纯联想预计成果呈现出高度的一致性。
AI 赋能分子进化:从微摩尔到亚微摩尔的飞跃
取得优秀的苗头化合物 (Hit) 后,接下来是极其要道的“苗头到先导” (Hit-to-lead) 的优化进程。为了保留高取舍性同期进步药效,辩论团队将 PB56874852 输入到名为 MolSearch的两阶段多场所优化算法中。MolSearch 遴荐了蒙特卡洛树搜索 (Monte Carlo tree search) 计谋,它不仅发愤于于寻找能进一步裁减 Z-RGES 评分(进步逆转才能)的结构修饰,还要兼顾化合物的类药性、合成可及性和融解度等非生物学属性。
在 MolSearch 的率领下,一系列将 PB56874852 上的呋喃环替换为卤苯基团的生息物被联想出来并合成为什物。体外本质数据完满印证了算法的推演:当呋喃基团被对溴苯基替代时,化合物对 Huh7 细胞的 $IC_{50}$ 值骤降至 0.34 μM。比较之下,要是替换为普通的苯基、吡啶或甲氧基,药效则莫得昭彰改善。
辩论团队进一步引入强吸电子的三氟甲基,最终合成出了代号为 MSU45302 的分子。这款优化后的化合物在三种 HCC 细胞系中的 $IC_{50}$ 值全部参预了亚微摩尔级别(0.47, 0.99, 0.85 μM),其抗增殖活性以致达到了一线靶向药物索拉非尼 (Sorafenib) 的数倍。
药代能源学本质夸耀,在 100 mg/kg 的口服剂量下,MSU45302 在小鼠体内的最高血药浓度 ($C_{max}$) 达到了 29 μmol/L,半衰期为 2.5 小时,血浆夸耀量可在 5 到 10 小时内保管在 1 μM 以上。随后的体内抗肿瘤实考证实,每 3 天打针 1 μg 的 MSU45302,抓续两周,不错显赫且大幅度地遏抑 Huh7 异种移植小鼠模子中的肿瘤滋长。
开启转录组的黑匣子:SGAR揭示作用机制
传统的表型筛选时常濒临“知其然而不知其是以然”的痛苦,由于缺少明确靶点,后续辩论递次维艰。然而,GPS 平台提供的不单是是一个单一的活性读数,它还伴跟着数千个基因的抒发变化预计。这种丰富的数据维度,使得辩论东说念主员得以始创一种全新的分析才能:结构-基因-活性关系 (Structure-Gene-Activity Relationship, SGAR)分析。
辩论东说念主员录取了 26 种包含不同化学片断的抗 HCC 化合物(包括 15 种 MSU45302 的访佛物),并对 GPS 预计出的它们的基因抒发扰动图谱进行了聚类分析。成果夸耀,那些阐述出高抑癌活性的分子,即便化学骨架不同(举例氯硝柳胺和 MSU45302),它们在转录组扰动空间中也会精深聚类在一皆。通过在全转录组范围内寻找与抗 HCC 疗效显赫关连的基因,辩论东说念主员锁定了 15 个要道基因,包括 WDR75、KIF23、UHRF1 和 MCM6 等。体内使用 MSU45302 处理小鼠模子,以及体外使用 PB56874852 处理细胞的真实 RNA 测序数据,均证实了这些基因的显赫下调。
在这些基因中,UHRF1的抒发变化最为剧烈。UHRF1 编码一种 RING 指型的 E3 泛素相连酶,它是 DNA 甲基化的要道退换因子。随后的实考证实,敲低细胞内的 UHRF1 抒发,能够显赫裁减肝癌细胞的存活率。Western Blot 本质进一步说明,MSU45302 诀别在 5 μM 和 10 μM 浓度下,显赫减少了 Huh7 和 HepG2 细胞中 UHRF1 的卵白抒发量。
讨好患者活命数据分析,UHRF1 在肝癌中被明确为一个不良的预后标识物;空间转录组学分析也直不雅地夸耀,与正常相邻组织比较,UHRF1 在 HCC 组织中呈现平淡的高抒发。扫数这些笔据酿成了一个闭环,有劲地复古了 MSU45302 部分通过遏抑 UHRF1 及其下贱的 DNA 低甲基化来阻断 HCC 肿瘤滋长的作用机制。通过 SGAR 分析,GPS 平台绝对冲破了表型筛选的黑匣子,让咱们不仅找到了灵验的分子,还能从全景转录组的角度,穷回想底地描述出药物在细胞内拨动的具体分子琴弦。
单细胞分辨率下的纤维化狙击:特发性肺纤维化 (IPF)
为了进一步考证这套体系在非癌症、且高度依赖微环境的复杂疾病中的通用性,辩论东说念主员将视力转向了特发性肺纤维化 (IPF)。IPF 是一种凄凉且致命的慢性肺部疾病,其特征是肺泡壁增厚和肺泡腔封闭。当今,针对 IPF 的休养取舍极其有限,患者确诊后的中位活命期仅约 3 年支配。
IPF 的病理机制高度复杂,触及多种细胞类型的互相作用。为了更精确地捕捉这种微环境中的病理变化,辩论东说念主员不仅使用了小鼠纤维化模子和体外细胞培养的测序数据,更引入了高分辨率的单细胞 RNA 测序 (scRNA-seq) 数据。通过对 10 名健康对照者和 12 名 IPF 患者的单细胞数据进行分析,辩论团队构建了针对不同细胞群体的疾病标签。他们终点热心了那些在纤维化程度中演出要道扮装的细胞类型,举例肌成纤维细胞 (Myofibroblasts)和抒发MUC5B+ 的上皮细胞,以及处于极端滚动情景的肺泡 2 型到 1 型细胞等。
基于这些高分辨率的单细胞疾病标签,辩论团队起始进行了药物重定位的探索。他们在由老药构成的数据库中挑选了 20 种候选药物,并在极具滚动医学价值的东说念主类精确凿割肺切片 (Precision-cut lung slices, PCLS)模子中进行了测试。这是一种能够保留肺部三维结构和微环境的顶级体外模子。
在 4 种通过初步筛选的候选药物中,一种名为吡硫二酮 (Pyrithyldione)的分子在来自 8 名不同患者的 PCLS 模子中,一致且显赫地裁减了纤维化标识物(如 FN1, SMA, CTHRC1, COL1A1)的抒发,其疗效以致与现存的 FDA 批准药物尼达尼布 (Nintedanib) 终点。在随后的体内考证中,连气儿 14 天、每天 100 μM 剂量的吡硫二酮休养,显赫放松了博来霉素教导的小鼠肺纤维化。
更令东说念主深想的是,通过对经吡硫二酮处理后的 PCLS 样本进行大块 RNA 测序和 CIBERSORTx 细胞比例去卷积分析,辩论发现休养组样本中的肌成纤维细胞比例显赫着落。进一步将疾病单细胞标签映射到药物处理后的测序数据上,辩论东说念主员发现,吡硫二酮不仅逆转了肌成纤维细胞中的多个极端基因,更逆转了大批 MUC5B+ 上皮细胞中的极端抒发。针对这些被逆转基因的 GO 词汇富集分析指出,铁离子转运和过渡金属离子转运路线深入参与其中,这与比年来对于铁代谢在 IPF 进展中作用的辩论高度契合。
基于对微环境多细胞靶向的长远矍铄,辩论团队最终挑选了肌成纤维细胞和 MUC5B+ 上皮细胞的磋议标签,诈欺 GPS 平台在 Enamine 高通量筛选库中伸开了全新分子的造谣海选。从一百多万个新分子中,算法最终保举了 40 个候选物。空洞考量了结构巩固性、致突变风险和脂水分拨悉数 (cLogP) 等成药性办法后,19 个分子参预了极为严苛的东说念主类 PCLS 模子测试。本质成果夸耀,其中 4 种分子在初步测试中夸耀出了裁减纤维化标识物的活性;而代号为“Drug 18”的全新骨架化合物,在 10 μM 浓度下,在多个患者的肺切片样本中,统计学上显赫地裁减了 FN1、SMA 和 CTHRC1 等多种促纤维化中枢卵白的抒发。
通过 IPF 的案例,GPS 平台不仅证明了其在非肿瘤范围的平淡适用性,更展现了其与单细胞前沿测序技艺讨好后,深入解析疾病微环境、完了多细胞亚群磋议靶向干预的惊东说念主后劲。
重塑药物发现的底层逻辑
到这里,咱们不妨回偏激来凝视起始提倡的阿谁问题。这项辩论真实令东说念主上涨的,不单是是它发现了几个有但愿休养肝癌或肺纤维化的化合物分子。真实具有颠覆性说念理说念理的,是它展现出的一种药物研发理念的升维。
传统的靶向休养往往局限于单一路线或单一细胞类型。然而,像 IPF 这么的疾病中,微环境可能像肿瘤相同滋生出对药物的耐受情景。细胞外基质的过度千里积重塑了组织结构,单一靶点的遏抑往往会被弘远且冗余的生物学网罗绕过。举例,即使咱们遏抑了激活 TGF-β 的特定整合素,其他的路线也曾不错四肢“替补”上场。
而基于深度学习的系统性表型逆转,则是一种更高维度的降维打击。它不板滞于某一个具体的卵白受体,而是试图寻找能够举座重塑细胞通信网罗、扭转细胞运说念轨迹的“系统性密码”。在这个进程中,东说念主工智能成为了翻译“化学结构讲话”和“生物转录讲话”的精密翻译机。
通过持重协同学习框架 (RCL),克服了生物学大数据的固有杂音;通过 Z-RGES 评分算法,量化了转录组网罗之间的相对距离;通过 SGAR 分析,将宏不雅的表型变化再行锚定到具体的微不雅分子机制上;通过讨好单细胞测序数据,完了了对复杂微环境中不同细胞军团的精确反击。
从联想机里面七百万个冰冷的化学结构标记,到本质室培养皿中示寂的癌细胞;从蒙特卡洛树上的一次次造谣节点拓展,到小鼠体内实实在在缩小的肿瘤块。GPS 平台完整走通了从造谣筛选、先导化合物优化,到机制解析和活体动物乃至东说念主体组织切片考证的全链条。
人命是一个极其复杂且精密的动态网罗。也许在改日,面对复杂多变的紧要疾病,咱们不再需要像大海捞针相同去寻找阿谁虚无缥缈的“独一缺欠”。更姓改物的是,咱们输入疾病失衡的系统代码,而东说念主工智能将在普遍的化学宇宙中,为咱们精确运算出那串能够让人命系统重启、规复均衡的完满指示。这,梗概即是药物发现下一个时期的壮阔图景。
参考文件滚球app(中国)官网下载
ag真人app官方网站入口