蛋白质架构的数学洞察-持续同调性和机器学习应用于鞭毛马达-计算机科学-机器学习-蛋白质结构.pdf

蛋白质架构的数学洞察-持续同调性和机器学习应用于鞭毛马达-计算机科学-机器学习-蛋白质结构.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我们提出了一种利用持久同调来将细菌鞭毛马达分类为两种功能状态(旋转和停滞)的机器学习方法。通过将蛋白质结构数据嵌入到拓扑框架中,我们从基于原子坐标的过滤单纯复形中提取多尺度特征。这些拓扑不变量,特别是持续图和条形码,捕捉到了与马达功能相关的几何和连接模式。提取的特征被矢量化并集成到一个包含降维和监督分类的机器学习管道中。应用于一组精心挑选的来自不同细菌种类且经过实验表征的鞭毛马达数据集时,我们的模型展示了高分类准确性和对结构变化的强大鲁棒性。这种方法突显了拓扑数据分析在揭示超出传统几何描述符能力

蛋白质架构的数学洞察:持续同调性和机器学习应用于鞭毛

马达

ZakariaLamine

IbnTofailUniversity,B.P.242,Kenitra,14000,Kenitra,Morocco

AbdelatifHafid

ESISA,ESISAAnalyticaLaboratory,Fez,30050,Fez-Meknes,Morocco

MohamedRahouti

FordhamUniversity,DepartmentofComputerandInformationScience,FordhamUniversity,Bronx,New

York,10023,NewYork,USA

译Abstract

2我们提出了一种利用持久同调来将细菌鞭毛马达分类为两种功能状态(旋转和停滞)的机

v器学习方法。通过将蛋白质结构数据嵌入到拓扑框架中,我们从基于原子坐标的过滤单纯

1

4复形中提取多尺度特征。这些拓扑不变量,特别是持续图和条形码,捕捉到了与马达功能相

9

6关的几何和连接模式。提取的特征被矢量化并集成到一个包含降维和监督分类的机器学习

1

4.管道中。应用于一组精心挑选的来自不同细菌种类且经过实验表征的鞭毛马达数据集时,

0我们的模型展示了高分类准确性和对结构变化的强大鲁棒性。这种方法突显了拓扑数据分

5

2析在揭示超出传统几何描述符能力的功能相关模式方面的力量,为蛋白质功能预测提供了

:

v

i一种新颖的计算工具。

x

rKeywords:机器学习,持久同调理论,鞭毛马达,蛋白质结构数据,持久图,条形码,拓扑数

a

据分析

1.介绍

蛋白质是执行生物体中各种功能的基本生物大分子,包括酶催化、信号转导和结构支

持[1]。蛋白质的三维形状决定了其功能,使得蛋白质结构的研究成为分子生物学的基础

[2]。

近期高通量技术的进步,如X射线晶体学、冷冻电子显微镜和深度测序等,产生了大

量的结构和功能数据。然而,由于蛋白质结构的复杂性和其动态特性[3][4][5],分析和解释

这些数据仍然是一个重大挑战。

拓扑方法的应用,尤其是持续同调,在蛋白质结构的研究中获得了关注[6]。持续同调

已被应用于识别蛋白质折叠的关键特征;分析酶的结合位点和活性区域,并理解蛋白质中

的动态构象变化。

此外,机器学习方法已与拓扑描述符相结合,在预测蛋白质功能和稳定性方面显示出

显著潜力[7][8]。尽管有这些进展,更精细工具的应用,如持续同调计算,仍然未被充分

探索[9]。虽然持续同调能够有效捕捉全局和运动特性,但它主要集中在拓扑特征如连通分

量、环路和空洞的存在上[6]。然而,它往往忽略了额外的代数结构,例如持续同调类,这

些提供更丰富的不变量来理解蛋白质结构内的相互作用[10]。

此外,有限的探索了持久同源性计算如何改进蛋白质结构分类,并提供关于结构和功

能属性之间关系的新信息[11],以及与统计和机器学习管道无缝集成以进行预测分析。

本研究旨在通过引入持久同调方法来改进蛋白质分析,解决当前方法中的一个关键限

制。具体而言,我们使用自由解析和计算算子来推导出提供更深入蛋白质结构洞察力的持

久同调数据。我们通过专注于鞭毛马达这一生物重要蛋白复合物作为案例研究来展示该数

学模型。在此过程中,我们探讨了如何通过持久同调计算揭示分子机器中的结构和功能关

系。最后,本文的关键贡献在于推进拓扑数据分析(TDA),引入了一个新的框架,在生物

学数据的背景下对拓扑不变量进行分类化。这是通过代数拓扑的角度来实现的。

论文结构如下。第2节建立了持久同调计算的理论框架,并提出了模型代数拓扑特征

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档