源代码利用python脚本实现批量抓取药物靶点信息-peaker.pdfVIP

源代码利用python脚本实现批量抓取药物靶点信息-peaker.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

#源代码#利用Python实现批量抓取药物靶点信息

Peaker

在药物相关研究领域,我们经常需要利用到药物的靶点信息,以

便于我们研究药物的治疗作用。这一信息在很多研究方向上都有重要

意义,例如通过靶点相似性可以推测药物的相似性,从而实现药物重

定位或药物新作用发现。另一方面,通过分析药物靶点之间的相关性,

可以发现新的治疗靶标或药物新靶点。除了治疗领域,在药物副反应

方面,药物靶点信息也起到重要作用,因为药物副反应一方面是脱靶

效应,另一方面是作用于和靶点结构相似的未知蛋白。因此结合靶点

信息,可能会解释部分的药物毒副反应发生机制,识别副反应相关蛋

白。

说了这么多药物靶点的重要性,那么我们通常如何获得药物的靶

点信息呢?很多数据库都收录了药物和蛋白的互作关系,例如

promiscuous,STITCH,supertarget等,但是这些数据库都是基于文献

或预测获得的药物相关蛋白,而最的药物靶点信息还是要依赖于

一级数据库——drugbank。

但是这里又要提到一个问题,就是对于很多药物需要批量检索时

该怎么办?没错,drugbank非常友善的为用户提供了数据,但是

药物靶点信息的数据总大小为几G,全部下来非常耗时,占内存,

同时如此大的数据我们并不能直接使用,通常需要对大数据进行文本

处理,如拆分或提取有效信息等。这一过程实在是非常麻烦。所以今

天为大家提供一种最简单实用的方法——网络爬虫。也就是利用网页

抓取的原理从drugbank数据库批量抓取药物的靶点信息,实现全过程

的自动化一站式服务。

首先我们进入drugbank主页

我们以aspirin为例,在有哪些信誉好的足球投注网站框输入药物名aspirin,点击search进入如

下界面

如图,上方地址栏内为URL地址,下面红框内为查询到的aspirin药物,

乙酰水杨酸。点击药物名进入下面详细信息

如图所示,地址栏为我们最终希望得到的targetURL地址,也就

是说获得这个地址,就可以直接跳转到药物的详细信息,包括靶点信

息的页面。下面我们可以看到红框内的target靶点信息。

那么最关键的问题就是如何获得URL地址呢,URL中有一个

DB00945,也就是找到这个药物ID就可以跳转过来,我们通过上一级

源代码可以看到DB00945的位置,接下来就是通过正则表达式抓取这

个DB00945的信息了。

对于targetURL,也就是目标地址,我们可以找到药物对应的靶点信息,

如图所示,这里程序默认的是抓取UniprotID,因为考虑到后期ID转

换的问题,UniprotID可以更方便的转换为GENEID,或symbol等。

这里我们以第一个target为例,通过源代码找到他的位置,如图所

示。其他的target也可以通过类似的段落格式,基于正则表达式抓取。

接下来我们尝试用Python

文档评论(0)

wx5620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档