生物信息学精要.docVIP

下载本文档

12
0
约1.08万字
约 26页
2017-05-09 发布于湖北
举报
版权申诉

生物信息学精要.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物信息学精要

生物信息学：是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉形成的一门新学科，是利用信息技术和数学方法对生命科学研究中的生物信息进行收集、加工、存储、检索、分析和解释的科学。生物信息学发展阶段：（1）萌芽期（20世纪50-70年代） 50年代：生物信息学开始孕育 1953 Watson和Crick提出了DNA双螺旋结构。 1955 F. Sanger发表了胰岛素的蛋白质序列。 1956 美国田纳西州首次召开了“生物学中的理论研讨会”。 60年代：生物分子信息在概念上将计算生物学和计算机科学联系起来 1962 L. Pauling提出来分子进化理论。 1967 Dayhoff构建了蛋白质序列数据库。（2）萌芽期（20世纪50-70年代） 70年代：生物信息学的真正开端（序列比对算法） 1970 Needleman和Wunsch提出了著名的序列比对算法 1971 美国纽约Brookhaven国家实验室创建了蛋白质结构数据库（Protein data bank, PDB）。 1974 欧洲分子生物学实验室（European molecular biology laboratory, EMBL）建立 1977 Maxam和Gilbert发表了化学降解法，Sanger和Coulson发表双脱氧终止DNA测序法。 1978 Gingeras等人研制了核酸序列中酶切位点识别程序。（3）形成期（80年代）生物信息服务机构和数据库 1982 建立GenBank数据库。 1984 日本国立遗传学研究所NIG（National institute of genetics）开始信息服务。 1986 创立SwissProt蛋白序列数据库；美国能源部正式提出实施测定人类基因组全序列的计划。 1987 NIG发行日本DNA数据库DDBJ（DNA Data Bank of Japan）; 1988 Person和Lipman发表了著名的序列比较算法FASTA; 美国国家生物技术信息中心NCBI（National Center for Biotechnology Information）诞生；成立欧洲分子生物学网络（EMBNet），EMBL核酸序列数据库诞生。 1989 林华安首先采用“bioinformatics”一词。（4）高速发展期（90年代至今）HGP促进生物信息学的迅速发展 1990 人类基因组计划（Human Genome Project, HGP）正式启动。Altschul发表Blast（The Basic Local Alignment Search Tool ）算法。 1991 Venter在《科学》杂志上描述表达序列标签（Expressed Sequence Tag, EST）的建立和使用。 1992 Venter在美国马里兰州成立基因组研究所（the institute of genome research, TIGR） 1994 欧洲生物信息学研究所（European Bioinformatics Institute, EBI）成立。 1995 《科学》杂志刊登全基因组鸟枪法（Whole genome shotgun, WGS）完成的流感嗜血杆菌全基因组测序的论文。标志着基因组时代的真正开始。 3.分子生物学数据库特点： 1）数据库数量众多 2）数据库种类繁杂 3）数据量巨大且不断增长 4）数据间关系复杂：相同对象间的关联关系，不同对象间的关联关系 5）数据存在冗余与偏差：指数据库中保存了同一数据的多个备份 6）版本不断更新 7）提供开源的Web服务 4.序列数据库储存格式 (基本格式：FASTA) Fasta格式又称为Pearson格式，是一种基于文本形式表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。 FASTA格式的序列由两部分组成，第一行是由大于号“”或分号“；”打头的任意文字说明（习惯常用“”作为起始），用于序列标记，给出序列的描述和注释信息等，没有长度限制。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。文件每行的字母一般不应超过80个字符（通常60个字符）。这类格式的文件扩展名规定为“.fasta”或“.fas”。核酸序列数据库（GenBank、EMBL和DDBJ）核酸序列数据库：基因组DNA序列、mRNA序列、tRNA序列和rRNA序列等。 1.GenBank是由美国国立卫生研究院（National Institutes of Health, NIH）下属的美国国家生物技术信息中心（National Center for Biotechnology Informatio