Process NGS data in QIIME.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Process NGS data in QIIME

二代测序数据在QIIME中的 处理 ——以Illumina Miseq平台为例 时玉 2017-3-31 QIIME (Quantitative Insights Into Microbial Ecology) ,音同”Chime”,是一个用于比较和分析微生物群落的开源软件,其开发者是美国科罗拉多大学的Rob Knight等人。QIIME能够处理的标准数据是各种测序平台上扩增子的高通量测序结果。至今为止,QIIME已经被2229篇文献引用。 QIIME是什么 提纲(based on QIIME 1.8.0) 1、安装QIIME 2、认识Illumina Miseq数据 3、Miseq原始数据的处理 4、下游分析 QIIME for windows 1、下载Windows版本的Virtual Box 3、打开Virtual Box,新建一个虚拟设备 4、进入Ubuntu系统后,看见集成了QIIME的系统界面 2、至QIIME网站上下载”64-bit QIIME Virtual Box” (/install/virtual_box.html),解压该文件 QIIME for windows 5、打开Before_you_start文件夹,按文件顺序依次阅读并安装必要软件 6、设置Shared_Folder 认识Miseq数据 Phred Quality Score Probability of incorrect base call Base call accuracy 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10,000 99.99% 50 1 in 100,000 99.999% 60 1 in 1,000,000 99.9999% read ID read 序列 省略的read ID Phred score+33 拼接reads Miseq原始数据的处理 join_paired_ends.py -f forward_reads.fastq -r reverse_reads.fastq –j 10 –p 10 -o fastq-join_joined 将双向测序的reads通过overlap区域进行识别并组装成一条完整的序列,将生成拼接完毕的fastq文件,用于后续分析。 -j:指定最小的overlap长度 -p:指定overlap区域里正反reads不一致碱基所占比例的阈值 Miseq原始数据的处理 extract_barcodes.py -f inseqs.fastq -c barcode_single_end --bc1_len 7 -o processed_seqs 将序列文件中的barcode信息提取出来,生成一个fastq格式的barcode文件和去除了barcode的序列文件。 -c:barcode的布置方式 --bc1_len :指定barcode长度 提取barcode Miseq原始数据的处理 map文件是txt格式的文本,提供了barcode、引物、样品编号、处理等信息,在后续的分析中将被频繁调用,是非常重要的标记文件。 validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output 在QIIME中验证map文件的格式。将会生成一个html格式的文件,若格式并非完全正确,则打开该文件后将看到部分单元格呈黄色或红色,分别表示警告信息和错误信息。警告信息可以忽略,但须谨慎;错误信息必须改正,否则map文件不能被正确读取。 制作及验证map文件 Miseq原始数据的处理 split_libraries_fastq.py -i reads.fastq -b barcodes.fastq -m Map.txt -q19 -o split_libraries_fastq/ 依据barcode文件将每一条序列归类到不同的样品中去,生成的文件是一个归类完毕的fasta格式序列文件,其中所有序列都有唯一编号和所属样品。 -m:map文件 -q:指定碱基质量分数阈值 割库 下游分析 pick_otus.py -i seqs.fna -r refseqs.fasta -m uclust_ref -s 0.97 -o uclust_picked_otus 使用某种算法对序列进行聚类。生成的文件seqs_otus.txt,是一个otu ID和序列ID对应关系的map文件。 -r:指定参比的序列文件 -m:指定pick otu的方法(uclust, blast, usearch, mothur…) -s:指定一个otu内序列相似性的阈值 OTU聚类 下游分析 每个otu

文档评论(0)

有一二三 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档