- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Process NGS data in QIIME
二代测序数据在QIIME中的 处理
——以Illumina Miseq平台为例
时玉
2017-3-31
QIIME (Quantitative Insights Into Microbial Ecology) ,音同”Chime”,是一个用于比较和分析微生物群落的开源软件,其开发者是美国科罗拉多大学的Rob Knight等人。QIIME能够处理的标准数据是各种测序平台上扩增子的高通量测序结果。至今为止,QIIME已经被2229篇文献引用。
QIIME是什么
提纲(based on QIIME 1.8.0)
1、安装QIIME
2、认识Illumina Miseq数据
3、Miseq原始数据的处理
4、下游分析
QIIME for windows
1、下载Windows版本的Virtual Box
3、打开Virtual Box,新建一个虚拟设备
4、进入Ubuntu系统后,看见集成了QIIME的系统界面
2、至QIIME网站上下载”64-bit QIIME Virtual Box” (/install/virtual_box.html),解压该文件
QIIME for windows
5、打开Before_you_start文件夹,按文件顺序依次阅读并安装必要软件
6、设置Shared_Folder
认识Miseq数据
Phred Quality Score
Probability of incorrect base call
Base call accuracy
10
1 in 10
90%
20
1 in 100
99%
30
1 in 1000
99.9%
40
1 in 10,000
99.99%
50
1 in 100,000
99.999%
60
1 in 1,000,000
99.9999%
read ID
read 序列
省略的read ID
Phred score+33
拼接reads
Miseq原始数据的处理
join_paired_ends.py -f forward_reads.fastq -r reverse_reads.fastq –j 10 –p 10 -o fastq-join_joined
将双向测序的reads通过overlap区域进行识别并组装成一条完整的序列,将生成拼接完毕的fastq文件,用于后续分析。
-j:指定最小的overlap长度
-p:指定overlap区域里正反reads不一致碱基所占比例的阈值
Miseq原始数据的处理
extract_barcodes.py -f inseqs.fastq -c barcode_single_end --bc1_len 7 -o processed_seqs
将序列文件中的barcode信息提取出来,生成一个fastq格式的barcode文件和去除了barcode的序列文件。
-c:barcode的布置方式
--bc1_len :指定barcode长度
提取barcode
Miseq原始数据的处理
map文件是txt格式的文本,提供了barcode、引物、样品编号、处理等信息,在后续的分析中将被频繁调用,是非常重要的标记文件。
validate_mapping_file.py -m Fasting_Map.txt -o validate_mapping_file_output
在QIIME中验证map文件的格式。将会生成一个html格式的文件,若格式并非完全正确,则打开该文件后将看到部分单元格呈黄色或红色,分别表示警告信息和错误信息。警告信息可以忽略,但须谨慎;错误信息必须改正,否则map文件不能被正确读取。
制作及验证map文件
Miseq原始数据的处理
split_libraries_fastq.py -i reads.fastq -b barcodes.fastq -m Map.txt -q19 -o split_libraries_fastq/
依据barcode文件将每一条序列归类到不同的样品中去,生成的文件是一个归类完毕的fasta格式序列文件,其中所有序列都有唯一编号和所属样品。
-m:map文件
-q:指定碱基质量分数阈值
割库
下游分析
pick_otus.py -i seqs.fna -r refseqs.fasta -m uclust_ref -s 0.97 -o uclust_picked_otus
使用某种算法对序列进行聚类。生成的文件seqs_otus.txt,是一个otu ID和序列ID对应关系的map文件。
-r:指定参比的序列文件
-m:指定pick otu的方法(uclust, blast, usearch, mothur…)
-s:指定一个otu内序列相似性的阈值
OTU聚类
下游分析
每个otu
文档评论(0)