3.1.2 mapping文件
一、输入文件的要求
1,文件需要有正确的文件后缀,例如:FASTA文件有.fna 或.fasta,质量得分文件.qual,sff文件的为.sff(文件类型:Structured Fax Format,扩展名为.sff的文件是一个图像文件),mapping文件的后最为.txt
2,文件名中不要有空格,例如:amazon soil.fna可以用amazon_soil.fna
3,用文本编辑TextEdit or TextMate (on Mac), gedit (on Linux), vim, or emacs而不是Microsoft Word来编辑文件(Microsoft Word是word processor)。Mapping 文件和OUT文件可以通过Microsoft Word来编辑,但是应该是tab为分隔符的文本。
二、mapping文件
1,split_libraries.py, beta_diversity_through_plots.py, alpha_rarefaction.py中需要使用Metadatamapping文件
2,mapping文件是使用者来编辑的,这个文件包含样品所有的可以用来分析的信息。一般来说,这个文件需要包含每个样品的名字,每个样品的barcode,linker/primer序列用来扩增样品,必须有#SampleID BarcodeSequence LinkerPrimerSequence Description这几列。
我的是(每一列以Tab键隔开)
#SampleID BarcodeSequence LinkerPrimerSequence Group Description
1 CTACCGATTGCG GGACTACHVGGGTWTCTAAT SH-C SH-C-1
2 TTCACCCAAGGTA GGACTACHVGGGTWTCTAAT SH-C SH-C-2
3 TCAGCCAGTCATAC GGACTACHVGGGTWTCTAAT SH-0 SH-0-1
4 CTAAGCGAACCTGTT GGACTACHVGGGTWTCTAAT SH-0 SH-0-2
3,每个样品可以单独使用一个map.txt,或者所有的测序结果公用一个Map.txt。
4,每一列必须为字符a-z, A-Z and 1-9,或者“_”,开头必须为字母。字符$, *, ^在里面不容许出现。
5,第一列必须是#SampleID,为可区分的数字,字母或 。每一行的这个值应该是唯一的。
6,第二列必须为BarcodeSequence。split_libraries.py这个脚本可以为测序出来的序列重新编号,这个原理为:样品序列中包含跟map.txt中BarcodeSequence相同的序列,则样品的编号根据map.txt中的SampleID重新编号。每一行的这个值应该是唯一的。
7,第二列必须为LinkerPrimerSequence,为扩增样品的引物。
8,后面的列可以根据样品的特点加以描述,但是每一列必须包含至少两个值,如果没有的话,用NA代替,不要留空格。就是说要指定一些其他的分类什么的,就可以在这个位置设置了。
9,最后一列必须是Description。每一个样品不一样的地方,必须不一样额
10,开头的标题以#开头,后面就不要有空行,空格,或者#。
检查Map.txt
check_id_map.py -m map.txt -o check_id_output/ -p –b
检验出来的文件为 _corrected.txt。但是还是得看,有些重复的编号或者不应该存在的碱基编号等得手动检查出来。
参考资料
qiime输入文件:http://qiime.org/documentation/file_formats.html#metadata-mapping-files
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn