【4.2】Reads map到基因组--Fastv
https://github.com/OpenGene/fastv
fastv是用于从测序数据中识别微生物基因组的超快速工具。 它从FASTQ数据中检测微生物序列,生成JSON报告,并在HTML报告中可视化结果。 该工具支持短读(Illumina,BGI等)和长读(ONT,PacBio等)。
一、软件介绍
二、安装
2.1 方式一(我选的这种):
cd /data/user/sam/project/meta/lib
wget http://opengene.org/fastv/fastv
chmod a+x ./fastv
2.2 方式二(需要编译)
git clone https://github.com/OpenGene/fastv.git
cd fastv
make
make install
三、用法说明
具体见:https://github.com/OpenGene/fastv
四、我的案例
4.1 计算基因组被reads map的coverage和depth
time /data/user/sam/project/meta/lib/fastv -i 22_1.fastq -I 22_2.fastq -r final_assembly.fasta -w 60 -h result.html -j result.json
这个运算还是比较快的,20G的数据,比对到2M基因组,15个线程,差不多20分钟。生成的结果也比较易懂,html用于可视化,json结果文件用于进一步的数据分析。
说明:
- w : 并行数
- r : 参考基因组,fasta 文件
- i : reads1输入文件
- I : reads2输入文件
- h : html结果文件
- j : json结果文件
我输入的基因组因为包含多个contigs,所以最后汇总每个contig的结果,求出该基因组的 coverage和depth。 其中 size是 contig的碱基个数;bin_size为将序列平分成多少份,coverage为每一个bin的depth;coverage_rate为该序列,有多少比例的碱基被reads map上。
参考资料
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn