细菌基因组分析

一个细菌基因组完整分析流程

Posted by CHY on August 10, 2020

基于基因学苑公众号的推送内容,将生信相关内容收集整理,便于后续查阅,仅做个人使用。

细菌分析流程图

数据质控

利用 fastqc 软件对原始测序 reads 进行指控.

mkdir result
fastqc -f fastq -o result 130801_I249_FCC2BDTACXX_L4_SZAIPI030696-112_1.fq.gz 130801_I249_FCC2BDTACXX_L4_SZAIPI030696-112_2.fq.gz

数据过滤

利用 fastp 软件对原始测序数据进行过滤,去取低质量,adapter,N 碱基以及 Duplication 等,得到 cleandata。

#利用fastp进行数据过滤
fastp -i 130801_I249_FCC2BDTACXX_L4_SZAIPI030696-112_1.fq.gz -I 130801_I249_FCC2BDTACXX_L4_SZAIPI030696-112_2.fq.gz -o clean.1.fq.gz  -O clean.2.fq.gz  -z 4 -q 20 -u 30 -n 10 -h clean.html

序列拼接

#SOAPdenovo
mkdir kmer35
SOAPdenovo-63mer all -s lib.list -K 35 -o kmer35/kmer35 -D 1 -d 1 -u 2 -p 2>kmer35.log
#SPAdes
python /ifs1/Software/biosoft/SPAdes-3.12.0-Linux/bin/spades.py -o illumina_result -1 clean.1.fq.gz  -2 clean.2.fq.gz -t 2

序列补洞

#补洞
GapCloser -a kmer35.scafSeq -b lib.list -o kmer35.fill.fa -l 100 -p 25 -t 1

拼接结果统计

首先看拼接出来的基因组大小是否与真实基因组大小接近,然后在看拼接条数,最大长度,最小长度,N50 等指标。

#拼接结果统计
fa_stat kmer35.fill.fa
#将最终拼接好的样品修改名字为样品名
mv kmer35.fill.fa sample1.fna

基因预测

原核生物基因预测比较容易,可以利用自身基因组序列作为训练集,直接将拼接得到的基因组序列 sample1.fna 输入给 prodigal 软件,即可得到基因的核酸序列以及基因的氨基酸序列等.

#原核生物基因预测
prodigal -a sample1.pep -d sample1.cds -f gff -g 11  -o sample1.gff -p single -s sample1.stat -i sample1.fna >prodigal.log

基因功能注释

利用 prodigal 软件得到的基因的氨基酸序列 sanple.pep 文件与各种蛋白数据库进行比对即可得到基因功能注释信息,如果数据库还包括聚类以及富集信息,同理,可以注释得到相应的内容。利用 eggnog-mapper 软件一次可以完成多个功能数据库的注释。

mapper.py -i test/polb.fa --output polb_bact -d bact --data_dir /ifs1/Software/biosoft/eggnog-mapper-1.0.3/data/

核糖体 RNA 预测

将拼接得到的基因组 sample1.fna 直接输入给软件 rnammer,几秒钟之后即可得到细菌的核糖体结果,包括 5S,16S,23S 等。其中 16S 可以用于构建系统发育树。

rnammer -S bac -m tsu,lsu,ssu  -gff sample1.gff -f sample1.frn sample1.fna

转运 RNA 预测

将拼接得到的基因组 sample1.fna 直接输入给软件 rRNAscan,几秒钟之后即可得到细菌的装运 RNA 结果,包括转运 RNA 的二级结构等。

tRNAscan-SE  -B  -o tRNAScan.out -f tRNAScan.out.structure -m stat.list sample1.fna

重复序列分析

将拼接得到的基因组 sample1.fna 直接输入给软件 RepeatMasker,几分钟之后即可得到细菌的重复序列结果。

mkdir repeat
RepeatMasker -pa 2 -q -species tuber -html -gff -dir repeat sample1.fna

串联重复序列分析

将拼接得到的基因组 sample1.fna 直接输入给软件 trf,几秒之后即可得到细菌的串联重复序列结果,也就是 vntr 区域,vntr 可以用于多样品的 MLST 分析,也可以用于 CNV 比较。

trf sample1.fna 2 7 7 80 10 50 500 -f -d -m

更多分析内容

#在线分析
基因预测:http://prodigal.ornl.gov/
http://ccb.jhu.edu/software/glimmer/index.shtml
RNAmer  http://www.cbs.dtu.dk/services/RNAmmer/
tRNAscan http://lowelab.ucsc.edu/tRNAscan-SE/
Go功能富集DAVID:http://david.abcc.ncifcrf.gov/
功能注释RAST:http://rast.nmpdr.org/
trf预测:http://tandem.bu.edu/trf/trf407b.linux.download.html
CPG岛预测:
http://www.ebi.ac.uk/Tools/emboss/cpgplot/index.html
http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/
TADB:http://bioinfo-mml.sjtu.edu.cn/TADB/
必须基因注释:http://tubic.tju.edu.cn/deg/
操纵子预测:
http://csbl.bmb.uga.edu/DOOR/index.php
http://operondb.cbcb.umd.edu/cgi-bin/operondb/operons.cgi
基因岛预测:http://www.islander.com/
IslandViewer:http://www.pathogenomics.sfu.ca/islandviewer/query.php
MobilomeFINDER:http://db-mml.sjtu.edu.cn/MobilomeFINDER/
CRISPR预测:http://crispr.u-psud.fr/Server/Advanced.CRISPRfinder.php
预测启动子:http://www-bimas.cit.nih.gov/molbio/proscan/
预测致病岛:https://www.gem.re.kr/paidb/about_paidb.php
预测分析转录终止信号
http://linux1.softberry.com/berry.phtml?topic=polyah&group=programs&subgroup=promoter
预测噬菌体:http://phaster.ca
预测信号肽:http://www.cbs.dtu.dk/services/SignalP/
Galaxy:https://usegalaxy.org/