普通转录组脚本

普通转录组脚本更新

Posted by CHY on August 22, 2020

普通转录组分析流程脚本更新

Shell

# 质控
nohup fastqc -o /data2/chy/Rice/rawdata/dml4_3 DML4_C1_Clean_Data1.fq.gz DML4_C1_Clean_Data2.fq.gz &
# hisat2比对
# 安装
wget http://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-source.zip
unzip hisat2-2.0.0-beta-source.zip

# hisat2构建索引
# 需要Python2.7以上
extract_exons.py Homo_sapiens.GRCh38.83.chr.gtf > genome.exon
extract_splice_sites.py Homo_sapiens.GRCh38.83.chr.gtf > genome.ss
extract_snps.py snp142Common.txt > genome.snp
hisat2-build -p 4 genome.fa --snp genome.snp --ss genome.ss --exon genome.exon genome_snp_tran

# 比对
hisat2 -p 10 --dta -x ./human_genome/Homo_sapiens.GRCh38.dna.chromosome.1_tran -1 SRR5159863_1.fastq -2 SRR5159863_2.fastq -S ./data_sam/SRR5159863.sam
# sam转bam文件
samtools sort -@ 9 -o ./data_sam/SRR5159863.bam ./data_sam/SRR5159863.sam
# Stringtie组装定量
# 安装
wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-2.1.4.tar.gz
tar zxf stringtie-2.1.tar.gz
make release
# 运行(输入文件为sort后的bam文件)
stringtie -e -B -p 20 -G ./human_genome/Homo_sapiens.GRCh38.92.chr.gtf -o ./data_ballgown/mRNA_dta.gtf -A ./data_gene/mRNA_SRR5159863_abun.txt ./data_sam/SRR5159863.bam
主要参数:
-G 参考基因组注释文件
-o 输出文件名
-l 输出文件前缀
-p 线程数
-m 转录本最小长度
-B 输出可用于Ballgown分析的文件
-e 仅评估参考基因组注释文件中的转录本丰度

结果gtf文件:
seqname:该转录本所在的染色体号,contig或scaffold;
source:GTF文件来源;
feature:特征类型,例:外显子,转录本,mRNA和5’UTR;
start:起始位置;
end:终止位置;
score: 组装转录本的可信度打分;
strand:转录本所在的正负链信息;
frame:CDS特征,StringTie不使用该信息,所以其结果用”.”表示;
attributes:该特征的属性,包括基因id,转录本id,外显子个数,read coverage,FPKM和TPM等。
# featurecount定量
# featrueCounts已经整合到Subread软件中,可用于对基因、外显子、启动子等基因组特征进行read counts计数。
# 可在SourceForge Subread package或Bioconductor Rsubread package中获得(http://subread.sourceforge.net/)

## 安装(解压即用)
wget https://sourceforge.net/projects/subread/files/subread-2.0.1/
tar zxf subread-2.0.0-linux.tar.gz

# 输入文件为 比对生成的bam文件
featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam

主要参数:
-p 指定按照f ragments进行计数,双端测序时使用
-t 指定feature type类型,默认为exon
-a 参考基因组的注释文件
-o 输出文件
input_file1[input_file2]... 与参考基因组比对后的bam文件

featureCounts运行完成后主要生产2个文件:*.txt和*.txt.summary。*.txt.summary是对reads的统计结果.
结果文件共分为7列,分别为:
Geneid:基因ID;
Chr:基因的各个外显子所在的染色体号;
Start:基因的各个外显子起始位置;
End:基因的各个外显子终止位置;
Strand:基因各个外显子所在正负链信息;
Length:长度;
*.sort.bam:比对到该基因的read counts数;

一个生信素人的上道经验分享-转录组测序(基因定量篇)
一个生信素人的上道经验分享-转录组测序(组装篇)
一个生信素人的上道经验分享-转录组测序(比对篇)

转录组的上游分析视频以及代码资料
下游主要是基于 counts 矩阵的标准分析的代码