发布时间 : 星期一 文章用Trimmomatic对转录组测序数据进行过滤更新完毕开始阅读89862f807fd5360cbb1adb1c
Trimmomatic使用JAVA运行,支持多线程,数据处理速度非常快,非常适合转录组数据的过滤。由于该软件得到的数据中reads的长度不一,剔除的数据量比较大,不适于基因组的Deno vo数据的过滤。
$ unzip software/Trimmomatic-0.33.zip -d biosoft/ 解压缩安装
$ ls biosoft/Trimmomatic-0.33/adapters/ 查看安装好的文件
可以看到软件的数据库中已经有了接头序列,其中TruSeq3-PE.fa与TruSeq3-SE.fa为illumina hiseq和miseq的接头,如果不是使用hiseq2000的,到illumina官网下载接头序列并放到这个文件夹中。TruSeq2对应着illumina GAII测序
$ cd train/02.sequencing_data_quality_control/ 进入目录
$ mkdir Trimmomatic 新建文件夹
$ cd ~/biosoft/Trimmomatic-0.33/ 进入安装的文件夹
$ java -jar trimmomatic-0.33.jar
调试程序
下面对单端测序转录组数据进行过滤
$ java -jar ~/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar SE -threads 4 -phred33 ~/train/00.incipient_data/data_for_gene_prediction_and_RNA-seq/000_rep1.fastq 000rep1.fastq
ILLUMINACLIP:/home/tempuser/biosoft/Trimmomatic-0.33/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
参数:
单端测序数据SE 线程数4 phred33格式 输入 输出
接头序列:允许最大的mismatch数,回文匹配碱基数阈值,简单匹配碱基数阈值 LEADING头部去掉质量低于3的 TRAILING尾部去掉质量低于3的
每4个减基是一个阅读框,假如4个平均质量低于15,就删掉
36是reads最小长度,短于这个就不要
运行好了,会显示过滤了多少
下面对双端测序转录组数据进行过滤
$ java -jar ~/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar PE -threads 4 -phred33 ~/train/00.incipient_data/data_for_genome_assembling/fragment.1.fastq ~/train/00.incipient_data/data_for_genome_assembling/fragment.2.fastq fragment.1.fastq fragment.1.fastq.unpaired fragment.2.fastq fragment.2.fastq.unpaired ILLUMINACLIP:/home/tempuser/biosoft/Trimmomatic-0.33/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
双端是PE,其他参数一样,输入为两个序列,输出还多了一个没配对的数据
运行完成
$ ll -h
查看生成的结果,
使用下面命令可以批量对几十上百个转录组进行过滤,反字符//用于删除,i用于循环,变量使用$,真正斜线用反斜线表示:
$ for i in `ls ~/00.incipient_data/data_for_gene_prediction_and_RNA-seq/*.fastq` > do
> x=${i/*\\//}
> echo java -jar /opt/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar SE -threads 4 -phred33 $i $x ILLUMINACLIP:/opt/biosoft/Trimmomatic-0.33/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 > done > command.trimmomatic.list
$ sh command.trimmomatic.list 批量运行
也可以这样运行
$ chmod 755 command.trimmomatic.list $ ./command.trimmomatic.list