用Trimmomatic对转录组测序数据进行过滤 联系客服

发布时间 : 星期一 文章用Trimmomatic对转录组测序数据进行过滤更新完毕开始阅读89862f807fd5360cbb1adb1c

Trimmomatic使用JAVA运行,支持多线程,数据处理速度非常快,非常适合转录组数据的过滤。由于该软件得到的数据中reads的长度不一,剔除的数据量比较大,不适于基因组的Deno vo数据的过滤。

$ unzip software/Trimmomatic-0.33.zip -d biosoft/ 解压缩安装

$ ls biosoft/Trimmomatic-0.33/adapters/ 查看安装好的文件

可以看到软件的数据库中已经有了接头序列,其中TruSeq3-PE.fa与TruSeq3-SE.fa为illumina hiseq和miseq的接头,如果不是使用hiseq2000的,到illumina官网下载接头序列并放到这个文件夹中。TruSeq2对应着illumina GAII测序

$ cd train/02.sequencing_data_quality_control/ 进入目录

$ mkdir Trimmomatic 新建文件夹

$ cd ~/biosoft/Trimmomatic-0.33/ 进入安装的文件夹

$ java -jar trimmomatic-0.33.jar

调试程序

下面对单端测序转录组数据进行过滤

$ java -jar ~/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar SE -threads 4 -phred33 ~/train/00.incipient_data/data_for_gene_prediction_and_RNA-seq/000_rep1.fastq 000rep1.fastq

ILLUMINACLIP:/home/tempuser/biosoft/Trimmomatic-0.33/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

参数:

单端测序数据SE 线程数4 phred33格式 输入 输出

接头序列:允许最大的mismatch数,回文匹配碱基数阈值,简单匹配碱基数阈值 LEADING头部去掉质量低于3的 TRAILING尾部去掉质量低于3的

每4个减基是一个阅读框,假如4个平均质量低于15,就删掉

36是reads最小长度,短于这个就不要

运行好了,会显示过滤了多少

下面对双端测序转录组数据进行过滤

$ java -jar ~/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar PE -threads 4 -phred33 ~/train/00.incipient_data/data_for_genome_assembling/fragment.1.fastq ~/train/00.incipient_data/data_for_genome_assembling/fragment.2.fastq fragment.1.fastq fragment.1.fastq.unpaired fragment.2.fastq fragment.2.fastq.unpaired ILLUMINACLIP:/home/tempuser/biosoft/Trimmomatic-0.33/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

双端是PE,其他参数一样,输入为两个序列,输出还多了一个没配对的数据

运行完成

$ ll -h

查看生成的结果,

使用下面命令可以批量对几十上百个转录组进行过滤,反字符//用于删除,i用于循环,变量使用$,真正斜线用反斜线表示:

$ for i in `ls ~/00.incipient_data/data_for_gene_prediction_and_RNA-seq/*.fastq` > do

> x=${i/*\\//}

> echo java -jar /opt/biosoft/Trimmomatic-0.33/trimmomatic-0.33.jar SE -threads 4 -phred33 $i $x ILLUMINACLIP:/opt/biosoft/Trimmomatic-0.33/adapters/TruSeq3-SE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 > done > command.trimmomatic.list

$ sh command.trimmomatic.list 批量运行

也可以这样运行

$ chmod 755 command.trimmomatic.list $ ./command.trimmomatic.list