mkdir hw_1
cd hw_1
ln -s /usr/share/data-minor-bioinf/assembly/oil_R1.fastq
ln -s /usr/share/data-minor-bioinf/assembly/oil_R2.fastq
ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R1_001.fastq
ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R2_001.fastq
seqtk sample -s2129 oil_R1.fastq 5000000 > oil_R1_sub.fastq
seqtk sample -s2129 oil_R2.fastq 5000000 > oil_R2_sub.fastq
seqtk sample -s2129 oilMP_S4_L001_R1_001.fastq 1500000 > oilMP_R1_sub.fastq
seqtk sample -s2129 oilMP_S4_L001_R2_001.fastq 1500000 > oilMP_R2_sub.fastq
rm oil_R1.fastq oil_R2.fastq oilMP_S4_L001_R1_001.fastq oilMP_R1_sub.fastq
fastqc oil_R1_sub.fastq oil_R2_sub.fastq oilMP_R1_sub.fastq oilMP_R2_sub.fastq
multiqc . -n multi_report
platanus_trim oil_R1_sub.fastq oil_R2_sub.fastq
platanus_internal_trim oilMP_R1_sub.fastq oilMP_R2_sub.fastq
rm oilMP_R1_sub_fastqc.html oilMP_R1_sub_fastqc.zip oilMP_R2_sub_fastqc.html oilMP_R2_sub_fastqc.zip oil_R1_sub_fastqc.html oil_R1_sub_fastqc.zip oil_R2_sub_fastqc.html oil_R2_sub_fastqc.zip
fastqc oilMP_R1_sub.fastq.int_trimmed oilMP_R2_sub.fastq.int_trimmed oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed
multiqc . -n trimmed_report
rm oilMP_R1_sub.fastq.int_trimmed_fastqc.html oilMP_R1_sub.fastq.int_trimmed_fastqc.zip oilMP_R2_sub.fastq.int_trimmed_fastqc.html oilMP_R2_sub.fastq.int_trimmed_fastqc.zip oil_R1_sub.fastq.trimmed_fastqc.html oil_R1_sub.fastq.trimmed_fastqc.zip oil_R2_sub.fastq.trimmed_fastqc.html oil_R2_sub.fastq.trimmed_fastqc.zip
platanus assemble -f oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed -t 1
Собираем скаффолды (-c файл контигов, -IP1 - файлы paired-end -OP1 - mate-pair. Используем IP и OP, тк парные чтения в 2 файлах, а не одном)
platanus scaffold -c out_contig.fa -IP1 oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed -OP1 oilMP_R1_sub.fastq.int_trimmed oilMP_R2_sub.fastq.int_trimmed -t 1
platanus gap_close -c out_scaffold.fa -IP1 oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed -OP1 oilMP_R1_sub.fastq.int_trimmed oilMP_R2_sub.fastq.int_trimmed -t 1
https://colab.research.google.com/drive/1gNpf0cm5MO6IN8vty6psg-2b1i4p46JW#scrollTo=tTUNe0kkvBzY
rm *
У получившейся сборки качество в разы хуже:
Количества скаффолдов и контигов у нее выше при схожих суммарных длинах, что значит, что сами скаффолды и контиги в разы короче. Макс. длина 166466 против 383574. Также видно, что стало больше гэпов: 52 вместо 2, а их суммарная длина равна 1281, что примерно 0.1 % от генома, что достаточно много. Также N50 у "маленбкой" сборки в 900 раз меньше, чем суммарная длина скафолдов, а у нормальной - в 22. Те качество разительно отличается