Skip to content

pururus/bioinf_hw1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 

Repository files navigation

bioinf_hw1

создаем и переходим в папку для дз, чтобы не путаться

mkdir hw_1

cd hw_1

создаем символические ссылки

ln -s /usr/share/data-minor-bioinf/assembly/oil_R1.fastq

ln -s /usr/share/data-minor-bioinf/assembly/oil_R2.fastq

ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R1_001.fastq

ln -s /usr/share/data-minor-bioinf/assembly/oilMP_S4_L001_R2_001.fastq

случайно выбираем чтения. флаг -s обозначает сид(для воспроизводимости эксперимента)

seqtk sample -s2129 oil_R1.fastq 5000000 > oil_R1_sub.fastq

seqtk sample -s2129 oil_R2.fastq 5000000 > oil_R2_sub.fastq

seqtk sample -s2129 oilMP_S4_L001_R1_001.fastq 1500000 > oilMP_R1_sub.fastq

seqtk sample -s2129 oilMP_S4_L001_R2_001.fastq 1500000 > oilMP_R2_sub.fastq

Сразу удаляем символические ссылки, чтобы не мешали при просмотре через ls

rm oil_R1.fastq oil_R2.fastq oilMP_S4_L001_R1_001.fastq oilMP_R1_sub.fastq

Оцениваем качество чтений

fastqc oil_R1_sub.fastq oil_R2_sub.fastq oilMP_R1_sub.fastq oilMP_R2_sub.fastq

Собираем статистику в один файл(флаг -n для названия)

multiqc . -n multi_report

Подрезаем сначала paired-end, а затем mate-pairs чтения

platanus_trim oil_R1_sub.fastq oil_R2_sub.fastq

platanus_internal_trim oilMP_R1_sub.fastq oilMP_R2_sub.fastq

Удаляем лишнее

rm oilMP_R1_sub_fastqc.html oilMP_R1_sub_fastqc.zip oilMP_R2_sub_fastqc.html oilMP_R2_sub_fastqc.zip oil_R1_sub_fastqc.html oil_R1_sub_fastqc.zip oil_R2_sub_fastqc.html oil_R2_sub_fastqc.zip

Оцениваем качество подрезанных чтений

fastqc oilMP_R1_sub.fastq.int_trimmed oilMP_R2_sub.fastq.int_trimmed oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed

И опять статистика

multiqc . -n trimmed_report

Удаляем лишнее(Эти файлы не нудны, тк смотри на общую статистику

rm oilMP_R1_sub.fastq.int_trimmed_fastqc.html oilMP_R1_sub.fastq.int_trimmed_fastqc.zip oilMP_R2_sub.fastq.int_trimmed_fastqc.html oilMP_R2_sub.fastq.int_trimmed_fastqc.zip oil_R1_sub.fastq.trimmed_fastqc.html oil_R1_sub.fastq.trimmed_fastqc.zip oil_R2_sub.fastq.trimmed_fastqc.html oil_R2_sub.fastq.trimmed_fastqc.zip

Собираем контиги(-f показывает из каких файлов собирать, -t 1 - что один процессор)

platanus assemble -f oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed -t 1

Собираем скаффолды (-c файл контигов, -IP1 - файлы paired-end -OP1 - mate-pair. Используем IP и OP, тк парные чтения в 2 файлах, а не одном)

platanus scaffold -c out_contig.fa -IP1 oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed -OP1 oilMP_R1_sub.fastq.int_trimmed oilMP_R2_sub.fastq.int_trimmed -t 1

Закрываем Гэпы(флаги аналогичны)

platanus gap_close -c out_scaffold.fa -IP1 oil_R1_sub.fastq.trimmed oil_R2_sub.fastq.trimmed -OP1 oilMP_R1_sub.fastq.int_trimmed oilMP_R2_sub.fastq.int_trimmed -t 1

ссылка на колаб

https://colab.research.google.com/drive/1gNpf0cm5MO6IN8vty6psg-2b1i4p46JW#scrollTo=tTUNe0kkvBzY

чистим за собой

rm *

для доп части выполняем аналогичные комманды, однако берем 50000 и 15000(в 100 раз меньше) чтений

У получившейся сборки качество в разы хуже:

Количества скаффолдов и контигов у нее выше при схожих суммарных длинах, что значит, что сами скаффолды и контиги в разы короче. Макс. длина 166466 против 383574. Также видно, что стало больше гэпов: 52 вместо 2, а их суммарная длина равна 1281, что примерно 0.1 % от генома, что достаточно много. Также N50 у "маленбкой" сборки в 900 раз меньше, чем суммарная длина скафолдов, а у нормальной - в 22. Те качество разительно отличается

MultiQC report

Снимок экрана 2025-10-12 в 18 24 27 Снимок экрана 2025-10-12 в 18 25 22

MultiQC report для подрезанных

Снимок экрана 2025-10-12 в 18 35 33 Снимок экрана 2025-10-12 в 18 35 41

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors