Skip to content

OlgaKoont/Datacon2025_MiniTask_2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 

Repository files navigation

Минитаск 2: Конвейер обработки данных для построения модели QSAR

Описание задачи

🎯 Цель задания — разработать воспроизводимый конвейер обработки данных для построения модели количественной связи "структура-активность" (QSAR) с использованием открытых данных ChEMBL. Задача включает автоматизацию процесса от загрузки сырых данных до создания датасета, пригодного для машинного обучения.

Задание охватывает этапы, начиная с загрузки и предобработки данных, фильтрации, вычисления молекулярных дескрипторов, до снижения размерности и визуализации. Полученный датасет будет использован вами в 3 минитаске.

Ключевые этапы решения задачи

1. Загрузка и предобработка данных

  • Загрузка данных через ChEMBL API для рецептора CHEMBL206 с типом активности Ki и единицей измерения nM.
  • Фильтрация по типу активности и единице измерения.

2. Преобразование значений

  • Преобразование значений Ki в pKi с использованием формулы:

    pKi = -log10(Ki)

    (для дальнейшего удобства записывайте эти значения в столбец pValue)

  • Удаление строк с пропущенными значениями.

3. Молекулярные дескрипторы и отпечатки Моргана

  • Генерация 1024-битных отпечатков Моргана с радиусом 2 для SMILES-строк.
  • Удаление константных признаков с использованием порога дисперсии <0.01.

4. Снижение размерности с PCA

  • Применение Principal Component Analysis (PCA) для снижения размерности и определения оптимального числа компонент, объясняющих ≥95% дисперсии.
  • Стандартизация данных перед применением PCA.

5. Формирование финального датасета

  • Объединение молекулярных структур (SMILES), значений pValue и PCA-компонент.
  • Визуализация процесса снижения размерности.

Необходимые библиотеки

Для выполнения задания необходимо установить следующие библиотеки:

pip install rdkit-pypi
pip install pandas numpy matplotlib seaborn scikit-learn requests

📝 Что сдать

Jupyter Notebook (.ipynb) с кодом и пояснениями Файл final_dataset.csv - финальный датасет с признаками:

  • molecule_chembl_id: ID молекулы
  • smiles: SMILES-представление
  • pValue: Значение активности (pKi)
  • pca_1, pca_2, ...: PCA-компоненты

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published