🎯 Цель задания — разработать воспроизводимый конвейер обработки данных для построения модели количественной связи "структура-активность" (QSAR) с использованием открытых данных ChEMBL. Задача включает автоматизацию процесса от загрузки сырых данных до создания датасета, пригодного для машинного обучения.
Задание охватывает этапы, начиная с загрузки и предобработки данных, фильтрации, вычисления молекулярных дескрипторов, до снижения размерности и визуализации. Полученный датасет будет использован вами в 3 минитаске.
- Загрузка данных через ChEMBL API для рецептора CHEMBL206 с типом активности Ki и единицей измерения nM.
- Фильтрация по типу активности и единице измерения.
-
Преобразование значений Ki в pKi с использованием формулы:
pKi = -log10(Ki)
(для дальнейшего удобства записывайте эти значения в столбец pValue)
-
Удаление строк с пропущенными значениями.
- Генерация 1024-битных отпечатков Моргана с радиусом 2 для SMILES-строк.
- Удаление константных признаков с использованием порога дисперсии <0.01.
- Применение Principal Component Analysis (PCA) для снижения размерности и определения оптимального числа компонент, объясняющих ≥95% дисперсии.
- Стандартизация данных перед применением PCA.
- Объединение молекулярных структур (SMILES), значений pValue и PCA-компонент.
- Визуализация процесса снижения размерности.
Для выполнения задания необходимо установить следующие библиотеки:
pip install rdkit-pypi
pip install pandas numpy matplotlib seaborn scikit-learn requestsJupyter Notebook (.ipynb) с кодом и пояснениями Файл final_dataset.csv - финальный датасет с признаками:
- molecule_chembl_id: ID молекулы
- smiles: SMILES-представление
- pValue: Значение активности (pKi)
- pca_1, pca_2, ...: PCA-компоненты