Сбор данных о связывании лигандов с белками из патентов
Качество моделей машинного обучения для разработки лекарств сильно зависит от экспериментальных данных о связывании лигандов с белками, которые измеряются такими метриками как IC₅₀, Kᵢ или EC₅₀.
Миллионы анализов молекулярного связывания остаются погребенными в патентах и поэтому недоступны для AI-моделей, обученных на публичных базах данных, таких как ChEMBL и BindingDB.
Построить Proof of Concept набор данных из 1-10k записей, аналогичный Reaxys или GOSTAR, из патентной литературы с использованием агентов.
- Определение релевантных патентов в области биомедицины
- Фильтрация по кодам IPC/CPC (A61K, A61P и т.д.)
- Поиск в SureChEMBL и других патентных базах
- Чтение содержимого патента (текст + изображения)
- Поиск данных биологической активности
- Извлечение метрик связывания (IC₅₀, Kd, EC₅₀)
- Обработка химических диаграмм в виде изображений
- Проверка извлеченных данных
- Сравнение с известными записями в BindingDB
- Оценка достоверности найденной информации
- Фильтрация записей с высокой уверенностью
| Поле | Описание | Пример |
|---|---|---|
| Molecules | Молекулы в формате SMILES | CCO |
| Protein sequence | Последовательность белка + код Uniprot | P12345 |
| Binding affinity | IC₅₀, Kᵢ или EC₅₀ | 10 nM |
| Patent ID | ID патента + фрагмент текста | US12345678 |
- SureChEMBL - извлечение химических структур из патентов
- USPTO, WIPO - патентные базы данных
- BindingDB, ChEMBL - валидация данных
- PubChem - химическая информация
Цель трека: Создать команду AI-агентов, которая сделает скрытые в патентах данные биологической активности доступными для научного сообщества и разработки лекарств.