Skip to content

Latest commit

 

History

History

README.md

💊 Patents Bioactivity

Сбор данных о связывании лигандов с белками из патентов

Описание задачи

Качество моделей машинного обучения для разработки лекарств сильно зависит от экспериментальных данных о связывании лигандов с белками, которые измеряются такими метриками как IC₅₀, Kᵢ или EC₅₀.

Проблема

Миллионы анализов молекулярного связывания остаются погребенными в патентах и поэтому недоступны для AI-моделей, обученных на публичных базах данных, таких как ChEMBL и BindingDB.

Цель

Построить Proof of Concept набор данных из 1-10k записей, аналогичный Reaxys или GOSTAR, из патентной литературы с использованием агентов.

Архитектура AI-агентов

Агент идентификации патентов

  • Определение релевантных патентов в области биомедицины
  • Фильтрация по кодам IPC/CPC (A61K, A61P и т.д.)
  • Поиск в SureChEMBL и других патентных базах

Агент извлечения данных

  • Чтение содержимого патента (текст + изображения)
  • Поиск данных биологической активности
  • Извлечение метрик связывания (IC₅₀, Kd, EC₅₀)
  • Обработка химических диаграмм в виде изображений

Агент контроля качества

  • Проверка извлеченных данных
  • Сравнение с известными записями в BindingDB
  • Оценка достоверности найденной информации
  • Фильтрация записей с высокой уверенностью

Целевой формат данных

Поле Описание Пример
Molecules Молекулы в формате SMILES CCO
Protein sequence Последовательность белка + код Uniprot P12345
Binding affinity IC₅₀, Kᵢ или EC₅₀ 10 nM
Patent ID ID патента + фрагмент текста US12345678

Источники данных

  • SureChEMBL - извлечение химических структур из патентов
  • USPTO, WIPO - патентные базы данных
  • BindingDB, ChEMBL - валидация данных
  • PubChem - химическая информация

Проекты команд


Цель трека: Создать команду AI-агентов, которая сделает скрытые в патентах данные биологической активности доступными для научного сообщества и разработки лекарств.