💊 Patents Bioactivity

Сбор данных о связывании лигандов с белками из патентов

Описание задачи

Качество моделей машинного обучения для разработки лекарств сильно зависит от экспериментальных данных о связывании лигандов с белками, которые измеряются такими метриками как IC₅₀, Kᵢ или EC₅₀.

Проблема

Миллионы анализов молекулярного связывания остаются погребенными в патентах и поэтому недоступны для AI-моделей, обученных на публичных базах данных, таких как ChEMBL и BindingDB.

Цель

Построить Proof of Concept набор данных из 1-10k записей, аналогичный Reaxys или GOSTAR, из патентной литературы с использованием агентов.

Архитектура AI-агентов

Агент идентификации патентов

Определение релевантных патентов в области биомедицины
Фильтрация по кодам IPC/CPC (A61K, A61P и т.д.)
Поиск в SureChEMBL и других патентных базах

Агент извлечения данных

Чтение содержимого патента (текст + изображения)
Поиск данных биологической активности
Извлечение метрик связывания (IC₅₀, Kd, EC₅₀)
Обработка химических диаграмм в виде изображений

Агент контроля качества

Проверка извлеченных данных
Сравнение с известными записями в BindingDB
Оценка достоверности найденной информации
Фильтрация записей с высокой уверенностью

Целевой формат данных

Поле	Описание	Пример
Molecules	Молекулы в формате SMILES	`CCO`
Protein sequence	Последовательность белка + код Uniprot	`P12345`
Binding affinity	IC₅₀, Kᵢ или EC₅₀	`10 nM`
Patent ID	ID патента + фрагмент текста	`US12345678`

Источники данных

SureChEMBL - извлечение химических структур из патентов
USPTO, WIPO - патентные базы данных
BindingDB, ChEMBL - валидация данных
PubChem - химическая информация

Проекты команд

Цель трека: Создать команду AI-агентов, которая сделает скрытые в патентах данные биологической активности доступными для научного сообщества и разработки лекарств.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

💊 Patents Bioactivity

Описание задачи

Проблема

Цель

Архитектура AI-агентов

Агент идентификации патентов

Агент извлечения данных

Агент контроля качества

Целевой формат данных

Источники данных

Проекты команд

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

💊 Patents Bioactivity

Описание задачи

Проблема

Цель

Архитектура AI-агентов

Агент идентификации патентов

Агент извлечения данных

Агент контроля качества

Целевой формат данных

Источники данных

Проекты команд