| Название исследуемой задачи | Optimal Control of Feedback Loops in Continual Learning |
| Тип научной работы | ВКР |
| Автор | Веприков Андрей Сергеевич |
| Научный руководитель | кандидат ф.-м. наук, Хританков Антон Сергеевич |
В работе рассматривается задача оптимального управления в системах машинного обучения со скрытой петлей обратной связи, когда предсказания модели на предыдущих шагах меняют обучающую выборку на текущем шаге. В систему вводится управление на алгоритм обучения, а задача формулируется как максимизация суммарной награды при условии сохранения петли и невырождения системы. Постановка строится как расширение PoMDP с разделением оператора эволюции на алгоритм обучения и реакцию среды и отдельным условием допустимости управления.
Постановка применяется к двум сюжетам. В задаче прогнозирования цен на жилье показано, что наивная жадная стратегия максимизирует локальную метрику и одновременно ведет систему к деградации, и предложено условие на сохранение наблюдаемой выборки, восстанавливающее работоспособный режим. Метод Generative Replay в задаче непрерывного обучения сведен к той же постановке через управление как долю новых данных в обучающей выборке. Доказаны достаточные условия допустимости через липшицевость потерь и устойчивость алгоритма обучения, верхняя оценка средней ошибки для произвольного расписания, обратная задача восстановления управления по целевым весам задач, спектральная оценка ошибки в квадратичном приближении без предположения о коммутативности гессианов, разложение средней ошибки на смещение и дисперсию и условия сходимости в среднем квадратичном, эквивалентные классическим условиям Роббинса-Монро.
Теоретические результаты проверяются экспериментально на синтетических задачах и на реальном датасете медицинских изображений NIH ChestX-Ray.
- A python code with all implementation: https://gitlab.com/repeated_ml/dynamic-systems-model