Skip to content

yandexdataschool/YetAnotherMind

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

YetAnotherMind

Как зарождаются предпочтения в языковых моделях

Описание проекта

ToDo: дополнить

Основные цели

  • Построить механизм оценки предподчтений модели
  • Проверить, возможно ли при помощи целенаправленного дообучения получить модели, проявляющие собственные предпочтения и склонности
  • Проанализировать направленность этих предпочтений при различных траекториях дообучения
  • Исследовать разброс возможных состояний модели при разных обучающих траекториях
  • Оценить риски и потенциал применения моделей с персональными предпочтениями в реальных системах, понять этические ограничения.

План действий

  1. Базовый бенчмарк: есть ли предпочтения у моделей и консистентны ли они в своем выборе
  2. Индукция предпочтений и анализ устойчивость эффекта
    • Явные и неявные подсказки в контексте; проверка, к чему ещё ведёт индукция (побочные сдвиги в несвязанных доменах).
  3. Перенос/утечка предпочтений через рассуждения и синтетику
    • Кейс "сов": дообучение на траекториях без маркера и даже на числовых последовательностях; попытка воспроизведения и границ применимости.
  4. Самозарождение во взаимодействии (без явной инструкции)
    • Цикл дообучения на собственных траекториях; отличие от обычного RLHF; реалистичная оценка трудности и вероятности "слабого сигнала".

Текущие результаты

Результаты экспериментов лежат в папке ./experiments/:

Статьи для чтения

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published