YetAnotherMind

Как зарождаются предпочтения в языковых моделях

Описание проекта

ToDo: дополнить

Построить механизм оценки предподчтений модели
Проверить, возможно ли при помощи целенаправленного дообучения получить модели, проявляющие собственные предпочтения и склонности
Проанализировать направленность этих предпочтений при различных траекториях дообучения
Исследовать разброс возможных состояний модели при разных обучающих траекториях
Оценить риски и потенциал применения моделей с персональными предпочтениями в реальных системах, понять этические ограничения.

Базовый бенчмарк: есть ли предпочтения у моделей и консистентны ли они в своем выборе
Индукция предпочтений и анализ устойчивость эффекта
- Явные и неявные подсказки в контексте; проверка, к чему ещё ведёт индукция (побочные сдвиги в несвязанных доменах).
Перенос/утечка предпочтений через рассуждения и синтетику
- Кейс "сов": дообучение на траекториях без маркера и даже на числовых последовательностях; попытка воспроизведения и границ применимости.
Самозарождение во взаимодействии (без явной инструкции)
- Цикл дообучения на собственных траекториях; отличие от обычного RLHF; реалистичная оценка трудности и вероятности "слабого сигнала".

Результаты экспериментов лежат в папке ./experiments/:

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.github/workflows		.github/workflows
experiments		experiments
images		images
README.md		README.md
_config.yml		_config.yml
index.md		index.md