Как зарождаются предпочтения в языковых моделях
ToDo: дополнить
- Построить механизм оценки предподчтений модели
- Проверить, возможно ли при помощи целенаправленного дообучения получить модели, проявляющие собственные предпочтения и склонности
- Проанализировать направленность этих предпочтений при различных траекториях дообучения
- Исследовать разброс возможных состояний модели при разных обучающих траекториях
- Оценить риски и потенциал применения моделей с персональными предпочтениями в реальных системах, понять этические ограничения.
- Базовый бенчмарк: есть ли предпочтения у моделей и консистентны ли они в своем выборе
- Индукция предпочтений и анализ устойчивость эффекта
- Явные и неявные подсказки в контексте; проверка, к чему ещё ведёт индукция (побочные сдвиги в несвязанных доменах).
- Перенос/утечка предпочтений через рассуждения и синтетику
- Кейс "сов": дообучение на траекториях без маркера и даже на числовых последовательностях; попытка воспроизведения и границ применимости.
- Самозарождение во взаимодействии (без явной инструкции)
- Цикл дообучения на собственных траекториях; отличие от обычного RLHF; реалистичная оценка трудности и вероятности "слабого сигнала".
Результаты экспериментов лежат в папке ./experiments/:
- Generative Agents: Interactive Simulacra of Human Behavior
- Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data
- It's Owl in the Numbers: Token Entanglement in Subliminal Learning
- Adaptive Decoding via Latent Preference Optimization
- Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment
- DEBATE: A Large-Scale Benchmark for Evaluating Opinion Dynamics in Role-Playing LLM Agents
- PersonalLLM: Tailoring LLMs to Individual Preferences
- Agentic Misalignment: How LLMs could be insider threats
- Alignment and Safety in Large Language Models: Safety Mechanisms, Training Paradigms, and Emerging Challenges