Проект-НИР по настройке RAG-пайпланов
- Подготовка набора данных и нарезание на чанки. Преобразуем статьи, документы и проч. в формат, который потом можно будеть преобразовать в эмбеддинг.
- Подготовка набора эмбеддингов. С помощью embedding-модели преобразовать набор данных в эмбеддинги (преврать в вектор)
- Сохранить эмбеддинги в векторную БД (Qrant, PGvector и тд)
- Преобразовать запрос от пользователя (request) в эмбеддинг (embed-request).
- Получить из векторной БД документы (context), похожие на embed-request.
- Подать на вход LLM request и context, для получения ответа (response).
- Наполнить файл source_urls.txt ссылками на нужные статьи
- Запустить скрипт indexing_pipeline.py, который наполнит Qdrant эмбеддингами докуметов
- Запустить скрипт inference_pipeline.py, который является имплементацией чат-бота ИЛИ запустить чат-бота chat_bot.py
- Установка зависимостей:
pip install --upgrade huggingface_hub
- Скачивание нужной модели:
$ mkdir model_dir && cd model_dir/
$ huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir .
- Создание Modelfile:
-
для Safetensors- модели:
$ echo "FROM ." > Modelfile -
для GGUF-модели:
$ echo "FROM {model.name}.gguf" > Modelfile
- Создание модели и зупуск в ollama:
$ ollama create deepSeek-r1-distill-qwen-1.5B
$ ollama run deepSeek-r1-distill-qwen-1.5B:latest