Skip to content

pyhovik/rag-pipeline

Repository files navigation

rag-pipeline

Проект-НИР по настройке RAG-пайпланов

Общий workflow

  1. Подготовка набора данных и нарезание на чанки. Преобразуем статьи, документы и проч. в формат, который потом можно будеть преобразовать в эмбеддинг.
  2. Подготовка набора эмбеддингов. С помощью embedding-модели преобразовать набор данных в эмбеддинги (преврать в вектор)
  3. Сохранить эмбеддинги в векторную БД (Qrant, PGvector и тд)
  4. Преобразовать запрос от пользователя (request) в эмбеддинг (embed-request).
  5. Получить из векторной БД документы (context), похожие на embed-request.
  6. Подать на вход LLM request и context, для получения ответа (response).

Как запускать

  1. Наполнить файл source_urls.txt ссылками на нужные статьи
  2. Запустить скрипт indexing_pipeline.py, который наполнит Qdrant эмбеддингами докуметов
  3. Запустить скрипт inference_pipeline.py, который является имплементацией чат-бота ИЛИ запустить чат-бота chat_bot.py

Как запустить модель из HuggingFace на Ollama

Документация Ollama

  1. Установка зависимостей:
pip install --upgrade huggingface_hub
  1. Скачивание нужной модели:
$ mkdir model_dir && cd model_dir/
$ huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local-dir .
  1. Создание Modelfile:
  • для Safetensors- модели: $ echo "FROM ." > Modelfile

  • для GGUF-модели: $ echo "FROM {model.name}.gguf" > Modelfile

  1. Создание модели и зупуск в ollama:
$ ollama create deepSeek-r1-distill-qwen-1.5B
$ ollama run deepSeek-r1-distill-qwen-1.5B:latest

About

Проект-НИР по настройке RAG-пайпланов

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages