OCR Microservice

Микросервис для извлечения текста из документов (PDF, DOCX, TXT, MD) с использованием OCR технологий.

Возможности

Извлечение текста из PDF файлов с помощью Tesseract OCR
Обработка DOCX документов
Поддержка текстовых файлов (TXT, MD)
REST API на FastAPI
Поддержка русского и английского языков

Развертывание на Heroku

Предварительные требования

Учетная запись Heroku
Heroku CLI установлен
Git репозиторий

Шаги развертывания

Создайте приложение на Heroku:
```
heroku create your-ocr-app-name
```

Добавьте buildpack для системных зависимостей:

heroku buildpacks:add --index 1 heroku/python
heroku buildpacks:add --index 2 https://github.com/heroku/heroku-buildpack-apt

Создайте файл Aptfile для системных зависимостей:

echo "tesseract-ocr" > Aptfile
echo "poppler-utils" >> Aptfile
echo "libgl1" >> Aptfile
echo "libmagic1" >> Aptfile

Установите переменные окружения:
```
heroku config:set TIMEWEB_API_KEY=your_api_key_here
```

Разверните приложение:

git add .
git commit -m "Deploy to Heroku"
git push heroku main

Проверьте статус:

heroku ps:scale web=1
heroku logs --tail

API Endpoints

GET / - Информация о сервисе
GET /ocr/health - Проверка здоровья сервиса
POST /ocr/process-file - Обработка файла

Использование API

# Проверка здоровья
curl https://your-app-name.herokuapp.com/ocr/health

# Обработка файла
curl -X POST "https://your-app-name.herokuapp.com/ocr/process-file" \
     -H "accept: application/json" \
     -H "Content-Type: multipart/form-data" \
     -F "[email protected]"

Локальная разработка

Установите зависимости:
```
pip install -r requirements.txt
```
Установите системные зависимости (Ubuntu/Debian):
```
sudo apt-get install tesseract-ocr poppler-utils libgl1 libmagic1
```
Запустите сервис:
```
python main.py
```

Переменные окружения

TIMEWEB_API_KEY - API ключ для Timeweb (опционально)
PORT - Порт для запуска (автоматически устанавливается Heroku)

Ограничения

Максимальный размер файла: 50MB
Поддерживаемые форматы: PDF, DOCX, TXT, MD
Таймаут обработки: 30 секунд (настраивается в Heroku)

Мониторинг

Для мониторинга производительности используйте:

heroku logs --tail
heroku ps

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
Aptfile		Aptfile
Dockerfile		Dockerfile
Procfile		Procfile
README.md		README.md
env.example		env.example
main.py		main.py
ocr_service.py		ocr_service.py
requirements.txt		requirements.txt
runtime.txt		runtime.txt
schemas.py		schemas.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

OCR Microservice

Возможности

Развертывание на Heroku

Предварительные требования

Шаги развертывания

API Endpoints

Использование API

Локальная разработка

Переменные окружения

Ограничения

Мониторинг

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

Mojarung/vtb_mortech_ocr

Folders and files

Latest commit

History

Repository files navigation

OCR Microservice

Возможности

Развертывание на Heroku

Предварительные требования

Шаги развертывания

API Endpoints

Использование API

Локальная разработка

Переменные окружения

Ограничения

Мониторинг

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages