Documentation Index

Welcome to the Document Search RAG System documentation.

📖 Documentation Overview

Core Documentation

Project Structure
- Complete architecture overview
- Module responsibilities
- Design principles
- Extension points
Enhanced Features Guide
- Advanced capabilities
- Docling and Chonkie integration details
- Performance optimization
- Benchmarks and best practices
API Reference
- Python API documentation
- CLI commands
- Configuration options

Setup Guides

Qdrant Local Setup
- Installing Qdrant locally
- Docker setup
- Configuration tips
Qdrant Quick Start
- Getting started with vector search
- Basic operations
- Example queries

Tutorials

Processing Large Document Collections
- Handling 1000+ documents
- Batch processing strategies
- Memory optimization
Custom Document Processors
- Extending the document processor
- Adding new file formats
- Custom chunking strategies

🏗️ System Architecture

┌─────────────────────────────────────────────────────────────┐
│                     Document Corpus (1000+ docs)            │
└────────────────────────┬────────────────────────────────────┘
                         │
                         ▼
┌─────────────────────────────────────────────────────────────┐
│                    Docling Parser                            │
│  • Text, Table & Image Extraction                            │
│  • Multi-format Support                                      │
└────────────────────────┬────────────────────────────────────┘
                         │
                         ▼
┌─────────────────────────────────────────────────────────────┐
│                    Chonkie Chunker                           │
│  • Semantic & Token-based Chunking                           │
│  • Configurable Overlap                                      │
└────────────┬───────────────────────────┬────────────────────┘
              │                           │
              ▼                           ▼
┌──────────────────────────┐  ┌──────────────────────────────┐
│    SQLite/PostgreSQL     │  │      Qdrant Vector DB        │
│  • Document Metadata     │  │  • Vector Embeddings         │
│  • Tables & Images       │  │  • Similarity Search         │
└──────────────────────────┘  └──────────────────────────────┘
              │                           │
              └───────────┬───────────────┘
                         │
                         ▼
┌─────────────────────────────────────────────────────────────┐
│                    RAG System                                │
│  • Query Processing                                          │
│  • Context Retrieval                                         │
│  • Answer Generation                                         │
└─────────────────────────────────────────────────────────────┘

🚀 Quick Links

Main README - Getting started
Configuration Guide - Environment setup
API Examples - Code examples
Troubleshooting - Common issues

📊 Performance Metrics

Component	Metric	Performance
Document Processing	Speed	500-1000 docs/hour
Chunking	Throughput	10,000 chunks/min
Vector Indexing	Speed	50,000 vectors/min
Search	Latency	<500ms
RAG Generation	Response Time	2-5 seconds

🔧 Configuration Files

.env - Environment variables
src/config/settings.py - Application settings
docker-compose.yml - Docker services

📝 Contributing

See our Contributing Guide for information on:

Code style
Testing requirements
PR process
Development setup

📄 License

This project is licensed under the MIT License.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Documentation Index

📖 Documentation Overview

Core Documentation

Setup Guides

Tutorials

🏗️ System Architecture

🚀 Quick Links

📊 Performance Metrics

🔧 Configuration Files

📝 Contributing

📄 License

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Documentation Index

📖 Documentation Overview

Core Documentation

Setup Guides

Tutorials

🏗️ System Architecture

🚀 Quick Links

📊 Performance Metrics

🔧 Configuration Files

📝 Contributing

📄 License