Scrutario 是一款专为古籍、地方志、影印书及个人文献库打造的高性能桌面端检索与管理工具;核心目标是将资料导入、OCR 识别、校对、全文检索、书签管理、目录生成、沉浸式阅读及模型训练数据采集整合入单一工作流,为研究人员和文献爱好者提供本地化数字文献处理体验
....嗯,也许用来读论文也是不错的?
- 📚 统一的本地资料库:无缝导入 PDF、图片、Word、EPUB、TXT 等常见格式;所有文献、索引、模型和日志均在本地应用数据目录集中管理
- ⚡ 毫秒级高速全文检索:正文、书名、作者及元数据统一构建索引入库;支持精确匹配、模糊检索和跨页连续文本搜索
- 🔍 双栏对读与高精度 OCR 校对:支持 PDF 原页与识别文本并排比对;提供阅读、校对、识别块等多种视图模式
- 📐 灵活的 OCR 扫描规则引擎:支持按页码、范围、规律或自定义框选设定 OCR 区域;适配竖排古籍、多栏、折痕及侧边批注等复杂版式
- 🧩 模块化能力包管理架构:OCR 引擎、文档转换器和训练模块均封装为独立离线包;支持 GitHub Release 更新和纯离线安装
- 🤖 训练数据采集闭环:校对过程中可随时截图保存字形样本;训练控制台用于整理数据集、备份模型并生成本地模型
- 📖 无干扰沉浸阅读体验:支持单页阅读或双文献同屏对读;提供滚轮缩放、拖拽平移、方向键翻页和书签跳转
左侧集成目录、搜索和书签;中栏保留宽敞的文献预览与校对空间;核心操作全局可见,低频操作收纳于上下文菜单
遵循“单一模型对应单一能力”原则;启动 OCR 时按需选择模型与运行模式,可用性校验、下载和离线导入均在当前工作流内完成
专为复杂文献设计;支持翻页预览、滚轮缩放、精准框选识别区与排除区,适配竖排古籍、多栏混排、页眉页脚干扰及旁批
屏蔽所有非阅读相关的 UI 元素;支持拖入第二份文献形成左右或上下分屏,适合文本查校、版本对读和长篇阅读
配置项按 OCR、转换、训练、模型、资料包、存储、日志和热键结构化组织;侧边栏支持一键切换日间和暗黑模式
支持独立浮动窗口;提供截图粘贴、手动归档、发起训练、模型备份及本地模型管理功能
- 导入资料:将 PDF、图片或其他类型文档直接拖入应用窗口
- 完善元数据:录入书名、作者、版本、分类等结构化档案信息
- 配置规则:选择预设模板,或针对特殊页面自定义识别/排除范围及文字走向
- 执行 OCR:选择已加载的模型包,可按需切换“效率”、“平衡”或“精确”模式
- 即扫即看:后台 OCR 任务支持暂停、恢复与取消;已识别页面可立即进入校对与检索环节
- 检索与阅读:借助目录、全局搜索、书签网络或沉浸模式深度阅读文献
- 数据流转:资料库与能力包支持全量导出/导入,实现多端设备间的无缝迁移与完全离线分发
Scrutario_Setup.exe:Windows 平台一体化安装器paddle_ppocrv5.socr:清晰扫描书和普通地方志识别包kraken_htr.socr:旧刻本、竖排页和同一字形训练识别包cnocr_doc.socr:单字单行截图数据集和小样本验证识别包tesseract5.socr:无网络、低配电脑和规整横排资料识别包doc_converter.sconv:格式解析与文档转换能力包ocr_train.strain:模型训练与本地模型管理能力包
离线环境部署:用户可手动下载上述能力包,并在应用的“设置页”或导入向导中选择“导入离线能力包”进行离线部署
- 数据隔离与安全:默认情况下,Scrutario 将文献、索引数据库、模型权重、训练集、日志及缓存统一部署在安装目录下的
data文件夹内 - 平滑更新机制:自
v0.1起,应用接入 GitHub Release 作为官方更新信道系统在后台静默轮询安装器及能力包更新,发现新版本后将通过非阻塞式弹窗通知用户,由用户自主决定更新、取消或跳过该版本
本项目在架构与实现过程中,使用了诸多优秀的开源组件:
详细的第三方开源许可声明,请参阅源码库中的 third-party-licenses/ 目录
以及感谢一位神秘人的赞助






