PDFのテキストを合成音声用に整形するためのPythonスクリプト集です。
句読点で改行するスクリプト
不要な記号を一括置換するスクリプト
長いテキストを適切な長さに分割するスクリプト
- PDF(OCRあり)からテキストをコピぺして
output.txtに貼り付ける
# 句読点で改行
python linebreaker.py
# 記号を置換
python replacer.py
# テキストを分割
python splitter.pyCursorを使用
- テキストに不要な半角スペースが含まれている場合は、置換機能を使って削除すると良い