Skip to content

otobank/otobank-pdf-to-text

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

合成音声用テキスト処理ツール

PDFのテキストを合成音声用に整形するためのPythonスクリプト集です。

スクリプト

linebreaker.py

句読点で改行するスクリプト

replacer.py

不要な記号を一括置換するスクリプト

splitter.py

長いテキストを適切な長さに分割するスクリプト

使い方

1. 事前準備

  • PDF(OCRあり)からテキストをコピぺしてoutput.txtに貼り付ける

2. Pythonスクリプトを上から順に実行する

# 句読点で改行
python linebreaker.py

# 記号を置換
python replacer.py

# テキストを分割
python splitter.py

3. AI校正

Cursorを使用

注意事項

  • テキストに不要な半角スペースが含まれている場合は、置換機能を使って削除すると良い

About

合成音声用テキスト処理ツール

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages