本リポジトリにて,講演スライド及びデモスクリプトを配布しています.
| 学会 | 日時 | スライド |
|---|---|---|
| 音学シンポジウム2025 | 2025年6月13日 | Link |
| 6th joint ASA/ASJ meeting | 2025年12月3日 | Link |
| 日本音響学会九州支部第3回オンラインセミナー | 2026年2月27日 18:00-19:30 | Link |
demo2では、どのようにLlamaForSpeechLM-Instruct - Built with Llamaの事前学習モデルを行っていますか。詳細に教えていただきたいです。
ご質問ありがとうございます.demo2.pyを用いて,下記の手順で事前学習を行っています.なお,学習にはNVIDIA RTX A6000 48GB VRAM GPUを1基用いました.
sh scripts/download_clotho.shでClotho audio captioningデータセットをダウンロード- Whisper encoderとLlama 3.2 1Bを2層MLPのadapterで接続.事前学習およびinstruction tuningを通して,WhisperおよびLlamaのパラメータを凍結し,adapterのみ更新
- train()を用いて,LibrispeechでのASRおよびClothoでのaudio captioningで事前学習
- generate_data()を用いて,VITSでテキストベースのalpacaデータセットにおける入力テキストを音声合成し,音声入力のalpacaデータセットを作成
- finetune()を用いて,作成したalpacaデータセットでcross-modal instruction tuning
pip install -r requirements.txt