hyprwhspr 日本語音声入力セットアップの躓き
·
amgsk
要約
- hyprwhsprで日本語音声入力をセットアップする際、バックエンドのモデルが英語専用だったため認識結果が出力されなかった
- バックエンドをpywhispercppに変更し、smallモデルをダウンロードして精度を向上させた
- キーバインドはSuper+Alt+Dと右Shiftのトグル式に設定し、push-to-talkは断念した
問題
音声の録音はできているが、認識結果が出力されない
原因
- バックエンドが
onnx-asr(nemo-parakeet-tdt-0.6b-v3)に設定されていた - このモデルは英語専用のため、日本語音声を認識できなかった
- ログ上
Transcription completed in 0.00sと表示され、実質何も処理されていなかった
対応内容
1. バックエンドを pywhispercpp に変更
~/.config/hyprwhspr/config.json を編集:
transcription_backend:onnx-asr→pywhispercpplanguage:jaを追加- 既にインストール済みの
ggml-base.bin(多言語Whisperモデル)を使用
2. small モデルをダウンロード
精度向上のため base → small に変更:
モデルをダウンロードする
| |
config.json に "model": "small" を追加。
3. キーバインド設定
~/.config/hypr/hyprland.conf にトグル式バインドを設定:
$XDG_CONFIG_HOME/hypr/hyprland.conf
| |
Super+Alt+Dまたは 右Shift で開始/停止をトグル- push-to-talk(
bindd+binddr)は修飾キーのリリースイベントが不安定なため断念
最終的な config.json
$XDG_CONFIG_HOME/hyprwhspr/config.json
| |
その他のhyprwhsprのセットアップに関する内容は以下の記事でまとめているので、必要な方は参照してほしい。
/home/amgsk | Linuxに音声入力を導入する
- hyprwhsprはWayland環境で動作する音声入力ツールである
- Whisperベースでプライバシーを保ちつつ高精度な文字起こしが可能
- AURからインストールでき、セットアップウィザードで簡単に導入できる
- 動作環境はCPU/GPU/RESTなどに対応しており、環境やニーズに応じたモデルを選ぶことができる
- 日本語環境で動作させるために行ったことは別記事を参照
まとめ
- hyprwhsprで日本語音声入力をセットアップする際、バックエンドのモデルが英語専用だったため認識結果が出力されなかった
- バックエンドをpywhispercppに変更し、smallモデルをダウンロードして精度を向上させた
- キーバインドはSuper+Alt+Dと右Shiftのトグル式に設定し、push-to-talkは断念した