hyprwhspr 日本語音声入力セットアップの躓き

createdAt: 2026/02/14 · amgsk

#Arch Linux #hyprwhspr #wayland #hyprland

要約

hyprwhsprで日本語音声入力をセットアップする際、バックエンドのモデルが英語専用だったため認識結果が出力されなかった
バックエンドをpywhispercppに変更し、smallモデルをダウンロードして精度を向上させた
キーバインドはSuper+Alt+Dと右Shiftのトグル式に設定し、push-to-talkは断念した

問題

音声の録音はできているが、認識結果が出力されない

原因

バックエンドが onnx-asr（nemo-parakeet-tdt-0.6b-v3）に設定されていた
このモデルは英語専用のため、日本語音声を認識できなかった
ログ上 Transcription completed in 0.00s と表示され、実質何も処理されていなかった

対応内容

1. バックエンドを pywhispercpp に変更

~/.config/hyprwhspr/config.json を編集:

transcription_backend: onnx-asr → pywhispercpp
language: ja を追加
既にインストール済みの ggml-base.bin（多言語Whisperモデル）を使用

2. small モデルをダウンロード

精度向上のため base → small に変更:

モデルをダウンロードする

1
hyprwhspr model download small

config.json に "model": "small" を追加。

3. キーバインド設定

~/.config/hypr/hyprland.conf にトグル式バインドを設定:

$XDG_CONFIG_HOME/hypr/hyprland.conf

1
2
bindd = SUPER ALT, D, Speech-to-text, exec, /usr/lib/hyprwhspr/config/hyprland/hyprwhspr-tray.sh record
bindd = SHIFT, Shift_R, Speech-to-text, exec, /usr/lib/hyprwhspr/config/hyprland/hyprwhspr-tray.sh record

Super+Alt+D または右Shift で開始/停止をトグル
push-to-talk（bindd+binddr）は修飾キーのリリースイベントが不安定なため断念

最終的な config.json

$XDG_CONFIG_HOME/hyprwhspr/config.json

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
{
  "$schema": "https://raw.githubusercontent.com/goodroot/hyprwhspr/main/share/config.schema.json",
  "use_hypr_bindings": true,
  "transcription_backend": "pywhispercpp",
  "model": "small",
  "language": "ja",
  "rest_endpoint_url": "https://api.openai.com/v1/audio/transcriptions",
  "rest_api_provider": "openai",
  "rest_body": {
    "model": "gpt-4o-transcribe"
  },
  "audio_ducking": true
}

その他のhyprwhsprのセットアップに関する内容は以下の記事でまとめているので、必要な方は参照してほしい。

/home/amgsk | Linuxに音声入力を導入する

hyprwhsprはWayland環境で動作する音声入力ツールである
Whisperベースでプライバシーを保ちつつ高精度な文字起こしが可能
AURからインストールでき、セットアップウィザードで簡単に導入できる
動作環境はCPU/GPU/RESTなどに対応しており、環境やニーズに応じたモデルを選ぶことができる
日本語環境で動作させるために行ったことは別記事を参照

2026/02/14

まとめ

hyprwhsprで日本語音声入力をセットアップする際、バックエンドのモデルが英語専用だったため認識結果が出力されなかった
バックエンドをpywhispercppに変更し、smallモデルをダウンロードして精度を向上させた
キーバインドはSuper+Alt+Dと右Shiftのトグル式に設定し、push-to-talkは断念した