「音声入力でブログ」を試してみる - 設定手順編 macOS High Sierra
昨今のスマートスピーカーと異なり、いきなりデバイスに話しかけても音声入力はしてくれない。
といってもOSの標準機能なので、いくつか手順を踏めば利用可能になる。その設定手順メモを:
macOS (10.13 High Sierra)
上記ページの通り。まとめると:
- [システム環境設定] → [キーボード] → [音声入力] タブ
- 「音声入力」を [オン] にする
- 「拡張音声入力を使用」をチェック
- 最初のみ、画像左下のようにデータダウンロードされる。けっこう(ネットワーク環境によるが1-2時間?)待つ
あとは簡単。
- 音声入力したい画面で機能を有効化するキー入力(初期設定だとFn+Fn)
- マイクアイコンが表示されるので、マイクに向かって話す
- 喫茶店など外部の雑音が多いとおそらく認識されにくいだろう
- 音声入力を終えたいときはまたFn+Fn
文章の区切りや記号は特殊な発音で
一覧はこのページに
- 句読点「、」は「てん」、「。」は「まる」
- 改行は「つぎのぎょう」、段落分けは「つぎのだんらく」
- 丸かっこは「かっこ開く」「かっこ閉じる」など
認識のスピードは、CPU/メモリ性能が影響しているかもしれない。念のため利用環境のスペックとOSバージョンを:
「音声入力でブログ」を試してみる - 試行結果編
スマートスピーカーが日常に溶け込みはじめた昨今のIoT文脈とはやや異なる(それよりは遅れている)けれど、ちょこちょこ試し始めている。
末尾「参考文献」を読み、ブログ文章の作成に音声入力をつかうとスムーズかも?と感じたのがきっかけ。
概観
結論:どの環境が使えるか
◎ macOS音声入力(拡張音声入力)
- OSネイティブ。PCがあればどこでも使える
○ Google日本語入力
- Googleドキュメント上だけで使える点がネック
△ Windows10音声認識
- 厳しい。OSネイティブではあるものの、かなりトレーニングが必要。自分の声や発音の癖を学習させる必要がある
以下は「macOS音声入力」について。
かな漢字変換の精度がよい
- 一昔前と比べ、とてもよくなったという印象
- 話すスピードも意識して落とす必要はなく、普段のスピードでよい。こんな時代になったのかあと
- もちろん文章校正にはキーボードでのタイピングを併用するけれど、ゼロから文章を起こすのに比べれば、誤記や抜けだけを直すことはかなり手間減少
キーボード入力を補助する役割は充分果たせそう
- ブログ記事としての完成度を求めるなら、時にはURLや写真の貼りこみも必要
- それにはキーボード使いますが(この投稿もそうです、)プレーンなテキストで済む雑感などの内容なら音声入力で充分かな?
個人的ポイント
- 普段のスピードで話してよい。入力や漢字変換を待たずでよい
- といっても「単語の区切り」はある程度意識して話すのがよい
- 「あるていどいしきして」よりは、「/」で少し区切り「あるていど/いしきして」がよい
- 文字入力されている様子は画面上で見なくてもよい(見ないほうがスムーズな気がする。人によるかもしれない)
テキスト入力する場面ならどこでも(例:SNS投稿画面)使える
- ブログのみならず。つまり、実はいろんな人にとって便利かもしれません
報告書やプレゼン資料にもいけそう?
- 微妙。論理性の高い(=論理構成を作り込む必要がある)テキストには、従来慣れた「キーボード+コピー&ペースト」作業のほうにまだ優位性がありそう
停滞しているブログの更新頻度が上がる?
- 何とも言えない。実践結果より方法論を語りたがる、という今の時点で少なくとも記事量産はできていない。習慣を変えるのは大変ですね。。
比較してみたい環境
同じテキストを読み上げ、どの程度の精度(漢字変換を含む)・速度で認識してくれるか。順次追加
- macOS - 音声入力
- Windows - Windows10 音声認識
- Android - Google 音声入力
- iOS - 音声入力<< iPhone/iPad持っていないので保留。macOSと差があるのかないのか?はちょっと興味あり
環境ごとの設定手順
別ページに分けました
試行結果いくつか
新聞記事
- 読み上げた文章
- 音声入力された文章
考察
- 新しめの固有名詞(愛称や人名)はさすがに厳しい(あえてそんな文章を選んだのもある)
- 「Osaka Metro」を「おーえすえーけーえー すぺーす えむいーてぃーあーるおー」と発音した結果(うまくいかず)も現れている
- まあでも、けっこうちゃんと入力できているなあという印象
新聞記事2
- 読み上げた文章
- 音声入力された文章
考察
- ほぼ問題ない
- 数字は一部誤認識ありながら、「にまんはっせんにん」と読むと「二万八千人」ではなく「2万8000人」と入力された。横書き文章を想定した適切な変換
- Windows10がひどい。。「精度向上にはトレーニングが必要」という方針で、かなりトレーニングしないと使えなさそうだ
小説
- 読み上げた文章
- 二葉亭四迷 余が言文一致の由來 序文
- 言文一致に就いての意見、と、そんな大した研究はまだしてないから、寧ろ一つ懺悔話をしよう。それは、自分が初めて言文一致を書いた由來――も凄まじいが、つまり、文章が書けないから始まつたといふ一伍一什の顛末さ。
- 音声入力された文章
考察
- 「―」は「だっしゅ」でいいはずだけれど、読んだまま入力された。記号入力は毎回うまくいく、ということではなさそうだ
- 「一伍一什」は「いちごいちじゅう」と読むらしいことを調べてから発音
- もしや、と思ってIME「ユーザ辞書」に「いちごいちじゅう→一伍一什」を登録して再度「いちごいちじゅう」音声入力したけれど「いちご一重」のままだった^^;
- やっぱり最初にダウンロードした拡張音声入力データに依存し、IME辞書を見ているわけではなさそう
Web記事
- 読み上げた文章
- 春は髪の毛を軽くしたい!とイメチェンする人がたくさんいる季節です。ショートやミディアムにばっさり切る人が多くなります。今回はその中でもミディアムレングスにスポットを当てて、春らしい爽やかなヘアスタイルをご紹介します☆
- 音声入力された文章
- 春は髪の毛を軽くしたい!とイメチェンする人がたくさんいる季節です。ショートやミディアムにバッサリ切る人が多くなります。今回はその中でもミディアムレングスにスポットを当てて、春らしいさわやかなヘアスタイルをゴショウカイします*
考察
- かなりよい。新聞記事よりは口語寄りで、カナ用語が多い
- 「ごしょうかいします」は単独だと「ご紹介します」と適切なのに、上記だとどうしてもカナ「ゴショウカイ」となる
- 直前の「ヘアスタイル」を受けて何か文脈判断しているのだろうか?よくわからない
ITマニュアル
- 読み上げた文章
- Mac でテキストを音声入力する - Apple サポート
- Apple メニュー () >「システム環境設定」の順に選択し、「キーボード」をクリックし、「音声入力」をクリックします。「音声入力」を「入」にして、以下の音声入力オプションから選択してください。
- 音声入力された文章
- あっぷるメニュー(アップル)>「システム環境設定」の順に選択し、「キーボードあり)をクリックし、「音声入力」をクリックします。「音声入力」を「いり」にして、以下の音声入力をオプションから選択してください。
考察
- この手の文章はかっこ・かぎかっこが多い。音声入力ではそれらを含めないといけない
- 「かぎかっこ」「かぎかっことじる」を丁寧に加えれば、意外と大丈夫そう
- 「」はさすがにダメ。「あっぷるまーく」「あっぷるきごう」も試したけれど