always one step forward

IT寄りの日常・IT以外の日常。ランニング。美術展や展示会感想。長文でもなるべく読みやすく構成する練習を兼ねています

「音声入力でブログ」を試してみる - 設定手順編 macOS High Sierra, Windows10

昨今のスマートスピーカーと異なり、いきなりデバイスに話しかけても音声入力はしてくれない。

といってもOSの標準機能なので、いくつか手順を踏めば利用可能になる。その設定手順メモを:

macOS (10.13 High Sierra)

上記ページの通り。まとめると:

  • [システム環境設定] → [キーボード] → [音声入力] タブ
  • 「音声入力」を [オン] にする
  • 「拡張音声入力を使用」をチェック
    • 入力した音声データがAppleに送信されなくなる
    • チェックしなくても音声入力は可能。この場合、音声入力したデータがAppleに送信される。Siriと同じ状態
  • 最初のみ、画像左下のようにデータダウンロードされる。けっこう(ネットワーク環境によるが1-2時間?)待つ

voice input1 - macOS

あとは簡単。

  • 音声入力したい画面で機能を有効化するキー入力(初期設定だとFn+Fn)
  • マイクアイコンが表示されるので、マイクに向かって話す
    • 喫茶店など外部の雑音が多いとおそらく認識されにくいだろう

voice input3 - macOS

  • 音声入力を終えたいときはまたFn+Fn

文章の区切りや記号は特殊な発音で

  • 一覧はこのページ

    • 句読点「、」は「てん」、「。」は「まる」
    • 改行は「つぎのぎょう」、段落分けは「つぎのだんらく」
    • 丸かっこは「かっこ開く」「かっこ閉じる」など
  • 認識のスピードは、CPU/メモリ性能が影響しているかもしれない。念のため利用環境のスペックとOSバージョンを:

Windows 10 (Fall Creators Update バージョン1709)

Windows 10 では、音声プロファイルを使用して音声を認識します。使用頻度が高いほど、認識精度が上がります。

これは!と思ったら「英語でのみ使用可能」´д`

ディクテーションは英語 (米国) でのみ利用可能です。使用するには、PC をインターネットに接続する必要があります。

Android

追加予定

「音声入力でブログ」を試してみる - 試行結果編

スマートスピーカーが日常に溶け込みはじめた昨今のIoT文脈とはやや異なる(それよりは遅れている)けれど、ちょこちょこ試し始めている。

末尾「参考文献」を読み、ブログ文章の作成に音声入力をつかうとスムーズかも?と感じたのがきっかけ。

概観

結論:どの環境が使えるか

macOS音声入力(拡張音声入力)

  • OSネイティブ。PCがあればどこでも使える

    Google日本語入力

  • Googleドキュメント上だけで使える点がネック

    △ Windows10音声認識

  • 厳しい。OSネイティブではあるものの、かなりトレーニングが必要。自分の声や発音の癖を学習させる必要がある

以下は「macOS音声入力」について。

かな漢字変換の精度がよい

  • 一昔前と比べ、とてもよくなったという印象
    • 話すスピードも意識して落とす必要はなく、普段のスピードでよい。こんな時代になったのかあと
  • もちろん文章校正にはキーボードでのタイピングを併用するけれど、ゼロから文章を起こすのに比べれば、誤記や抜けだけを直すことはかなり手間減少

キーボード入力を補助する役割は充分果たせそう

  • ブログ記事としての完成度を求めるなら、時にはURLや写真の貼りこみも必要
    • それにはキーボード使いますが(この投稿もそうです、)プレーンなテキストで済む雑感などの内容なら音声入力で充分かな?

個人的ポイント

  • 普段のスピードで話してよい。入力や漢字変換を待たずでよい
  • といっても「単語の区切り」はある程度意識して話すのがよい
    • 「あるていどいしきして」よりは、「/」で少し区切り「あるていど/いしきして」がよい
  • 文字入力されている様子は画面上で見なくてもよい(見ないほうがスムーズな気がする。人によるかもしれない)

テキスト入力する場面ならどこでも(例:SNS投稿画面)使える

  • ブログのみならず。つまり、実はいろんな人にとって便利かもしれません

報告書やプレゼン資料にもいけそう?

  • 微妙。論理性の高い(=論理構成を作り込む必要がある)テキストには、従来慣れた「キーボード+コピー&ペースト」作業のほうにまだ優位性がありそう

停滞しているブログの更新頻度が上がる?

  • 何とも言えない。実践結果より方法論を語りたがる、という今の時点で少なくとも記事量産はできていない。習慣を変えるのは大変ですね。。

比較してみたい環境

同じテキストを読み上げ、どの程度の精度(漢字変換を含む)・速度で認識してくれるか。順次追加

環境ごとの設定手順

別ページに分けました

試行結果いくつか

新聞記事

  • 読み上げた文章
    • 4月に民営化される大阪市営地下鉄の運営を引き継ぐ新会社の愛称が「Osaka Metro(オオサカ メトロ)」に決まった。大阪市の吉村洋文市長が25日に発表した。海外の大都市と同じ名称にし、観光客にも分かりやすくする狙いがあるという。
  • 音声入力された文章
    • 4月に民営化される大阪市地下鉄の人間を引き継ぐ新会社の相性が「おーえすけいスペースMEDアールオー(大阪スペースメトロ(閉じる」に決まった。大阪市の志村浩史市長が25日に発表した。海外の大都市と同じ名称にし、観光客にもわかりやすく狙いがあるという。

考察

  • 新しめの固有名詞(愛称や人名)はさすがに厳しい(あえてそんな文章を選んだのもある)
  • 「Osaka Metro」を「おーえすえーけーえー すぺーす えむいーてぃーあーるおー」と発音した結果(うまくいかず)も現れている
  • まあでも、けっこうちゃんと入力できているなあという印象

新聞記事2

  • 読み上げた文章
    • 横浜マラソン組織委員会は1日、2018年の横浜マラソンを10月28日に開催すると発表した。17年10月に予定していた大会が台風接近で中止になったことを受け、前回大会に出場予定だったランナーに優先的に出走権を与える。募集人数2万8000人から優先枠を差し引いた人数を一般枠として募集する。
  • 音声入力された文章
    • macOS High Sierra
    • 横浜マラソン組織委員会は1日、2018年の横浜マラソンを10月28日に開催すると発表した。じゅん7年10月に予定していた大会が台風接近で中止になったことを受け、前回大会に出場予定だったランナーに優先的に出走権を与える。募集人数2万8,000人から優先枠を差し引いた人数を一般枠として募集する。
    • Windows10
    • 午後は桃のSox会派を離脱、疑問を浜松ホバツ入ると発表した。地物¥4000000000で4店舗今回の台風するウル島億トンで、幹部会で常務を顧問が無線でそう思う。募集人数万8000個の風船は控訴審第5番を打ち、補給する。

考察

  • ほぼ問題ない
  • 数字は一部誤認識ありながら、「にまんはっせんにん」と読むと「二万八千人」ではなく「2万8000人」と入力された。横書き文章を想定した適切な変換
  • Windows10がひどい。。「精度向上にはトレーニングが必要」という方針で、かなりトレーニングしないと使えなさそうだ

小説

  • 読み上げた文章
    • 二葉亭四迷 余が言文一致の由來 序文
    • 言文一致に就いての意見、と、そんな大した研究はまだしてないから、寧ろ一つ懺悔話をしよう。それは、自分が初めて言文一致を書いた由來――も凄まじいが、つまり、文章が書けないから始まつたといふ一伍一什の顛末さ。
  • 音声入力された文章
    • 言文一致についての意見、と、そんなたいした研究はまだしてないから、むしろ1つ懺悔話をしよう。それは、自分が初めて言文一致を買いたいぐらいダッシュダッシュも凄まじいか、つまり、文章が書けないから始まったといふいちご一重の顛末さ。

考察

  • 「―」は「だっしゅ」でいいはずだけれど、読んだまま入力された。記号入力は毎回うまくいく、ということではなさそうだ
  • 「一伍一什」は「いちごいちじゅう」と読むらしいことを調べてから発音
  • もしや、と思ってIME「ユーザ辞書」に「いちごいちじゅう→一伍一什」を登録して再度「いちごいちじゅう」音声入力したけれど「いちご一重」のままだった^^;
  • やっぱり最初にダウンロードした拡張音声入力データに依存し、IME辞書を見ているわけではなさそう

Web記事

  • 読み上げた文章
    • 春は髪の毛を軽くしたい!とイメチェンする人がたくさんいる季節です。ショートやミディアムにばっさり切る人が多くなります。今回はその中でもミディアムレングスにスポットを当てて、春らしい爽やかなヘアスタイルをご紹介します☆
  • 音声入力された文章
    • 春は髪の毛を軽くしたい!とイメチェンする人がたくさんいる季節です。ショートやミディアムにバッサリ切る人が多くなります。今回はその中でもミディアムレングスにスポットを当てて、春らしいさわやかなヘアスタイルをゴショウカイします*

考察

  • かなりよい。新聞記事よりは口語寄りで、カナ用語が多い
  • 「ごしょうかいします」は単独だと「ご紹介します」と適切なのに、上記だとどうしてもカナ「ゴショウカイ」となる
    • 直前の「ヘアスタイル」を受けて何か文脈判断しているのだろうか?よくわからない

ITマニュアル

  • 読み上げた文章
    • Mac でテキストを音声入力する - Apple サポート
    • Apple メニュー () >「システム環境設定」の順に選択し、「キーボード」をクリックし、「音声入力」をクリックします。「音声入力」を「入」にして、以下の音声入力オプションから選択してください。
  • 音声入力された文章
    • あっぷるメニュー(アップル)>「システム環境設定」の順に選択し、「キーボードあり)をクリックし、「音声入力」をクリックします。「音声入力」を「いり」にして、以下の音声入力をオプションから選択してください。

考察

  • この手の文章はかっこ・かぎかっこが多い。音声入力ではそれらを含めないといけない
  • 「かぎかっこ」「かぎかっことじる」を丁寧に加えれば、意外と大丈夫そう
  • 「」はさすがにダメ。「あっぷるまーく」「あっぷるきごう」も試したけれど

参考文献