スタパ齋藤のApple野郎
音声入力じっくり使って約1カ月、結果どんな感じ?
2021年6月16日 06:00
macOSの音声入力では原稿を書くことができない!?
先月半ばくらいからMacでも音声入力を使い始めた俺。声でのテキスト入力ですな。意外なほど実用性が高いので、その後も使い続けている。
最初は原稿を書くために積極的に使った。使ってみるとわかるが、macOS 11 Big Surの音声入力は認識率も入力効率もヒッジョーに高い。「近い将来のMac用外付けキーボードには音声入力用のマイクが内蔵されるかも」とかマジメに思うほど実用的。
ただ、上記リンク記事後半にも書いたが、原稿を書くのに音声入力を使うと、俺の場合は「な~んか調子が狂う」のであった。書くテンポが崩れる感じ。たびたび書くことを中断してしまう。
たぶん、キーボード入力による原稿執筆に慣れまくっているからだと思う。キーボードで原稿を書く時のロジックは文章で説明しづらいのだが、俺の場合は「脳内の思考などを画面上に文字として表しつつ、画面上に現れた作りかけの文章を見て、その文章の完成形が脳内に現れ、それを画面上に表す」という感じ。この時、タイピングはほとんど意識しない。
脳と画面表示のインタラクション、みたいな? 思ったことが文章として画面に表示され、その文章を見ることでさらに思いが進んでいく、的な。書きながら考えてるんですな。
でも音声入力の場合は、これとちょっと違う。俺の場合ではあるが、結局音声入力で原稿を書こうとすると、な~んか話し言葉になりがち。入力はマトモにできるものの、その入力結果である文章を見て「俺ってこういう原稿書かないだろ」と思ってしまう。思ってしまって入力中断、みたいな。
結局、俺的文章としてテキストを入力するなら、慣れまくりのキーボード入力の方がスムーズに進むのであった。たぶん音声入力に十分慣れれば、脳内のあれこれを口から原稿になる文章として喋れるようになるとは思う。のだが、「音声入力で原稿を書くことに頑張って慣れるべきか?」とか考えると、「慣れるまでの時間が無駄では?」とか思ってしまうのであった。
既に原稿を効率よく書けるキーボード。それと同等の効率になるまで音声入力に慣れるのは、そーとー頑張る必要がありそう。スゲく頑張って、結局キーボードと同じ効率になるだけなら……というわけだ。
そこで、単語やフレーズのみ音声入力することにした。Apple純正の入力システムだけあって、特にApple製品名は正式表記どおりに音声入力できて便利なのだ。↓こんな感じ。
ただ、単語を音声入力すると、ちょっとした不便がある。というのは、文章の途中に単語を音声入力した場合、単語の前に半角のスペースが加わってしまうのであった。たとえば「新しく発売された」までキーボード入力し、その後に音声で「Apple Watch」と入力すると、「新しく発売された Apple Watch」となる。「Apple Watch」の前に半角スペースが入っちゃう。他の単語でも同様。その半角をいちいち削除するのが面倒なのであった(媒体によっては削除しなくてもよかったりする)。
結局、いちいちカーソルキーやdeleteキーなどを使って半角スペースを削除するのが面倒になり、そのうち単語の音声入力もあまりしなくなってしまった。正しい表記を日本語IMに単語登録した方が効率がいい感じ。
というわけで、原稿を書くためにはApple純正日本語IMとキーボードを使っている。音声入力は認識率も入力効率も非常に高いのだが、俺が原稿を書くためには向かない入力システムとなった。
メモやメール、それから「読み上げ入力」にツカエル!!!
でも音声入力は毎日のように使っている。たとえばメモ書きやメールやメッセージ書き。
俺の場合、メモは箇条書きできればよく、文体などはなんでもいい。認識率も入力効率も高い音声入力を使うと、大量のメモでもどんどん入力していける。普段どおり喋ってそれが逐一テキスト化され、後にしっかり役立つのは、なんつーかこー、小気味よい。
メールやメッセージを書くのも音声入力だと(スマートデバイスと同様に)かなり快適。普通の話し言葉や丁寧な話し言葉はそのままメールの文体として通用するので、長いメッセージでもラクに入力できる。まあ、ある程度はキーボードを使って修正する必要が出たりすることはあるが。「この言い方はちょっとヘンかな」的な部分の修正ですな。
あとけっこう役立ちがちなのが、資料などにある文章の引用のための音声入力。たとえば製品紹介文が画像としてある場合、それと原稿などの中にテキストとして引用しようとすると、「目で画像の文章を読みつつキーボードから入力」という作業が必要。「あ~も~なんで文字を画像化しちゃうのかな~」と鬱憤がたまったりする。
だが、その画像の文章を読んで音声入力すれば問題解決。認識率も入力効率も非常に高いので、かなりの速さで「画像の文章のテキスト化」が行える。たとえば↓こんな感じ。
読み上げは、そーんなにキッチリと発音しなくても、こんな認識&入力結果になる。引用する場合は細部の変換違いなどをチェックする必要があるが、フレーズなどをメモする程度の用途なら物凄い効率の良さでテキスト化できる。
ちょっとならラジオやテレビの声もテキスト化できる
試してみてちょっと面白かったのが、放送の音声を音声入力してのテキスト化。たとえば↓はFMラジオで流れた音声を音声入力でテキスト化したものだ。
印象としては、ほぼ音声のとおりテキスト化されている。ラジオドラマ部は声の抑揚が強いからか、一部誤認識された。スバルの「EyeSight」がAppleのカメラ「iSight」でテキスト化されたのはご愛嬌。
なお、音声入力の上限時間については、Appleのサイトに「最適な結果を得るために、一度に読み上げるのは40秒以内にしてください」と注意書きがある。この時間程度以上入力していると、自動的に音声入力が終了するようだ。
音質によってはうまくいかないケースもある。たとえばトークはどうにか認識しても、音源が異なると途端に認識しなくなったりする。
それから、ラフな感じのトークだと認識結果がけっこう下がったりする。複数人数のトークで、声と声が重なったりすると、さらに認識率が悪くなる。
一度の音声入力上限時間は40秒程度までということで、ラジオ番組をライブで音声入力してのテキスト化は難しい感じ。いったん録音して、その後に区切り区切りで音声入力してテキスト化するなら可能だとは思う。
てな感じで、多角的に興味深いmacOSの音声入力。現在、Mac内の音声ファイルを音声入力によりテキスト化できないものかな?? てなことを調べたりしている。良さゲな結果が出たら、いずれご報告したいと思う。