スタパ齋藤のApple野郎

音声入力じっくり使って約1カ月、結果どんな感じ?

macOSの音声入力では原稿を書くことができない!?

 先月半ばくらいからMacでも音声入力を使い始めた俺。声でのテキスト入力ですな。意外なほど実用性が高いので、その後も使い続けている。

 最初は原稿を書くために積極的に使った。使ってみるとわかるが、macOS 11 Big Surの音声入力は認識率も入力効率もヒッジョーに高い。「近い将来のMac用外付けキーボードには音声入力用のマイクが内蔵されるかも」とかマジメに思うほど実用的。

 ただ、上記リンク記事後半にも書いたが、原稿を書くのに音声入力を使うと、俺の場合は「な~んか調子が狂う」のであった。書くテンポが崩れる感じ。たびたび書くことを中断してしまう。

 たぶん、キーボード入力による原稿執筆に慣れまくっているからだと思う。キーボードで原稿を書く時のロジックは文章で説明しづらいのだが、俺の場合は「脳内の思考などを画面上に文字として表しつつ、画面上に現れた作りかけの文章を見て、その文章の完成形が脳内に現れ、それを画面上に表す」という感じ。この時、タイピングはほとんど意識しない。

 脳と画面表示のインタラクション、みたいな? 思ったことが文章として画面に表示され、その文章を見ることでさらに思いが進んでいく、的な。書きながら考えてるんですな。

 でも音声入力の場合は、これとちょっと違う。俺の場合ではあるが、結局音声入力で原稿を書こうとすると、な~んか話し言葉になりがち。入力はマトモにできるものの、その入力結果である文章を見て「俺ってこういう原稿書かないだろ」と思ってしまう。思ってしまって入力中断、みたいな。

 結局、俺的文章としてテキストを入力するなら、慣れまくりのキーボード入力の方がスムーズに進むのであった。たぶん音声入力に十分慣れれば、脳内のあれこれを口から原稿になる文章として喋れるようになるとは思う。のだが、「音声入力で原稿を書くことに頑張って慣れるべきか?」とか考えると、「慣れるまでの時間が無駄では?」とか思ってしまうのであった。

 既に原稿を効率よく書けるキーボード。それと同等の効率になるまで音声入力に慣れるのは、そーとー頑張る必要がありそう。スゲく頑張って、結局キーボードと同じ効率になるだけなら……というわけだ。

 そこで、単語やフレーズのみ音声入力することにした。Apple純正の入力システムだけあって、特にApple製品名は正式表記どおりに音声入力できて便利なのだ。↓こんな感じ。

macOS 11 Big Surの音声入力時にApple製品名を言うと、正しい表記で入力できる。すご~い♪ さすがApple製。自社製品の表記は絶対に間違わないのであった。

 ただ、単語を音声入力すると、ちょっとした不便がある。というのは、文章の途中に単語を音声入力した場合、単語の前に半角のスペースが加わってしまうのであった。たとえば「新しく発売された」までキーボード入力し、その後に音声で「Apple Watch」と入力すると、「新しく発売された Apple Watch」となる。「Apple Watch」の前に半角スペースが入っちゃう。他の単語でも同様。その半角をいちいち削除するのが面倒なのであった(媒体によっては削除しなくてもよかったりする)。

 結局、いちいちカーソルキーやdeleteキーなどを使って半角スペースを削除するのが面倒になり、そのうち単語の音声入力もあまりしなくなってしまった。正しい表記を日本語IMに単語登録した方が効率がいい感じ。

 というわけで、原稿を書くためにはApple純正日本語IMとキーボードを使っている。音声入力は認識率も入力効率も非常に高いのだが、俺が原稿を書くためには向かない入力システムとなった。

メモやメール、それから「読み上げ入力」にツカエル!!!

 でも音声入力は毎日のように使っている。たとえばメモ書きやメールやメッセージ書き。

 俺の場合、メモは箇条書きできればよく、文体などはなんでもいい。認識率も入力効率も高い音声入力を使うと、大量のメモでもどんどん入力していける。普段どおり喋ってそれが逐一テキスト化され、後にしっかり役立つのは、なんつーかこー、小気味よい。

 メールやメッセージを書くのも音声入力だと(スマートデバイスと同様に)かなり快適。普通の話し言葉や丁寧な話し言葉はそのままメールの文体として通用するので、長いメッセージでもラクに入力できる。まあ、ある程度はキーボードを使って修正する必要が出たりすることはあるが。「この言い方はちょっとヘンかな」的な部分の修正ですな。

 あとけっこう役立ちがちなのが、資料などにある文章の引用のための音声入力。たとえば製品紹介文が画像としてある場合、それと原稿などの中にテキストとして引用しようとすると、「目で画像の文章を読みつつキーボードから入力」という作業が必要。「あ~も~なんで文字を画像化しちゃうのかな~」と鬱憤がたまったりする。

 だが、その画像の文章を読んで音声入力すれば問題解決。認識率も入力効率も非常に高いので、かなりの速さで「画像の文章のテキスト化」が行える。たとえば↓こんな感じ。

Apple「AirPods」の公式ページにあるキャッチフレーズを(テキストなのでコピペできるが敢えて)そのまま読み上げて音声入力したもの。「ほか」が「他」と、「Apple製」が「アップル製」と入力されてしまったが、それら以外は完璧な結果に。

 読み上げは、そーんなにキッチリと発音しなくても、こんな認識&入力結果になる。引用する場合は細部の変換違いなどをチェックする必要があるが、フレーズなどをメモする程度の用途なら物凄い効率の良さでテキスト化できる。

ちょっとならラジオやテレビの声もテキスト化できる

 試してみてちょっと面白かったのが、放送の音声を音声入力してのテキスト化。たとえば↓はFMラジオで流れた音声を音声入力でテキスト化したものだ。

スバルのラジオCMで、「子育てが一段落したら2人で日本中を旅するのだから走ればいい車がいいかなぁと静子さん今まで仕事ばっかりで迷惑かけてこれからの人生も一緒に旅してもらえませんか」までがラジオドラマで構成されている。「その幸せな未来のために」以降はナレーション。「家族を思う時」で切れているのは、音声入力の時間的な制限のようだ。

 印象としては、ほぼ音声のとおりテキスト化されている。ラジオドラマ部は声の抑揚が強いからか、一部誤認識された。スバルの「EyeSight」がAppleのカメラ「iSight」でテキスト化されたのはご愛嬌。

 なお、音声入力の上限時間については、Appleのサイトに「最適な結果を得るために、一度に読み上げるのは40秒以内にしてください」と注意書きがある。この時間程度以上入力していると、自動的に音声入力が終了するようだ。

 音質によってはうまくいかないケースもある。たとえばトークはどうにか認識しても、音源が異なると途端に認識しなくなったりする。

ラジオ番組内で動画の音声メッセージを紹介しているもの。「ご覧いただきたいです」までがアナウンサーの声で、だいたい正しく音声認識されている。が、それ以降の動画音声は全く認識されなかった。聴いていてもけっこう音が悪い動画の音なのであった。

 それから、ラフな感じのトークだと認識結果がけっこう下がったりする。複数人数のトークで、声と声が重なったりすると、さらに認識率が悪くなる。

あるラジオ番組でされていたキティちゃん関連のトーク。女性2人によるトークだが、言葉が重なったり途中に笑いが入ったりしたためか、音声入力結果はけっこうヒドいものになった。

 一度の音声入力上限時間は40秒程度までということで、ラジオ番組をライブで音声入力してのテキスト化は難しい感じ。いったん録音して、その後に区切り区切りで音声入力してテキスト化するなら可能だとは思う。

 てな感じで、多角的に興味深いmacOSの音声入力。現在、Mac内の音声ファイルを音声入力によりテキスト化できないものかな?? てなことを調べたりしている。良さゲな結果が出たら、いずれご報告したいと思う。

スタパ齋藤

1964年8月28日デビュー。中学生時代にマイコン野郎と化し、高校時代にコンピュータ野郎と化し、大学時代にコンピュータゲーム野郎となって道を誤る。特技は太股の肉離れや乱文乱筆や電池の液漏れと20時間以上の連続睡眠の自称衝動買い技術者。収入のほとんどをカッコよいしサイバーだしナイスだしジョリーグッドなデバイスにつぎ込みつつライター稼業に勤しむ。