みんなのケータイ
自動文字起こしの精度が爆上がりして不可逆になってしまった件
2024年3月14日 00:00
生成AIに奪われる日も近そうな、吹けば飛ぶようなライター稼業ですが、そんな筆者の仕事にも、今やAIはなくてはならないものになりつつあります。中でも作業効率を劇的に高めてくれているのが「自動文字起こし」。
某誌の記者さんから、「Otter.ai」という英語のリアルタイム文字起こしアプリの存在を教えてもらったのは、確か2018年の海外出張のときだったと記憶していますが、そこからあっと言う間に、日本語でもどんどん便利で安価なツールが登場して精度も爆上がりし、今ではスマホのオンデバイスAIでも、リアルタイムに文字起こしができるようになりました。
法人向けだけでなく、「CLOVA Note」「Rimo Voice」など、個人でもいろいろなツールが選べるようになってきましたが、最近筆者がメインで使っているのは、ソースネクストの「オートメモ」というツールです。
リアルタイムではなく、かつ有料のサービスですが、専用のレコーダーデバイスがあり、スマホアプリがあり、音声ファイルのアップロードにも対応していて、データを一元管理でき、話者の聞き分けができて、音声とテキストを同期した状態で編集ができるなど、今のところ筆者のニーズに最もマッチしているというのがその理由です。
中でもライターにとっては、専用のデバイスがあるというのが結構重要だったりします。最近はもうそんなことはないですが、以前は対面でのインタビューの際、レコーダー代わりにスマホを出しづらい雰囲気があったからです。
スマホでメモをとる行為が、相手によっては未だにあまりよく思われないのと一緒ですね。囲み取材の際に話者との距離が遠い場合などは、台にレコーダーだけを置かせてもらうことがあるのですが、その場合も、スマホを置いておくというのは場所も取るし、万が一電話がかかってきたらと思うと、なんとなく遠慮してしまいます。筆者の考えすぎかもしれませんが……。
「オートメモ」には、「オートメモ S」と「オートメモ R」という2つの専用デバイスがあり、特に「オートメモ R」は、一般的なボイスレコーダーと変わらない操作性で、使いやすいです。またスマホのアプリもあるので、いざというときはスマホでも録音ができます。
「オートメモ R」は電池持ちが良いですが、「オートメモ S」は電池持ちが今ひとつで、肝心なときに電池切れということがたびたびあったので、そういうときもスマホで録音ができるのは安心です。
録音した音声データはリアルタイムではなく、事前登録した自宅などのWi-Fiに接続した際に、クラウドに送られて文字起こしされるしくみ。複数の話者がいる場合、個別に認識して文字起こししてくれます。
別途、音声データをアップロードすることもできるので、他のボイスレコーダーで録音したデータや、オンライン会議の録画データからの文字起こしも可能。文字起こしされたテキストはメールで送られてくるほか、アプリまたは専用サイトから確認できます。
まだ使ったことはないですが、最近パソコンでこの専用サイトにアクセスして、直接、録音することもできるようになりました。音声とテキストが同期されているので、テキストをキーワード検索して、該当個所をダイレクトに再生できます。
専用サイトでは、音声を確認しながらテキストの編集ができるほか、編集後のデータを編集者などに共有できるのも、ライターのニーズに合っています。
正直なところ、初期に発売された専用デバイスはとても使いにくかったですし、最初の頃は文字起こしの精度も今ひとつだったのですが、昨年、音声認識の一部にOpenAIの「Whisper」が採用されたあたりから、話者認識もできるようになるなど、ぐっと実用度が増した印象。
英語の逐次通訳など複数の言語が混ざる場合、他の自動文字起こしツールでは、そもそも英語部分の文字起こしができないことが多いですが、「オートメモ」では日本語以外の言語も、一応日本語に訳されて文字起こしされます。
ただしこの機能はまだまだ発展途上のようで、複数言語が混じる文字起こしはときどき盛大にバグります。
録音時間によって文字起こしに少し時間がかかることや、専用サイトでのテキスト編集がちょっと重いこと、編集後に音声とテキストがうまく同期されずにずれることがあるなど、細かな不満もありつつも、「自動文字起こし」はもはや筆者の仕事になくてはならないもの。
「オートメモ」に限らず、オンデバイスAIや他のツールも含めて、今後も引き続きいろいろと試しながら使い続けていくと思います。以前は長い時間をかけてのテープ起こしも当り前だったのですが、つくづくAIは不可逆だなと思う今日この頃です。