みんなのケータイ
取材時のテキストメモ入力環境に悩みつつも、音声認識の可能性も模索中
2020年1月31日 06:00
筆者の仕事ではインタビューや発表会のプレゼン取材など、座った状態でテキストメモを取ることが多い。
簡単な取材では、Androidスマートフォン「Gemini PDA」を使うことが多い。320gと軽量ながら、タッチタイピングできるサイズ・配列のキーボードを搭載している。しかしキーの押し込み感触があと一歩で、高速入力をしていると押したつもりが押せていなかった、ということが1%くらいある。長文入力だとストレスを感じるのに十分な確率だ。ソフトウェア面でいうとGoogle日本語入力がパソコン並みの使い勝手の良さだが、MacやiOSとも同期しやすく使い勝手や信頼性の良いテキストエディタがないのも難点だ。
iPhoneにBluetoothキーボードを繋ぐこともある。約210gの折りたたみキーボードだけで済み、アップル製品中心の筆者の仕事環境との相性も抜群だ。しかしiOSの日本語入力は入力精度や操作性の面でパソコンやAndroidスマホに劣る。また、発表会の会場など人が極端に密集する環境だと、Bluetooth接続が不安定になりがちなのも難点だ。
10.5インチiPad ProにSmart Keyboardをつなぐこともある。しかし合計重量は約690gとなり、約920gのMacBookとの差は大きくない。MacBookはキーボードもソフトウェアもテキスト入力には不満を感じる点がないので、この重量差ならMacBookを持ち歩くか、となってしまう。
結局のところ、インタビューなど信頼性が必要な取材には、やや重たいが欠点のないMacBookを持ち歩き、発表会などそこまでテキストメモが重要ではない取材では使い勝手がやや悪くてもGemini PDAを持ち歩くことが多い。重量か使い勝手のどちらかを犠牲にしないといけないのがやや歯がゆいが、これは仕方ない、と思っていた。
しかし、そもそも取材先でメモを取るためにキーボードを叩く必要があるのか、という考え方も出てきた。話している内容のメモを取るだけなら、自動音声認識で代用できるのではないだろうか。
筆者は海外取材では英語音声をテキスト化してくれる「Otter」というアプリを使っている。これの精度が非常に高く、マイクや環境次第かも知れないが、ほぼ誤認識なくテキスト化できる。音声とテキストデータはクラウドに保存され、パソコンのブラウザやスマホのアプリ上では、どの部分をしゃべっているかをハイライトしつつ音声を再生されるので、読み返し・聞き返しの使い勝手も非常に良い。
これと同じようなことを日本語音声でもできれば、取材時にキーボードをたたく手間を省けるし、キーボード端末を持ち歩く必要もなくなる。筆者は手書き程度の速度でフリック入力できるので、常に右手でデジカメを構えつつ左手のスマホでメモを取る、という取材スタイルも可能になる。これは大きなメリットだ。
とは思うのだが、日本語音声の自動認識アプリに良いものが見つからない。Googleの音声認識エンジンを使う「JV2T」、国産AmiVoiceベースの「UDトーク」、ベータテスト中の「Zoi Meet」などのアプリを試してみたが、どれも仕事で使うには精度的に物足りない。
筆者が試した日本語音声認識エンジンだと、「音声認識を意識せずに普通に喋られた言葉」を「普通のボイスレコーダーで録音」したような音声は、実用レベルの精度ではテキスト化できないようだ。確かに難易度が高い条件ではあるが、同じような条件でも英語音声なら「Otter」で実用精度が出せるので、なんとかならないのか、とも思ってしまう。
しかし音声認識エンジンは日々、進化を続けているので、徐々に認識精度は上がっていくだろう。あとはノイズの少ない集音も重要なので、こちらもスマホの内蔵マイクなどではなく、外部マイクなども活用していく必要もある。右手にデジカメ、左手にスマホの取材スタイルは、筆者からするとかなり大きなメリットがあるので、コストや手間がかかっても実現したいスタイルだ。そのためにも、いろいろなアプリやサービス、マイクを模索していきたい。