Google ドキュメントの音声入力がスゴいらしい
先日、Googleドキュメントの音声入力機能を活用して、インタビュー記事を爆速で作成するというブログ記事を拝見しました。
オンラインのビデオチャットで先方にインタビューをしつつ、その音声をリアルタイムでテキストに変換し、インタビューが終わった時点ですでに素起こしが終わっているという、なかなかエクストリームな内容でした。
【インタビュー記事・動画の爆速作成術】Googleドキュメント音声入力×Zoomの底力がヤバイ
https://azami-seisaku.com/works/20180109
このブログの記事を読んで、さてはて Google 音声入力の実力とは本当のところはどうなのよ?と気になって、今回、自分でも試してみました。
残念ながら私自身は他の人にインタビューするという機会はないので、今回は Youtube にアップロードされているニュース動画を素材として使わせていただきました。
今回使わせていただいた動画はこちら。
ラスベガスで家電・IT見本市 日本のAIロボット登場(18/01/10)
大まかなやり方としては、
- iPad でニュース動画を再生する
- パソコン(今回は Mac)の内蔵マイクでニュース動画の音を拾う
- Google ドキュメントの音声入力機能でテキストに変換する
という流れで検証を行ってみました。
我ながら、とても「泥臭い」やり方です。
デジタルなんだかアナログなんだかよく分からない非常に「原始的」な手順ですね。
「iPad と Mac を音声ケーブルで繋ぐ」などもう少しスマートなやり方もあったのでしょうが、手元に音声ケーブルがなかったもので、仕方なく「やっつけ」で検証に取り掛かりました。
動画の音声を Google 音声入力で文字起こししてみよう
では、各々の手順を細かくご紹介します。
1.iPad でニュース動画を再生する
別に iPad でなくても構いません。お手元のスマートフォンやタブレット、ボイスレコーダーなど、文字起こしをしたい素材が再生できる機材だったらなんでも良いと思います。
なお、後述しますが、再生速度を遅くする機能(0.75倍速再生など)が付いている機材やアプリがあった方が後々作業がはかどります。
2.パソコンの内蔵マイクでニュース動画の音を拾う
これもお手元のパソコンで大丈夫です。
できるだけ内蔵マイクのそばで音声を再生するのがコツです。
ちなみに Mac の内蔵マイクは、ヘッドフォンジャックのすぐ脇にあります。
3.Google ドキュメントの音声入力機能でテキストに変換する
ここは少し細かくご紹介します。
【注意】
2018年1月時点では、Google ドキュメントの音声入力機能は Google Chrome でしか使えないようです。
他のブラウザ(SafariとFirefox)で試してみましたが、音声入力機能が使用できませんでした。
Google Chrome をインストールしていないが音声入力機能を試してみたい方は、Google Chrome のインストールが必要になります。
まずは Google ドキュメントで新規作成し、[ツール]-[音声入力]を選択します。
「マイク」のアイコンが表示されます。
この「マイク」のアイコンをクリックして赤色に変化したら、マイクがオンの状態になり、音声入力を受け付けている状態になります。
この状態で、文字起こしをしたい素材を再生すれば、テキストへの変換が始まります。
ちなみに、数秒間、無音の状態が続くと、音声入力機能が一旦停止してしまいますので、その場合は、再度マイクアイコンをクリックして音声入力機能を再開しましょう。
文字起こしの結果はかなり良好
では、今回、実際に Google 音声入力が文字起こししたテキストを確認してみましょう。前述した Youtube 動画を再生しながら確認していただくと、どのくらいの精度かがお分かりになると思います。なお、文字起こしした状態から一切手を付けていません。
アメリカラスベガスで世界最大級の家電 it 日本一雪が開幕して日本が得意とする最先端のロボットなどが公開されました日本時間の午前3時に開幕した説では AI 人工知能を搭載したロボットが相次いで登場しましたボトルこちらのロボットは泣いたり笑ったり僕と眠くなりますホンダは人混みなどで歩行者を誘導するロボットを初公開しました5人は12年ぶりに復活した犬型ロボット AIBO などで出力を見れしますまたヤマハ発動機は時速100キロ以上で走行できるバイクロボット健康関連機器のオムロンは世界初の卓球ロボットなどで来場者の注目を集めています
いかがでしょうか? かなり頑張っているなぁ、という印象ではないでしょうか?
確かにたまに取りこぼしがあったり、「見本市」を「日本一」、「CES」(セス)を「雪」や「説」(セツ?)、「ソニー」を「5人」と誤変換しているところもありますが、個人的には80%くらいの精度かな、という印象を受けました。
今回、検証サンプルとして「ニュース動画」という比較的音声入力と相性の良い素材を使いましたが、それでも素起こしの段階でこれだけの精度を実現してしまうのはむしろ驚きです。
ただし、これは Google 音声入力の仕様なのですが、改行や句読点が一切入りません。「日本語」という観点ではまだまだかな、という印象ですが、どの道、人間の手で誤字や脱字、取りこぼし部分を修正する必要がありますので、その時に一緒に改行や句読点も補正すればいいのかな、とも思います。
むしろ余計なところに勝手に改行や句読点を入れられてしまうと、それはそれでイラっとストレスになりそうなので、個人的には「句読点なし」の方がありがたいような気がします。
ちょっとした工夫でさらに精度がアップ!
ちょっとした誤字や脱字は致し方ないのかな、と思いますが、時々ごっそりと取りこぼしをすることがあります。
使っているパソコンの性能やネット回線の速度などに依存する部分なのかもしれませんが、この「取りこぼし」の部分はなんとかしたいものです。
そこで思い付いたのが「再生速度を少しだけゆっくりにしてみる」ということです。今回の場合は、対象の Youtube 動画を「0.75倍速」で再生して、再度検証してみました。
以下が、「0.75倍速」再生の音源を、Google 音声入力でテキストに変換したものです。
アメリカラスベガスで世界最大級の家電 it 日本一雪が開幕し日本が得意とする最先端のロボットの名は公開されました日本時間の午前3時に開幕した説では AI 人工知能を搭載したロボットが相次いで登場しましたロボットロボットロボットは泣いたり笑ったり僕と眠くなりますホンダは人混みなどで歩行者を誘導するロボットを初公開しました本人は12年ぶりに復活した犬型ロボット AIBO などで出力を許しますまたヤマハ発動機は時速100 km 以上で走行できるバイクロボットを展示しており健康関連機器のオムロンは世界初の卓球ロボットなどで来場者の注目を集めています
いかがでしょうか?
先ほどと比べて誤変換の部分はあまり変わっていませんが、明らかな「取りこぼし」はなくなっていることがお分かりになると思います。これなら仕事など実務でも使えるだけの精度と言ってもいいのではないでしょうか?
人工知能時代のこれからの「仕事」とは
今回の検証を行ってまず最初に感心したは、Google音声入力の精度の高さです。
ですが、同時に感じたのは「これは文字起こしの仕事がなくなるなぁ」という一種の危機感です。
「文字起こし」は、日本語が聞けて理解して書ければ誰でもできる仕事です(>決して”楽な仕事”ではないと思いますが)。
ですが、コンピュータではこういう言語処理というのは大変不得手な分野ですので、しばらくは人間でしかできない仕事だろう、と私は思っていました。
ところが、この2〜3年、特に人工知能分野に「ディープラーニング」(深層学習)が取り入れられるようになってから、音声認識と言語処理の分野の進化は目覚ましく、いつの間にかこんな高い精度まで実現するようになってしまいました。
なので、これからは人間はより付加価値の高い仕事をするか、圧倒的に「非合理的」「非生産的」(人工知能が苦手そうな分野)な新しい仕事(>それは「仕事」と呼べるようなものではないかもしれませんが)を生み出すしかないのかもしれません。
[amazonjs asin=”B01FTH2N94″ locale=”JP” title=”話すだけで書ける究極の文章法 人工知能が助けてくれる”]
[amazonjs asin=”B0751566BJ” locale=”JP” title=”仕事消滅 AIの時代を生き抜くために、いま私たちにできること (講談社+α新書)”]