複数人の会話が含まれる議事録を自動で文字起こしで作りたい

最近音声入力が流行っているので、表題の対応ができるかどうか調べる&実践しました。

音声インプット

複数人の会話が含まれるミーティングの音声録音

今回の一番の目的。しかしながら、文字起こし難易度は高いと思われる。

自分のリアルタイム音声入力

自動文字起こし業界では一番難易度が低いといわれている「自分がしゃべった声」もテスト対象に含めました。

文字起こし装置

Googleドキュメント

文字起こし業界では鉄板ツールの様子。ドキュメントだけじゃなくGoogle系のツール(Keepやスプレッドシート)なら同じクオリティで音声入力できると思われる。

Microsoftディクテーション

どこかのブログの「iPhoneでGoogle keepで音声入力すると、ほぼリアルタイムでPCに文字が表示できるから書き直ししやすい」という記事について「それなら最初からWindowsの音声入力システムを使用すればいい」とコメントがついていたので今回のテスト対象に。
最新のWin10ならOSの機能で音声入力できるのですが、僕のPCは違うのでディクテーション機能を利用

Recoco(iPhoneアプリ)

より、これがうまく動けば文字起こし兼時刻も記録されるので最強ツールとなる。

結果

議事録録音データ自分のリアルタイム音声
Googleドキュメント×
Microsoftディクテーション×
Recoco(iPhoneアプリ)×

議事録録音データは3つとも全滅。例えば、10分間の議事録を聞かせた結果がこちらになります。

デッドアジェンダ通りに辛いと貧弱の確認をさせてくださいということになっています内容なので確認しようと思うについては意外に割り振るということが決まりましたので迷うところですねパソコンの話を常にできるのかというところを弊社後で電話する
エロ15時間からないですね 使ってみたかったところをちょっと入ってるところが広いところですので忘れないよねってことシステムをしてはならなかったので

10分の会話をほぼ聞き取れてないうえに、聞き取れても意味が通じていません。
一方、自分のリアルタイム音声はすべての文字起こし装置がそれなりの結果。特にGoogleドキュメントははっきりしゃべるとほぼミスなく文字起こしをしてくれました。他の2つのツールもよかったけど、ちょっとの誤検知があるかな~。

考察

普通に会議した録音内容を起こすのは無理。文字起こしを意識するなら、参加者各人に工夫してもらう必要がある。例えば…

  • 参加者のしゃべりが被らないようにする
  • 参加者全員にマイクをつける
  • 参加者全員が自分の発言を書き起こしツールで書き起こして、後でマージする

など。