英語のPodcastが聞き取れないので、英語音声書き起こしサービスを利用して書き起こし→日本語訳する

2019年7月11日

タイトルの通りなのですが、TOEICがたったの785点しかないので英語のPodcastが十分に聞き取れません。

ここで思ったのが

  1. Podcastの音声を、自動音声書き起こしサービスに投げる
  2. 出力されたテキストを英和翻訳
  3. 日本語訳の完成

にすればいいんじゃない?と。最難関は自動音声書き起こしですが、それさえクリアできれば道は見える。日本語の音声書き起こしは前チャレンジして断念したのですが、英語やったらいけるやろ!と思いました。

試験対象のPodcast

On the latest All About 365 podcast – do you need to backup Office 365? | All About Office 365

です。Office 365 というマイクロソフト社のクラウドサービスをバックアップすべきかどうか、という内容です。技術的な話。音声は45分間、イギリス英語。

英語の音声書き起こしサービス

英語でぐぐってみたところ、以下のサービスが引っかかりました。

その他、いろいろな英語書き起こしサービスが紹介されているサイトもありました。

ひとまず、最初の書いた2サイトで試してみたいと思います。

Speech to Text Demo

IBMのWatsonを利用したサービスです。というかデモサイト?音声ファイルをサイトにアップロードすると再生が始まり、リアルタイムで翻訳される。なので、音声ファイルと同じだけの時間はかかる。特徴としては話者が2人以上いた場合に、どちらがしゃべっているかを判別して書き起こしてくれること。今回のPodcastは話者が2人でしたが、ちゃんと書き分けてくれました。

欠点は、技術的な用語を意図通りに書き起こししてくれなかったこと。Office 365を英語で発音すると、Office three six fiveなのですが、これがそのまま書き起こされる。まぁこれは仕方ないですね。一応、9つまで用語を定義し、事前学習させることが出来るのですが、今回のPodcastについては効果が薄かったです。

また、10分程度音声を読み込ませたところで通信が不安定になり、翻訳が止まってしまうことがありました。これもデモサイトなので仕方ないですかね…。5分程度に区切ればうまくいきました。音声区切りのためにOnline MP3 Cutter – 曲のカットと着信音の作成というサイトを使いました。今は何でもオンラインで出来るので便利。

Automatically Transcribe Your MP3 Audio to Text Online Vocalmatic

海外でかなりお勧めされていたサイト。ファイルをアップロードするとサービス側でテキスト書き起こしをして、終わったらメールで結果を知らせてくれる。どういう仕組みかは分かりませんが、音声ファイルの実時間よりも早いし、書き起こしも正確。Office 365 という音声も、しっかり"Office 365″と書き起こされている。裏で人間ががんばってるのか…?

早い!めちゃくちゃ性能いい!…のですが。料金が高い。無料で使えるのは30分だけで、その後は30分9$(1,000円)から。こりゃ仕事で使うもので、趣味には高すぎます。

動画サービスの音声書き起こし

さて、英語の音声書き起こしサービスを探してて思ったのがそもそもyoutubeとかMicrosoft Streamで音声書き起こしできるんじゃね?ということに気づきました。これらは動画サービスなのでmp3は利用できませんが、動画編集ソフトで静止画+音声を編集し、mp4など作ればOKです。

youtube

言わずと知れたyoutube。15分以上の動画をアップロードするのにSMS認証が必要なのでそれを済ませてアップロード。しばらくすると自動翻訳された字幕がつきます。翻訳精度はなかなか…なのですが、いかんせん出力形式がstrという音声字幕形式なので、文の途中で改行が入る形式となります。

改行を消すとこのザマ。

Google翻訳にぶん投げればある程度解析してくれるのですが、ぱっと見は見づらい…です。

Microsoft Stream

Offic 365 を利用している人なら、Microsoft Streamというのが使えます。これも最近、自動字幕作成機能が有効になったので、youtubeと同じように使えます。…まぁyoutubeに比べた時のメリットはSMS認証が不要なことくらいでしょうか。youtubeと同じく字幕テキスト形式で出るし、youtubeに比べて翻訳精度がいい、という事はありませんでした。

まとめ

こんな感じかな、と。

ツールソース音声認識AI話者区別出力形式価格その他制約
Speech to Text〇音声IBM〇対応〇txt形式(話者単位)〇無料5分程度に区切って処理
Vocalmatic〇音声独自×非対応△txt形式(時系列単位)×有料(30分1000円)
youtube×動画Google×非対応△str形式〇無料
Microsoft Stream×動画Microsoft×非対応△vtt形式×有料(月額500円程度)

Speech to Text最強な気がしました。特に今回、複数話者のpodcastだったので、話者区別機能が非常に使えました。

ちなみに"Office three six five"と話者が発声した時の書き起こし結果はこちら。Office three six fiveは"Office 365″という固有製品なので、Office 365と書き起こしてほしい。

ツールOffice three six five
Speech to TextOffice three six five
VocalmaticOffice 365
youtubeOffice 365
Microsoft StreamOffice three six five

Microsoft Streamさん、自社製品なんだから頑張ってください。