英語のPodcastが聞き取れないので、英語音声書き起こしサービスを利用して書き起こし→日本語訳する
タイトルの通りなのですが、TOEICがたったの785点しかないので英語のPodcastが十分に聞き取れません。
ここで思ったのが
- Podcastの音声を、自動音声書き起こしサービスに投げる
- 出力されたテキストを英和翻訳
- 日本語訳の完成
にすればいいんじゃない?と。最難関は自動音声書き起こしですが、それさえクリアできれば道は見える。日本語の音声書き起こしは前チャレンジして断念したのですが、英語やったらいけるやろ!と思いました。
Contents
試験対象のPodcast
On the latest All About 365 podcast – do you need to backup Office 365? | All About Office 365
です。Office 365 というマイクロソフト社のクラウドサービスをバックアップすべきかどうか、という内容です。技術的な話。音声は45分間、イギリス英語。
英語の音声書き起こしサービス
英語でぐぐってみたところ、以下のサービスが引っかかりました。
その他、いろいろな英語書き起こしサービスが紹介されているサイトもありました。
ひとまず、最初の書いた2サイトで試してみたいと思います。
Speech to Text Demo
IBMのWatsonを利用したサービスです。というかデモサイト?音声ファイルをサイトにアップロードすると再生が始まり、リアルタイムで翻訳される。なので、音声ファイルと同じだけの時間はかかる。特徴としては話者が2人以上いた場合に、どちらがしゃべっているかを判別して書き起こしてくれること。今回のPodcastは話者が2人でしたが、ちゃんと書き分けてくれました。
欠点は、技術的な用語を意図通りに書き起こししてくれなかったこと。Office 365を英語で発音すると、Office three six fiveなのですが、これがそのまま書き起こされる。まぁこれは仕方ないですね。一応、9つまで用語を定義し、事前学習させることが出来るのですが、今回のPodcastについては効果が薄かったです。
また、10分程度音声を読み込ませたところで通信が不安定になり、翻訳が止まってしまうことがありました。これもデモサイトなので仕方ないですかね…。5分程度に区切ればうまくいきました。音声区切りのためにOnline MP3 Cutter – 曲のカットと着信音の作成というサイトを使いました。今は何でもオンラインで出来るので便利。
Automatically Transcribe Your MP3 Audio to Text Online Vocalmatic
海外でかなりお勧めされていたサイト。ファイルをアップロードするとサービス側でテキスト書き起こしをして、終わったらメールで結果を知らせてくれる。どういう仕組みかは分かりませんが、音声ファイルの実時間よりも早いし、書き起こしも正確。Office 365 という音声も、しっかり"Office 365″と書き起こされている。裏で人間ががんばってるのか…?
早い!めちゃくちゃ性能いい!…のですが。料金が高い。無料で使えるのは30分だけで、その後は30分9$(1,000円)から。こりゃ仕事で使うもので、趣味には高すぎます。
動画サービスの音声書き起こし
さて、英語の音声書き起こしサービスを探してて思ったのがそもそもyoutubeとかMicrosoft Streamで音声書き起こしできるんじゃね?ということに気づきました。これらは動画サービスなのでmp3は利用できませんが、動画編集ソフトで静止画+音声を編集し、mp4など作ればOKです。
youtube
言わずと知れたyoutube。15分以上の動画をアップロードするのにSMS認証が必要なのでそれを済ませてアップロード。しばらくすると自動翻訳された字幕がつきます。翻訳精度はなかなか…なのですが、いかんせん出力形式がstrという音声字幕形式なので、文の途中で改行が入る形式となります。
改行を消すとこのザマ。
Google翻訳にぶん投げればある程度解析してくれるのですが、ぱっと見は見づらい…です。
Microsoft Stream
Offic 365 を利用している人なら、Microsoft Streamというのが使えます。これも最近、自動字幕作成機能が有効になったので、youtubeと同じように使えます。…まぁyoutubeに比べた時のメリットはSMS認証が不要なことくらいでしょうか。youtubeと同じく字幕テキスト形式で出るし、youtubeに比べて翻訳精度がいい、という事はありませんでした。
まとめ
こんな感じかな、と。
ツール | ソース | 音声認識AI | 話者区別 | 出力形式 | 価格 | その他制約 |
---|---|---|---|---|---|---|
Speech to Text | 〇音声 | IBM | 〇対応 | 〇txt形式(話者単位) | 〇無料 | 5分程度に区切って処理 |
Vocalmatic | 〇音声 | 独自 | ×非対応 | △txt形式(時系列単位) | ×有料(30分1000円) | – |
youtube | ×動画 | ×非対応 | △str形式 | 〇無料 | – | |
Microsoft Stream | ×動画 | Microsoft | ×非対応 | △vtt形式 | ×有料(月額500円程度) | – |
Speech to Text最強な気がしました。特に今回、複数話者のpodcastだったので、話者区別機能が非常に使えました。
ちなみに"Office three six five"と話者が発声した時の書き起こし結果はこちら。Office three six fiveは"Office 365″という固有製品なので、Office 365と書き起こしてほしい。
ツール | Office three six five |
---|---|
Speech to Text | Office three six five |
Vocalmatic | Office 365 |
youtube | Office 365 |
Microsoft Stream | Office three six five |
Microsoft Streamさん、自社製品なんだから頑張ってください。
ディスカッション
コメント一覧
まだ、コメントがありません