Teamsの会議画面に発言内容の文字起こしをオーバーレイさせる方法

2020年7月1日

要件

Teams会議でこれをやりたい。

#xdiversity @xdiversity_org #stayhometokyo #音声文字変換 pic.twitter.com/VNKQcZONsR
— 落合陽一 (@ochyai) May 13, 2020

しゃべった内容、リアルタイムで字幕化して映像に合成　ビデオ会議が便利になるシステムに注目集まる – ねとらぼ

その理由は、複数人が参加している会議で発言がかぶった時、また誰がしゃべってるか分からない時に、 俺がしゃべってるぞ！ って会議参加者に伝える用途。なので、落合さんや他の方のようなややこしい構成はいらないです。

自分がしゃべった内容だけが画面に出ればいい
- 自分の顔は出ても出なくてもいい
オーバーレイなど半透明な処理は不要
ただし、画面共有機能は使いたくない
- 画面共有機能は、会議に参加している1人しか表示できないため

実装後のイメージ

こんな感じで複数人参加している会議で、しゃべってる人の画面に字幕が表示される。これなら、誰が話しているかわかりますね。

やってみた感想・メリット

誰がしゃべってるかわかる

当初の目的通りですが「実装後のイメージ」の通り、しゃべってる人の音声が文字起こしされて流れるので「この人がしゃべってる」ってのはわかりやすいです。

発言被りは防げない

音声認識→文字起こしまでタイムラグがあるので、2人が同時にしゃべりだすのを防ぐ事はできません。

MTG中に中抜けする時の連絡に便利

意外と便利だったのがこれ。実際やると分かりますが、Teams会議はミュートで参加しつつ音声認識→文字起こしができるので、Teams会議に音声を流さず、オーバーレイで文字を表示させる事が出来る。

例えば「ちょっと別の電話かかってきたので抜けます」と伝えたい場合(こういうの、チャットに書いても気づかないですよね)、このシステムで音声入力すると、画面にだけ文字を表示する事が出来る。

これ、挙手機能の強化版にも使えると思っていて「賛成ですか～？」という教師の質問に対して、賛成・反対をOBSを通して表示する事で、全員の意見が1画面で分かる。クイズ番組で回答者がフリップを表示するイメージ?

退屈なWeb会議がクイズ番組に変身、新サービス「Connected Flip」 | マイナビニュース

会議の議事録取りに最適

UDトークやSpeech to Text Webcam Overlayなど、文字起こしと同時にログや発言日時を記録してくれるWebサービスを使った場合、ログ・発言日時をマージする事で議事録の作成が可能となる。

コロナ以前は1つの物理会議室に集合していたので、文字起こしソフトを使ったとしても発言者の聞き分けが出来ず、文字お越しによる議事録作成は非現実的でしたが、1人が1つの端末で会議に参加するなら、チャレンジできそう。

個別に文字起こしされるので、全員がこの仕組みでオーバーレイする必要がありますが。

やりかた

用意するもの

パソコンとソフトウェア1つだけ。スマホとかは不要。

必須ソフトウェア：OBS

PC内で仮想カメラとして動作し、好きなウィンドウ画面をカメラ映像として扱えるソフトウェアです。構成は後で説明するので、ひとまず何も考えずに入れてください。本体とVirtualCamの2つが必要です。

リアルタイム文字起こし用ツール：Googleドキュメント

音声を読み取って文字起こししてくれるものなら何でもいいですが、今回はシンプルにオンライン版Googleドキュメントを使います。使い方は以下を参照

OBS(仮想カメラ)とは?

仮想カメラについて

通常、Teams会議ではPCについている物理カメラだけを"カメラ"として扱えます。仮に物理カメラが2つある端末の場合(例えば、Surfaceシリーズならインカメラ・アウトカメラがある)、2つのカメラを選択可能です。

OBSをインストールして起動すると、OBS自身を第3のカメラ(物理カメラが1つしかない端末なら第2のカメラ)として扱う事が出来ます。

カメラデバイスとして認識されるので、Teamsからもそれを選択する事が出来ますね。

OBSで映す対象を選択する

ではOBSで何を映すのか?はい、なんでも映せます。Teamsのデスクトップ共有のイメージのように、起動しているウィンドウを指定する事が出来ます。例えば、Googleドキュメントを開いているChromeを指定できます。

後はこの状態でOBSをカメラとして指定して会議に参加すればOKです。簡単。

応用編：自分 + 音声入力画面の表示

OBSでは複数の画面をまとめて1つのカメラに表示する機能があります。これを使ってGoogleドキュメントを開いている側のchromeと物理カメラを同時に表示してウィンドウ位置調整すれば、自分の映像 + 文字起こしの映像を表示する事が出来ます。

Googleドキュメントの代わりの文字起こし

ここまでやった人なら実感すると思いますが、Googleドキュメントは余白が多くて文字が小さく、リアルタイム映像として出力するには調整が必要です。

なので、ねとラボの記事でもあったSpeech to Text Webcam Overlayや、Microsoft TeamsとUDトーク、OBSを使った字幕付きTeams会議 – Qiitaで紹介されているようなUDトーク、あるいは以下のような手法が有効です。

PC＋Android＋無料のツールだけで自動音声認識による字幕付き配信（ウェブ会議）をおこなう方法を紹介してみました。広く普及して常識になって欲しい（すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを希望）。 #xdiversity pic.twitter.com/yhuT5HISxW
— Yoshiki NAGATANI (@nagataniyoshiki) May 18, 2020

スマホの音声入力ソフトをPCに画面として映し出す方がUI的な問題で綺麗にはなりますね。ただ、冒頭にも言いましたがそこまでかっちょいいものは大変なので、ひとまずPCだけでやるのが手軽でしょう。

注意点

Webサービスに音声を読み込ませ、文字起こしをする = 利用するサービスに自分が話した内容を読み取られている、ということです。業務上、社外秘のデータなどがあるかと思いますので、そのサービスが信頼できるかを確認して、利用するようにしましょう。

Teamsを利用している人なら、オンライン版のWordも利用可能でしょうし、ひとまずこちらでやるのが安心だと思います。

コメント一覧

まだ、コメントがありません

要件