Zoom会議でいろんな人の発言を音声認識させてテキスト表示させる方法で一番いいのは何か

Zoomで自分の発言に字幕をつける方法というのが話題になっていました.

Zoomに音声認識字幕窓を追加してみた

https://note.com/sanukiya_kitsune/n/n2679db32c103

いろいろ調べてみると,自分の発話を文字認識させて字幕化する方法がいくつか紹介されていました.それをみて,これは聴覚障害や音声言語の認知が難しい人にとっていいなと思いました.でもよく考えてみると,実際に音声の認識に困っている人にとっては自分の発話の字幕化よりも皆さんの発話の字幕化の方がニーズがありますよね.

オンライン授業、リアルタイムで字幕自動表示…東芝が開発

https://news.yahoo.co.jp/articles/71b219ae01be5691f6dcf28ec72027aaf6db4e2c

東芝は9日、オンライン授業の中で教員が発した声を自動で字幕として表示するシステムを開発したと発表した。音声自動認識の技術を使い、ほぼリアルタイム(同時進行)で表示でき、授業の終了後にはすべて文字データにして読み返すこともできる。「Zoom」など各種のウェブ会議サービスを使った授業で利用でき、

こういうのはいいですよね.まさにこれ.ただ,記事内では「早ければ1年後にも実用化し」とありました.もうちょっと早く出して欲しいです.っていうか,現行のシステムの組み合わせでもいろいろやってる人いそうですよね.

というわけで,Zoomの音声全体をテキスト化・字幕化する方法について調べてみました.

聴覚障害者はどうやってZoom会議をするのか

https://note.com/sabokari/n/na00c9f563361

こちらではいくつか方法が紹介されていますが,UDトークをスマホかタブレットで立ち上げて,PCに近づけることで力技で音声認識させる方法が紹介されていました.いろいろと方法があるのだと思いますが,これが一番手っ取り早いだろうなと思いす.

UDトークを使った方法としてはほかにもこういうのがありました.

ZOOMの字幕(クローズドキャプション)に送信する方法

https://teachme.jp/27228/manuals/8656888

これはZoomのアクセシビリティ機能の一つである字幕表示機能を利用した方法ですね.最初の設定が必要ですが,そこさえクリアすればZoomに字幕を表示できます.ただ,記事内にもあるようにホストでないと設定できないようです.

他にはこういうのがありました.これはよさそうです.

音声認識からWebカメラ映像への字幕合成までをGoogle Chrome だけでやってくれるWebページをつくってみました! 

上記のシステムはGoogle Chromeでないと動きませんが,Google Chromeさえあればあとはリンク先のページで機能します.すごいです.Zoomの画面サイズとGoogle Chromeのウィンドウサイズを調整して,一つの画面に2つのウィンドウを出してしまえば,Zoomの画面を見ながら,字幕を見ることが可能です.これでほぼ当初の目的は達成できます.

で,実際に試してみました.うまく行きますが,話者が切り替わった時にしばらく音声認識が開始されなかったりすることが結構ありました.これは多分プログラムの問題と言うよりは使用しているGoogleの音声認識のAPIの仕様の問題な気がします.

で,いろいろと試した結果,一番簡単である程度の精度が見込まれる「コスパの良い」方法としては

スマホ(タブレット)を別に用意し,インストールした「UDトーク」アプリでパソコンのスピーカーから出力される音を文字認識させる方法

でした.実は他にもいろんなアプリケースやプログラムやサービスを組み合わせていろいろ試したのですが,なんというかある程度の専門知識が必要ですし,結構大変な割に上記の力業の方法に比べて格段に便利かと言うとそうではないので割愛させていただきます.

2 thoughts on “Zoom会議でいろんな人の発言を音声認識させてテキスト表示させる方法で一番いいのは何か

  1. 「スピーカーから出力される音を文字認識させる」とのことですが、イヤホン端子からスマホ(タブレット)に取り込む方が出力レベルが上がり、変換精度が良くなるのではないでしょうか?

  2. 鈴木さん,コメントありがとうございます.そして鈴木さんのおっしゃる通りです.この記事は技術の理解とスキルがあり,設備を持っている人を想定していません.手持ちのツール(おそらく誰でもスマホは持っている)のみで対応する方法として書きました.技術的には記事にも書いたように出力されるまでもなくZoomの音声データをそのまま音声認識のプログラムに回すのが一番確実だと思います.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です