トップテレビ音声を音声認識で文字化する

テレビ音声を音声認識で文字化する

前回に続き今回は、ICレコーダーのMICジャックとテレビのイヤホンジャックをステレオコードで接続して録音し、それを再生しながら音声認識して文字化する実験を行ってみました。

前回は、テレビ音声をICレコーダーでそのまま録音し、音声認識で文字起こししてみたのですが、結果はうまくいかなかったので、今回はコードで接続して電気信号で録音してみたわけです。

テレビにはいろんな番組がありますが、いくつかピックアップして録音し、音声認識をトライしてみました。

テレビからICレコーダーへ録音

実験結果1:ドラマ

ドラマなどで、話している声がはっきりしていても、バックグラウンドにいろんな音が入っていたり、音楽がかかっているようなものは、録音がうまくできても音声認識ではうまくいきませんでした。

ほとんどが、意味不明な文章に変換されることが多く、現時点では正しく文字化ができませんでした。

【結果例】
1アヘンアヘンを今日の頭文字が温泉の人たちが減ません
あとは以上の医師が減アヘン

 

実験結果2:NHKニュース

音がごちゃ混ぜになっていたり、大勢の人間が同時に話すようなものは避けて、雑音が少なくてクリアな話し方をするNHKニュースをターゲットに設定し、ICレコーダーで録音してみました。

そしてそれをマイクの前で再生しながら音声認識を行ってみると、うまく変換する部分と、ほとんどがうまくいかない部分が組み合わさった結果となりました。

うまく変換されなかったところは、ICレコーダーの録音開始音が入ったり、アナウンサーの声がストップしたときにバックのノイズがおおきくなってくる傾向があり(レコーダーの特性?)、そのような部分では変換がうまくいきませんでした。

音声を直接ICレコーダーで録音しての認識結果は5点に対して、コードで接続して電気的に録音した今回は、40点という結果。少しは改善されたのですが、実用化はまだまだというところ。

自分で発声して録音し、それを再生して音声認識するやり方だと90点までいくのです‥。

【比較的うまく変換できた部分】
TV音声:4倍以上の10000人に増やす計画です。
        ↓
変換結果:あと倍以上の10000人に増やす計画です。

【ほとんどがうまく変換できなかった部分】
TV音声:NECはセキュリティ関連の技術系部署の備えを強化する動きが広がっています。
        ↓
変換結果:っしぇっアヘンアヘンを強化する動きが広がりません。
 

a:2216 t:2 y:2