トップ音声合成ファイルで音声認識して逆テキスト化

音声合成ファイルで音声認識して逆テキスト化

今回は日本語の音声合成実験に続いて、その音声合成したファイルから音声認識ソフトでテキストへ再変換できるかの実験レポートです。

前回、日本語テキストを音声合成して読み上げていく実験結果は、かなりいいフィーリングだったと思っています。そのときに作った音声合成ファイルを使って、逆の音声→テキスト化変換テストを行ってみました。

音声合成

実験の手順

今回行った、音声データからテキスト化実験行うまでの手順は、次の通りです。

1)音声データの保存
 テキストを音声合成してそれを音声データ(WAV)として保存します。
 ①テキストを入力
 ②ウィンドウ上部左側にある「ファイル」をクリック
 ③プルダウンメニューの中の「オーディオファイルを保存」をクリック
 ④保存先の設定画面となるので、保存先のフォルダを指定
 ⑤「保存」をクリック
 ⑥当該フォルダに音声ファイル(WAV)が保存される

2)音声データ(WAV)をmp3にデータ変換
 私は前の記事で説明したやり方(QCDプレーヤー)で、WAVデータをmp3データ
 に変換しています。

3)mp3データをsony ICレコーダーへ書き込み
 ①sony ICレコーダーをUSBポートへ差し込み、変換したmp3データファイルを
  ICレコーダーに書き込む。

4)Windows7音声認識ソフトを立ち上げる

5)MICをICレコーダーのスピーカーより3cmほど前にセット

6)音声認識をスタートさせて、ICレコーダーの再生をスタートさせる

7)音声再生とそれの音声認識が開始されます

 

音声合成データを音声認識した結果

詳しく書くまでもない、非常に残念な結果でした。
まったくダメ!

英語を音声認識するgoogleの「online dictation」は、CDデータでも音声合成されたものでも、かなりの部分を英文テキスト化してくれました。

しかし、Windows7の音声認識による日本語のテキスト化の結果は、すべて意味不明な翻訳結果となりました。

肉声はまったく問題ないのですが、何か処理を施されたような音声の場合は、どうしてもうまく認識できません。詳細を書くまでもなく、意味不明の誤変換だらけで、理解できない文章(文章と呼べないレベル)だったので、結果のテキスト記述は割愛します。

各種シチュエーションでの音声認識結果

今までいろいろなケースで音声認識テストを行ってきましたので、ここら辺で一度それら結果について整理をしてみました。

 ①肉声:日本語 → Windows7音声認識
 ②肉声:英語  → Online Dictation

 ③肉声:日本語→ICレコーダー[録音]→ICレコーダー[再生]→ Windows7 音声認識
 ④肉声:英語 →ICレコーダー[録音]→ICレコーダー[再生]→ Online Dictation

× ③TV:日本語→ICレコーダー[録音]→ICレコーダー[再生]→ Windows7音声認識
 ④TV:英語 →ICレコーダー[録音]→ICレコーダー[再生]→ Online Dictation

× ③CD  :日本語(mp3プレーヤー)[再生]→ Windows7音声認識
× ④CD  :英語 (mp3プレーヤー)[再生]→ Windows7音声認識
 ⑤CD  :英語 (mp3プレーヤー)[再生]→ Online Dictation

× ⑥音声合成:日本語(mp3プレーヤー)[再生]→ Windows7音声認識
 ⑦音声合成:英語 (mp3プレーヤー)[再生]→ Online Dictation

結果のまとめ:

Windows7音声認識は、
自分の声で行ったものは、ICレコーダーで録音したものも含めてすべてOK。しかし、それ以外のTVやCDなどのものはすべてNGでした。

一方、Online Dictationは、
自分の声だけでなく、TVやCDの音声、あるいはそれをICレコーダーに録音し再生したものなど、すべての音声を認識して変換することができました。
 

a:1458 t:3 y:0