トップCDデータを音声認識でテキスト化

CDデータを音声認識でテキスト化

かねてより1度やってみようと思っていたCD→英文/日本文へのテキスト化を、いきなり元旦早々からトライしてみました。

海外へ長く行っていたことがきっかけで、英会話を生涯学習として取り組んでおり、以前購入した英語の学習本付属のCDから、音声認識を使って日本文と英文を、それぞれテキスト化するというテストをしてみたいと思っていたからでした。


テスト条件

1.使った音声データは次の通り。(mp3サンプルです)


2.使った音声認識ソフトは次の通り。
①日本文: windows7音声認識
②英文 : ONLINE DICTATION

3.変換テストのやり方
変換テストのやり方としては、CDの音声データをmp3データに変換し、そのデータをsonyのICレコーダーへコピーします。

次に、音声認識のときに使っている低コストヘッドホンマイクをデスクの上に置いて、音声認識の開始をクリックします。(もちろんマイクは上に向けて置きます)。

マイク

そしてその近くにICレコーダーをもっていき、スピーカーをマイクに向けてから再生し、ソフトに音声認識をさせる・・というようにしました。

音声データは日本語訳と英語が交互に吹き込まれているので、最初は日本語と英語データを分割しようかと思ったのですが、少し面倒なので、次のようにして実験を行いました。

日本語を音声認識をさせたいときは、その再生のときだけマイクの前にICレコーダーを持っていき、英語の再生のときはICレコーダーをマイクから離れた場所へ移動させて、音がマイクに入らないようにしました。

そして、英語の音声認識をさせるときはその反対の動作となり、英語の再生のときだけマイクの前にICレコーダーを持っていくようにしました。

テスト結果

結果から先に言うと、
・英文は100%正しく変換された。
・日本文は肉声を加工しているためか、正しく変換できず。(0%)

という結果でした。

ONLINE DICTATION」の変換精度は、発声する人がきれいな話し方をするネイティブの場合は、100%の精度で正しく変換するという、素晴らしい結果でした。

以前の記事にも書きましたが、このようなすごい性能・精度なので、自身の英文発音の良し悪しをチェックしたり、矯正するための練習ソフトとしても十分に活用できることを、改めて証明することができました。

 

ONLINE DICTATIONによる英文変換結果

・100%の認識結果。
・実際は文ごとに改行は入っていません。
・見易くするため改行を追加しています。

英文の結果1 英文の結果

変換結果:
He has long legs
mrs. Davis has blue eyes
she has two cats
my company has seven branches in Taiwan


Windows7音声認識による日本文変換結果

・まったくダメ。意味不明の結果。
・左側の部分が変換結果。
・右側の部分は実際の音声の内容(あとで追記)。
・見易くするため、1文ごとに改行しています。

変換結果:

日本文の結果1

アインファーマシー幅を (彼は脚が長い)
きいたままX      (He has long legs)

日精人が不本意    (デービス夫人の目は青い)
PSしかしpowerす   (mrs. Davis has blue eyes)

には2本の資金や経営  (彼女は猫を2匹飼っている)
診断7を利かす     (she has two cats

橋の貨幣単位は2した88(私の会社は台湾に支店が7つある)
Y昨年覇者の集積化論  (my company has seven branches in Taiwan)
 

 ⑤mp3からWindows7音声認識で直接文字変換
 

a:3865 t:5 y:3