トップmp3から音声認識ソフトで文字変換(4)

mp3から音声認識ソフトで文字変換(4)

mp3 の音声ファイルを使い、音声認識ソフトで文字変換するテストを再度行ってみました。

1回目は、
sony のICレコーダーを使って音声を録音し、それをWAVに変換してから AmiVoiceSP で文字変換するテストでした。

そして2、3回目は、
同じ sony のICレコーダーで音声を録音して、その再生した音を再生させながらマイクへ近づけて入力し、Windows7音声認識で文字変換するテストでした。

4回目となる今回は、
定番の sony のICレコーダーは使わずに、フリーソフトで無料ダウンロードして使える「超録 長時間録音機」というソフトを使ってテストをしてみました。

超録で音声を録音して mp3 の音声ファイルを作り、それを WAV変換後、AmiVoiceSP で文字変換しました。

■テスト結果

まずは結論です。

変換は問題なく、スムーズに文字を生成することができました
変換精度の方は、5箇所で誤変換が発生し、85%くらいのイメージとなりました。

これは多分に読み上げで配慮しなかったことと、AmiVoice の変換性能が影響していると思います。
もっと正しく変換されるような読み上げ方になるように注意したら、90%のレベルは超えていると思っています。

いずれにしろ、超録を使って音声を録音し、それをAmiVoiceで文字変換することは、問題なく可能・・という結果でした。

■テストの方法

今回のテストの流れをもう少しわかり易く説明します。

まず、使用したソフトは次の通りです。

0)音声の録音   :超録 パソコン長時間音声記録機(録音ファイルはmp3)
1)mp3 → wav変換:Quintessential Player
2)音声→文字変換 :AmiVoiceSP

※ノイズ等が入って不要な部分あるときは、wav編集ソフト「wavy」を使って不要な部分をカットしたり分割したりしています。

weavy

続いて変換までの手順です。

なお、音声録音機ソフトの超録は、すでにベクターなどでダウンロードして、使える状態になっているとします。

1)超録で音声を録音

超録 長時間録音機 操作画面

・丸い黒丸の「録音開始」ボタンをクリックすると録音を開始。
・四角い黒の「録音停止」ボタンをクリックすると録音を停止します。

2)保存先の音声データをQuinssentialへ

Quintessential

・出力先フォルダを確認
指定している部分が録音ボタンの下にあり、その右には「参照」ボタンがありますので、そこをクリックして「保存先」を確認します。

・音声ファイルをQuinssentialへドラッグ
エクスプローラーなどでそのフォルダを確認し、そこにある録音され たファイルを、Quinssentialへドラッグします。

3)QuinssentialでWAVへ変換

wav変換

・mp3をWAVへ変換
Quinssentialのドラッグしたファイルの上にカーソルを持って行き、右クリックしてサブメニューを開きます。

・「変換」→「選択項目を変換」→「WAV」
とクリックすると、mp3 の音声ファイルが WAVファイル に変換されます。

4)AmiVoiceSPで文字変換する

・音声認識による文字変換する準備ができましたので、いよいよ変換を行います。

AmiVoise result

①AmiVoiceSPを立ち上げます。
②操作パネルの上にカーソルを置いて右クリック
③操作パネル上にプルダウンメニューが開くので、「音声ファイルを認識」をクリックする。
④音声ファイルを指定する画面が出るので、先ほどの音声ファイル(WAV)を指定します。
⑤ファイルを指定すると同時にAmiVoiceエディターが開いて変換が開始され、あっという間に変換が終了します。

 

■変換した結果

いつも英語関係のブログやホームページの記事を書くことが多いので、その関係の文章をサンプルにしたものです。

■録音サンプル文章:

英会話をする上で、まず一番先に大事なのはリスニング力だと思います。

聞き取れなければ、相手の言っていることが理解できず、返答することもできません。

相手を理解できないし、返答することもできないので、当然会話にならないからです。

そのため、まず先にリスニングの練習を十分することが重要であると、普通に考えてしまいがちです。

■変換結果:(超録 パソコン長時間録音機使用)

閉会は種類で、まず一番先に大事なのはリスニング力だと、思います。

聞き取れなければ、相手の一手いることが理解できず、編とすることもできません。

相手を理解できないし、検討することもできないので、当然会話にならないからです。

そのため、まず先にリスニングの練習を充分することが重要であると…普通に考えてしまいがちです。

・文字数:156文字
・誤認識:  6箇所

■以前の音声認識で文字変換後の結果:(sony ICレコーダー使用)

英会話をするうえで、一番先に大事なのはリスニング力だと、思います。

聞き取れなければ、相手の言っていることが理解できず、検討することもできません。

相手を理解できないし、検討することもできないので、当然会話にならないからです。

そのため、まず先にリスニングの練習を充分することが重要であると、不通に考えてしまいがちです。

・文字数:156文字
・誤認識:  3箇所

ということで、mp3音声ファイルから音声認識で文字変換するのは簡単にできるのですが、文字数が少ない場合だと、この程度の手間がかかってしまうなら、そのまま手入力してしまいそうです。

長い文章を変換する場合にこそ、大きな効果が出ると思います。

ICレコーダーに吹き込んだら、内部の2つのフォルダに音声ファイルと文字変換されたテキストが生成される・・というレコーダーを作れば、かなりの数を売り上げることができると思うのですが・・。

■関連の記事:
ICレコーダーから文字化実験
ICレコーダーから文章を生成
ICレコーダーからテキスト変換(その2)
 

a:3982 t:1 y:1