音声認識ソフトの実力評価と学習能力活用
トップ > mp3からWindows7音声認識で直接文字変換
今日はmp3の音声ファイルからの文字変換で、とても素晴らしい発見をしました!
それは何かと言うと、ICレコーダーで吹き込んだmp3音声ファイルを使って、Windows7音声認識でうまく文字変換をすることができたのです。
それもICレコーダーからダイレクトにテキスト変換することができたのです!
以前からmp3音声ファイルから音声認識ソフトを使ってテキスト変換をさせるテストを行っていました。
そしてmp3音声ファイルよりダイレクトに文字変換できたのは、AmiVoiceだけでした。しかも、mp3を一旦、Quintessential PlayerでWAVファイルに変換してからの文字変換でした。
これでは音声ファイルからダイレクトに文字変換できるといっても、前段に音声ファイルの変換が必要だったので、ダイレクトに・・とは言えない状態でした。
一方で、Windows7音声認識はというと、mp3音声ファイルを読み込んで、直接音声認識する機能はありませんでした。
従って、ICレコーダーをMICの近くにもっていって音声を再生し、音声認識をさせて文字変換をさせるという方法をとっていました。
いかに認識精度の良いWindows7音声認識を使いたいからといって、ダイレクト変換ではないこのやり方は、決して満足できる方法ではなかったのです。
そこであれこれと考え、もっと良いやり方はないものかと探していました。
そして今朝、パソコンで同時に2つのソフトを走らせて、同時に音声認識させることはできないかと考え、ネットで検索して情報を探していたのです。
そのときは思いつかなかったのですが、別の部屋に行ってコーヒーを飲んでリラックスしていたときに、ふと頭の中に浮かんだのでした。
そのアイデアが。まるで、頭の中でスポットライトが「ピカッ!」と光ったような気がしました。
「ICレコーダーのイヤホーン出力を、直接パソコンのMICに接続したらどうなるだろう・・と。」
幸いステレオ入出力を接続するオス~オスのコードは持っていたので、すぐに実験です!
速攻で実験を行ってみました。その様子が次の写真です。
少しコツはあるのですが、最初はわからなかったので、スタート時のよけいな音が別の文字に変換されて入ったりしたのですが、結局は、うまく文字変換することができました!
次のテストの際の変換状況を見てください。
最初は録音時のMICの位置が近すぎたり、再生のときのよけいな音が入ってそれが別の文字になったりしていますが、だんだん要領がわかってきて正しく文字変換できるようになっています。
まだまだパーフェクトなやり方ではなくて改善の余地はあるのですが、一応問題なく活用できるレベルとはなっています。
手順をもうすこし細かく説明します。
■手順:
①ICレコーダーに変換したい内容を録音
【コツ】
・sonyのICレコーダーは感度が良いので、少し離れた位置で声を落として吹き込みました)
・ICレコーダーを再生したときすぐに、開始音が「ピッ!」と入ったりするようなので、録音始めてから2~3秒は空白を録音
②ICレコーダーのマイクロホンジャックとPCのMICジャックを、オス~オスのコードを刺して接続
③ICレコーダーの再生を開始
④Windows7音声認識をスタート
【コツ】
・開始音「ピッ!」が入らないよう、1~1.5秒置いてからスタートさせます。
⑤変換開始
⑥音声ファイルが再生終了
⑦Windows7音声認識をストップ
変換の手順は、以上のようになります。
使ったsonyのICレコーダーの写真です。
(ICレコーダー詳細は ICレコーダーから文字化実験 のページを参照ください)
最初の変換テストで録音した課題文です。
■変換課題文:
あけましておめでとうございます。
今年もどうぞよろしくお願いいたします。
続いて変換結果です。何度も変換結果を見ながら、テストを繰り返しています。
最初の頃はよけいな文字がいろいろ入っていますが、あとになるに連れてだんだん正確に変換するようになっています。
■変換実験の途中結果
POPう
中部あけましておめでとうございます
今年の漆こないだします物販る資源あけましておめでとうございます
今年の漆こないだします物販る
中年あけましておめでとうございます。
今年もブドウよろしくお願いいたしますバック
禁煙あけましておめでとうございます。
ことしまうだろう増よろしくお願いいたします POPうううう
信念あけましておめでとうございます
今年もどうぞよろしくお願いいたします。
く
新年あけましておめでとうございます
今年もどうぞよろしくお願いいたします。
PAC
変換テストを繰り返しているときに、もう一つ気がついたことがあります。
それは、オスオスコードでICレコーダーとパソコンのMICを接続した状態で録音を開始すると、同時にWindows7音声認識が認識を開始するということです。
ICレコーダーで録音するときにWindows7音声認識もスタートさせておけば、同時に音声認識がされるということです。
つまりICレコーダーに録音しているときに、同時にイヤホンジャックからはその音声が出力されているということなのです。
知っている人にとっては当然のことなのでしょうが、自分にとっては始めての内容だったので、少し驚いたのでした。
(あまり役に立たない情報かも知れませんが)
次のテキストは、音声を録音させているときに、同時に音声認識させた結果です。
==ここから==(同時音声認識)
最初に録音を始めます。
次に音声認識のうスタートします。
続いてそのまま 6う 6人を 6う開始していきます。
を吹き込むのを終了したらどちらも終了後単語を押して録音を完了します。
この時点で売、6売う同時にそれを音声認識が終了します。
次は再生をしながら音声認識を行ってみます。
開始う
==ここまで==
次に、録音した音声ファイルで音声認識させ文字変換すると、次のようになりました。
==ここから==(音声ファイルを音声認識)
最初に録音を始めます。
次に音声認識のうスタートします。
続いてそのまま 6う 6銀う 6う開始していきます。
を吹き込むのを終了したらどちらを終了後単語を押して録音を完了します。
この時点での、6分党同時にそれを音声認識が終了します。
次は再生をしながら音声認識を行ってみます。
開始う
==ここまで==
上の「6う 6人を 6う」の部分は、「録音」と言っているのですがうまく変換してくれないので、3回繰り返してから次を読みあげています。
そこで、「録音」を音声辞書に登録してから、再度同じファイルを変換してみました。
==ここから==(音声ファイルを音声認識2回目)
最初に録音を始めます。
次に音声認識のうスタートします。
続いてそのまま録音ぐ録音顔録音を開始していきます。
を吹き込むのを終了したらどちらを終了後単語を押して録音を完了します。
この時点での、録音とを同時にそれを音声認識が終了します。
次は再生をしながら音声認識を行ってみます。
開始う
==ここまで==
「録音」を辞書登録したことが、結果に反映されるようになりました。
まだまだテスト1回目ですが、これでICレコーダーを使って記事原稿を吹き込み、そのmp3音声ファイルをWindows7音声認識でダイレクトに文字変換できることがわかりました。
今後はもっと精度上げるために、いろいろと条件を振ってテストを続けてみる予定です。
また何か、新しい結果が得られたら、別途レポートしたいと思います。
a:59342 t:1 y:1