音声認識ソフトの実力評価と学習能力活用
トップ > ICレコーダーからテキスト変換
以前、ICレコーダーを使い、1対1で録音した音声データを音声認識し、テキスト文章に変換させるというテストを行いました。そのときの変換精度は75%くらいで、うーん、もう一つかなという結果でした。
それでそれ以後は、あまり録音した音声データからテキスト文章化することに取り組んでいませんでした。
しかし、ここ最近音声認識技術が少しずつクローズアップされてきていることもあり、もう一度条件を変えていろいろと評価し直してみようと考えました。
今回は複数の人が参加している会議の音声をICレコーダーに録音し、自動議事録作成への一助とすることができるのかをトライしてみました。
また以前テストしたときよりずい分時間が経過しているので、再確認のため、1対1での録音音声データの変換テストを繰り返し実施してみました。
今回はその操作手順を含め細かくまとめましたので、参考に読んでみてください。
音声認識ソフトはかなり使い易く高機能になってきていますが、会議などのような複数人が話す会話をスムーズに文字化することができるのでしょうか?
録音音声から音声認識を行い、自動で議事録原案を作成させるようなことができるのでしょうか?
もしもできるのなら、すごく便利でいろいろな場所で活用ができるのですが・・・。
AmiVoiceSP の書き起こし機能を使って、自動文字変換についていろいろとテストをしてみました。AmiVoiceSP は書起しエディターの「音声ファイルを認識」という項目から、録音音声の書き起こしを行います。
その結果では、
1)複数人のランダムな会議中の会話
(一人ずつではなく複数人が同時に話したりもする音声データ)
では、まったく変換がうまくいかず誤変換だらけ。
2)遠くでボソボソの会話は、音声認識ができず。
ということで、普通の会議を特に何も準備せず、テーブルの真ん中にマイクを置いて録音した音声データでは、まったく使えるものにはなりませんでした。
できるだけノイズを除去するような設定をしたり、比較的音質の良いものでテストしてみたりもしたが、ほとんど効果がありませんでした。
やはりこの音声認識ソフトは、基本的には一人用のもので、複数の人が同時対話するような用途には、対応していないということですね。
改善案:
なんとかして正しく音声認識させて、少しでも誤変換を減らそうとするならば、会議に出席している各個々人の前に専用のマイクを設置し、できるだけ同時に話さずに、順に話してもらうよう司会者がリードするならば、かなり変換精度を向上させることができると考えられます。
以前の実験したときからずい分日が経つので、確認のため再度変換テストをしてみました。
録音する人とマイクが1対1の場合は、使用するICレコーダーとそのセッティング、さらに読み上げるそのやり方によって、かなり認識精度を上げることができます。
・認識精度は音質にかなり左右される
・録音時のマイクの位置やレベルなども重要
★VOR機能はOFFに
音が小さくなると録音が自動的に止まり、ある程度以上の音を検知
すると録音を再開するVOR機能は、OFFにしておく方が良いで
す。(祭開示、最初の部分が少しだけ抜けてしまうので)
テストした際の変換精度は、80%程度となりました。(文字数で)
あと少しという気もしますが、1対1でマイクに向かって読み上げ、録音音声を音声認識で変換するやり方は、すでに現時点でも実用化レベルになってきていると思います。
今回行った再テストの詳細は、次の通りです。
1)電源ON
左サイドのスライドスイッチ(1)を下に1回押し下げる
2)録音ボタン(2)を押す
録音が開始される
3)停止ボタン(3)を押す
録音が停止される
4)ICレコーダーのUSBコネクタ部を出す
写真の(4)のレバーを下にスライドさせる
5)パソコンのUSBに差し込む
6)USBメモリとして認識される
エクスプローラーのフォルダを見て、認識されたことを確認
7)フォルダの中のファイルを指定のフォルダへ移動
sony IC レコーダー では、FOLDER01というフォルダに140521_001.MP3というファイル名で録音されています。
8)ファイルはmp3データなので、wavファイルに変換する
140521_001.MP3から140521 001.wavに変換されました。
音声認識による文字変換する準備ができましたので、いよいよ変換を行います。
9)AmiVoiceSPを立ち上げます。
10)メニューの上にカーソルを置いて右クリック
プルダウンメニューから「音声ファイルを認識」をクリック
11)音声ファイルを指定します
変換が開始されます。
いつも英語関係のブログやホームページの記事を書くことが多いので、その関係の文章をサンプルにしたものです。
■録音サンプル文章:
英会話をする上で、まず一番先に大事なのはリスニング力だと思います。
聞き取れなければ、相手の言っていることが理解できず、返答することもできません。相手を理解できないし、返答することもできないので、当然会話にならないからです。
そのため、まず先にリスニングの練習を十分することが重要であると、普通に考えてしまいがちです。
■音声認識で文字変換後の結果:
英会話をするうえで、一番先に大事なのはリスニング力だと思います。
聞き取れなければ、相手の言っていることが理解できず、検討することもできません。相手を理解できないし、検討することもできないので、当然会話にならないからです。
そのため、まず先にリスニングの練習を充分することが重要であると…不通に考えてしまいがちです。
■誤認識: 3箇所
■関連記事:
・ICレコーダー音声変換2 ・mp3からWindows7音声認識で直接文字変換
■人気ランキング:ベスト6
1位: ICレコーダーから文字化実験 4位: ICレコーダーから文章を生成
2位: 無料フリー音声認識ソフト 5位: 4つの音声認識ソフト比較
3位: 音声認識ソフト 6位: Voice Rep Pro 新ソフト
a:133310 t:2 y:1