トップ音声認識で誤認識や誤変換をなくす方法

音声認識で誤認識や誤変換をなくす方法

音声認識をより効率良く使うためには、誤認識や誤変換を減らすことが大事なポイントとなります。

まずは誤認識

誤認識と誤変換は似たような言葉で、意味するところの定義がわかりにくいですが、ここでは誤認識は入力した音声を正しく認識してくれない・・・、つまりマイクに吹き込んだ音声の「あいうえお・・・」を、正しく「あいうえお・・・」と聞き取ってくれないという状態として、説明をします。

ここのステップは一番最初の段階であり、ここでつまずいたのでは先に進めません。
音声でテキスト文を作り上げることも、Windowsのコマンドを操作することも、うまくできないでしょう。

ここで関係することは、
1)マイクは正常か/精度は大丈夫か
2)音声の入力レベルは適切か(低過ぎないか/高過ぎないか)
3)正しく正確に読み上げているか(アナウンサーのように・・)
の3つ。

ほとんどのソフトは、正常なマイクを正しく接続さえしていたら、聞き取りレベルの高低も自動調整してくれて、正しく読み取ってくれるものがほとんどだと思います。

ちなみに、わたしが使っているAmivoiceSPとWindows7音声認識のどちらも、ただマイクをMic用ジャックに接続するだけて、正常に認識してくれました。

つまり、異常がある場合は、MicやPCのハードやオーディオを処理する部分の異常を疑うべきだということになります。

その部分については、使っているPCやオーディオシステムによるので、ここでは詳細に踏み込むのは止めておきます。

次は誤変換です

いよいよ本題に入ります。

マイクに向かって音声入力し、それを音声認識して正しくテキスト変換するためには、いくつかのコツがあります。そのコツを活かして音声認識を使うことで、ずい分と誤変換の回数が減り、結果として入力時間が大幅に短縮されます。

効率の悪いやり方だと、音声で入力する時間よりも誤変換された部分を正しい文章に修正する時間の方が長くなったりします。

これでは音声認識を利用する価値がなくなってしまいますね。

この誤変換を限りなく少なくするということが、長く活用し続けることへの重要な条件になるのではないかと考えています。そのため、音声入力や音声辞書への登録のやり方に、いろいろと工夫を入れることで、誤認識をかなり減らすことができました。

ブログ等の記事の入力では、いつも95%以上の認識精度となっています。

 

日本語音声認識での弱点

ところで、日本語を音声認識するときの弱点の一つとして、同じ読み方で示す意味の異なる語句での誤認識が上げられます。

クモ」と「」、「」と「」、「担当」と「短刀」、「乗る」と「載る」など、日本語には同じ読み方なのに意味が違うという単語はたくさんあります。

中国語の場合は、「四声」といって同じ読み方であっても4つの違うイントネーションの発声方法があり、読み方だけではなくそのイントネーションとの組合せで、単語の意味が決まるようなシステムになっています。

日本語の場合は、イントネーションの部分が明確なものもありますが、全体的には結構ファジーで、読み方が少々異なっても許される半面、意味を間違ってしまうということが発生したりします。

当然、同じことが音声認識の場合にも起こります。

誤認識を回避するには‥

乗る」と言ったときに「載る」と変換されたりしますし、当然その逆のケースも発生します。

こういったことをできるだけ避けるためには、2つの方法が考えられます。

一つは、「文章単位で入力する」です。

単語レベルだと音声を聞いただけで正しい意味を絞りにくいため、前後のある文章単位で読み上げて変換するやり方です。

乗る」や「載る」ではなくて、「わたしは電車に乗る」や「雑誌に記事が載る''」というような形で入力すると、かなりのレベルで誤変換はなくなります。

もちろんアナウンサーのようにはきはきとクリアーに発声してですが。

また、もう一つの方法は、「音声辞書への登録方法を工夫する」やり方です。

例えば、ある部分で「」を入力したいことがあります。
そのため音声で「」とだけ言うと、コマンド操作と受け取ってしまい、メモ帳の場合は「ファイル」や「編集」などのコマンドに番号が表示され、どの番号を実行しますか・・と聞いてくる状態になります。

当然、「キャンセル」と言ってその状態を解除して、再度「」の入力となります。コマンドに勘違いされて、それをキャンセルする・・という、ムダが発生してしまいます。

この「」を必ず一発で入力させるため、「野原のの」と発声すると「」に変換されるように音声辞書に登録しています。「野原のの」という語句を入力することはまずありませんので、必ず1発で「」の文字が出てきます。

こういった誤変換され易い文字は、ありえない表現(語句)で辞書に登録しておき、それを発声したときは必ず対象の文字がでてくるようになります。誤変換はまったく発生しません。

入力時に少し長い音声で登録するという煩わしさはありますが、誤変換に煩わされるということはほとんどなくなります。

野原のの→()」、「かぎかっこひだり→()」、「かぎかっこみぎ→()」、「からなみ→()」、「なかてん→()」、「まるいち→()」、「にてんりーだー→()」・・など。絶対に誤変換にはなりません。

上の例はあくまでも一つの例なので、まずは自分がすぐにわかり普段はありえない文字列を決めて、登録すれば良いでしょう。

登録が少し面倒ですが、普段絶対使わないような3語以上の名前で登録しておけば、確実に正しく認識され、修正の手間が発生しません。修正が無い場合は、どんどん音声入力のペースが上がっていきます。

そして終わったときには、キーをたたいて入力する場合に比べて、1.5倍くらいの入力効率となります。何だその程度か・・と思う人もいると思いますが、まったくキーを叩かなくても良いので、腱鞘炎にさよならをすることができます。

腱鞘炎になったことがある人でないと、本当にその苦しさを知らないと思いますが・・。

・・というわけで、まずは
できるだけ文章単位に近いかたまりで音声入力するのが理想的ということ。
さらには、
誤変換され易い文字・単語は、ユニークな呼び方で辞書登録すること
が誤変換を防いでくれるということ。

当然、作業効率も大幅に向上させることができます!

■関連の記事です
 ・認識率を上げるための工夫
 ・音声認識の精度を上げる単語登録の方法
 ・音声認識精度を大きく左右するマイク
 

a:11833 t:3 y:6