トップ音声認識の変換精度について考える

音声認識の変換精度について考える

使っている音声認識の変換精度に満足していますか?

音声認識

今回は、音声認識における変換精度(誤変換の頻度)について、その原因と対策について、少しだけ考察してみました。

毎日のように、多くの記事を書いているものとしては、音声認識の変換精度が大きく作業時間に影響してきます。できるだけ誤変換が少ないようにセッティングできるならば、作業も効率良く進み、記事作成もリズム良くスムーズに進めることができるので。

誤変換の原因となる要素としては、大きく分けて4つあると考えています。

音声認識ソフトの性能の高低    (ソフト)
マイクの性能の高低        (ハード)
読み上げる発音、アクセントの優劣 (人=自分)
同音異義語の変換(同じ読みで意味の異なる語。例:再開/再会)

 

注意を払った部分

それぞれにおいて、良い条件のものを採用するべきなのですが・・

①は定評/実績のあるものを採用する。(私はWindows7音声認識/AmivoiceSPⅡ)
②も  〃  のあるものを採用する。(私はロジクールワイヤレスヘッドセット

この②の項目ですが、ときどき英会話ソフトに附属品でついてきた、低コストのヘッドホンマイクもときたま使用しています。ですが、特に誤変換が多くなるという感触はありません。

超低コストのもぐりのものはともかく、1000~2000円くらいのもので名のあるメーカーのものなら、大きな問題はないと思っています。それよりは次の③の方が、はるかに影響が大きいです。

③は、はきはきとクリア―で歯切れの良い読み方をする。(アナウンサー式)

また、読み上げる際の区切り方ですが、
・「意味のある塊り毎」に読み上げるようにするのが良い

というのが、長い間使っているものとしての感想です。

また、同じような調子で平板な読み上げ方ではなくて、上げ下げをつけてイントネーションを少し強調したくらいでの読み上げ方の方が、変換精度は良くなるような気がします。

④の同音異義語での変換ミスは、日本語の場合、ある程度出てしまうのはどうしても避けられません。

前回の記事でも書いたように、その頻度が高いならば、あえて読み方を変えて音声辞書に登録するようにしています。頻度が低い場合は、誤変換になったときに修正をするということで対応しています。

どちらにするかは、使う頻度や誤変換の回数で判断するようにしています。

■関連の記事:
 ・誤変換を減らすためのテスト(読み上げ長さ)
 ・音声で誤認識のない記号入力の方法 

◆トップへ戻る
a:1540 t:1 y:0