音声認識ソフトの実力評価と学習能力活用
トップ > Windows標準音声認識の正しい実力評価テスト(2)
前回、Windows標準音声認識で変換テストを2回行った際、使えないほどひどくはなかったですが、誤認識が何箇所か発生していました。
今回、Windows標準音声認識は、素晴らしい性能の音声認識であるということと、性能が悪いと評価されていた音声辞書は、実は性能は悪くないということを証明するため、誤認識ゼロにトライしてみることにしました。
その実験の経過を、細かくレビューしていきたいと思います。
【1回目】
①全文書き起こし → 全文化き起こし
②シェアする → し合する
③記事は → 知事は
④編集 → 研修
⑤カタチ → 形
⑥そこをあえて → 粗鋼あえて
⑦話 → 話し
【2回目】
①シェアする → 視野する
②カタチ → 形
③そこをあえて残し → 粗鋼相手の腰
④話 → 話し
【今回の対応】
・1回目だけ誤認識した①、③、④、⑥については、よりクリアな読み方をするようにして対応します。
・2回とも誤認識した「シェア」については、音声辞書登録をしておきます。
・誤認識といえない⑤については、むしろ通常は「形」で変換されるべきなので、「カタチ」が「形」と変換されるのは良しとして、今回は特に対策はしません。
・最後の⑦については、「話」と変換されても「話し」となっても間違いではないのですが、今回は「話」を優先させるべく辞書登録したいと思います。
②、⑦ → 音声辞書登録
①、③、④、⑥ → 読み上げ方で対応する
課題文:
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする
新感覚メディアです。
ログミーの魅力は、何といっても「全文書き起こし」です。
通常、メディアなどに掲載される記事は「編集」というカタチで、
必要に応じて内容の一部をカットすることがあります。
ログミーではそこをあえて残し、「ありのまま」を見せることで、
話の内容はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
認識結果:
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする
新感覚メディアです。
ログミーの魅力は、なんといっても「全文書き起こし」です。
通常、メディアなどに掲載される記事は「編集」という形で、
必要に応じて内部の一部をカットすることがあります。
ログミーでは粗鋼相手の腰、「ありのまま」を見せることで、
話の内容はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
問題点:
①「編集」について、
左かぎ → 編集 →右かぎ と読み上げ、編集を単独で読み上げると、メモ帳の編集コマンドがクリックされて、プルダウンメニューが開いてしまう。
「編集する」というような読み上げだと、誤認識とはならず OKなのですが・・。
「編集」だけで辞書登録してしまうと、今度はメモ帳の「編集」コマンドが反応しなくなるので、これは止めることにしました。
結局、「編集」と単独では入力せず、一旦「編集する」と入力してから「する」を「バックスペース」「バックスペース」とし、2文字戻して対応しました。
②「そこをあえて残し」については、
読み上げ方を注意しても「粗鋼相手の腰」となって誤認識されてしまう。
ここは、「そこを」と「残し」は誤認識されないため、誤認識の原因となる「あえて」を音声辞書登録することにしました。
その結果、
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーではそこをあえて残し、「ありのまま」を見せることで、
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
というように、正しく変換することができました。
以上の結果を反映させた3回目のテスト結果は、誤認識ゼロのパーフェクトな結果となりました。
このように「ものは使いよう」とのことで、Windows標準音声認識も多少のコツはありますが、マイクのセッティングさえ間違っていなければ、十分、文字起こしソフトとして活用することができるということです。
3回目の認識結果:
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする
新感覚メディアです。
ログミーの魅力は、なんといっても「全文書き起こし」です。
通常、メディアなどに掲載される記事は「編集」という形で、
必要に応じて内部の一部をカットすることがあります。
ログミーではそこをあえて残し、「ありのまま」を見せることで、
話の内容はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
■関連の記事
・Windows標準の音声認識ソフトの正しい実力評価について
・Windows8.1音声認識の始め方と実力評価
・Windows10音声認識の始め方と実力評価
a:2181 t:1 y:7