トップWindows標準音声認識の正しい実力評価テスト(2)

Windows標準音声認識の正しい実力評価テスト(2)

前回、Windows標準音声認識で変換テストを2回行った際、使えないほどひどくはなかったですが、誤認識が何箇所か発生していました。

今回、Windows標準音声認識は、素晴らしい性能の音声認識であるということと、性能が悪いと評価されていた音声辞書は、実は性能は悪くないということを証明するため、誤認識ゼロにトライしてみることにしました。

その実験の経過を、細かくレビューしていきたいと思います。

前回誤認識された部分と今回の対応

【1回目】
①全文書き起こし → 全文化き起こし
②シェアする   → し合する
③記事は     → 知事は
④編集      → 研修
⑤カタチ     → 形
⑥そこをあえて  → 粗鋼あえて
⑦話       → 話し

【2回目】
①シェアする   → 視野する
②カタチ     → 形
③そこをあえて残し → 粗鋼相手の腰
④話       → 話し

【今回の対応】
・1回目だけ誤認識した①、③、④、⑥については、よりクリアな読み方をするようにして対応します。

・2回とも誤認識した「シェア」については、音声辞書登録をしておきます。

・誤認識といえない⑤については、むしろ通常は「形」で変換されるべきなので、「カタチ」が「形」と変換されるのは良しとして、今回は特に対策はしません。

・最後の⑦については、「話」と変換されても「話し」となっても間違いではないのですが、今回は「話」を優先させるべく辞書登録したいと思います。

 ②、⑦     → 音声辞書登録
 ①、③、④、⑥ → 読み上げ方で対応する
 

 

音声認識テストの結果

課題文:
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする
新感覚メディアです。

ログミーの魅力は、何といっても「全文書き起こし」です。
通常、メディアなどに掲載される記事は「編集」というカタチで、
必要に応じて内容の一部をカットすることがあります。

ログミーではそこをあえて残し、「ありのまま」を見せることで、
話の内容はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

認識結果:
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする
新感覚メディアです。

ログミーの魅力は、なんといっても「全文書き起こし」です。
通常、メディアなどに掲載される記事は「編集」という形で、
必要に応じて内部の一部をカットすることがあります。

ログミーでは粗鋼相手の腰、「ありのまま」を見せることで、
話の内容はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

問題点:
①「編集」について、
左かぎ → 編集 →右かぎ と読み上げ、編集を単独で読み上げると、メモ帳の編集コマンドがクリックされて、プルダウンメニューが開いてしまう。

編集時動作

「編集する」というような読み上げだと、誤認識とはならず OKなのですが・・。
「編集」だけで辞書登録してしまうと、今度はメモ帳の「編集」コマンドが反応しなくなるので、これは止めることにしました。

結局、「編集」と単独では入力せず、一旦「編集する」と入力してから「する」を「バックスペース」「バックスペース」とし、2文字戻して対応しました。

②「そこをあえて残し」については、
読み上げ方を注意しても「粗鋼相手の腰」となって誤認識されてしまう。

ここは、「そこを」と「残し」は誤認識されないため、誤認識の原因となる「あえて」を音声辞書登録することにしました。

その結果、
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーではそこをあえて残し、「ありのまま」を見せることで、
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
というように、正しく変換することができました。

まとめ

以上の結果を反映させた3回目のテスト結果は、誤認識ゼロのパーフェクトな結果となりました。

このように「ものは使いよう」とのことで、Windows標準音声認識も多少のコツはありますが、マイクのセッティングさえ間違っていなければ、十分、文字起こしソフトとして活用することができるということです。

3回目の認識結果:
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする
新感覚メディアです。

ログミーの魅力は、なんといっても「全文書き起こし」です。
通常、メディアなどに掲載される記事は「編集」という形で、
必要に応じて内部の一部をカットすることがあります。

ログミーではそこをあえて残し、「ありのまま」を見せることで、
話の内容はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

■関連の記事
 ・Windows標準の音声認識ソフトの正しい実力評価について
 ・Windows8.1音声認識の始め方と実力評価
 ・Windows10音声認識の始め方と実力評価


a:1786 t:2 y:0