トップWindows標準の音声認識ソフトの正しい実力評価について

Windows標準音声認識ソフトの正しい実力評価について

先週ネットで音声認識関係の記事を調査していたら、自分が使っているのと同じ音声認識ソフトを使って文字起こしテストを行い、その結果と評価が書かれているブログを見つけました。

2017年03月01日に書かれた記事で見逃していたようですが、その書かれている結果と評価は、私の評価とまったく違った内容になっていました。

windows 音声認識

以下は、そのブログに書かれていた結果と内容です。

1:Windows標準の音声認識

音声ファイルの文字化には対応していないので、読み上げるかたちで挑みます。

【課題文】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人にシェアする新感覚
メディアです。

ログミーの魅力は、何といっても「全文書き起こし」です。通常、メディア
などに掲載される記事は「編集」というカタチで、必要に応じて内容の一部
をカットすることがあります。

ログミーではそこをあえて残し、「ありのまま」を見せることで、話の内容
はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

まずは普通に話す速度で試してみたところ、上がってきたテキストがこちら。

【ブログに書かれていたテスト結果】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
462党はスピーチや海岸セミナーなどの大温泉文化局広く化することで価値ある
コンテンツをより多くの人に知らせる新感覚メディアです 622魅力は何と言っ
ても、文化局CS通常メディアなどに掲載される記事は編集という形で必要に応
じて内容の一部をカットすることがあります 6mは底を相手の腰ありのままを
見せることで話しの内容はもちろんその場の雰囲気や事実を伝えています
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

ひどい。これでは文章が新感覚すぎるので、少し丁寧に読み上げてみました。

【ブログの2回目のテスト結果】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
の組とはスピーチや対談セミナーなどの内容を、文化き起こし録画することで
活気あるコンテンツをより多くの人に知らせる新感覚メディアです 62の魅力
は何と言っても、文化き起こしです通常メディアなどに掲載される記事は編集
という形で必要に応じて内容の一部をカットすることがありますを組では歩行
あえて残しありのままを見せることで話しの内容はもちろんその場の雰囲気や
事実を伝えています
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

だいぶ良くなった気がします。
精度に関しては、一般的な用語を用いた文章であれば、なんとかなりそうな
レベルです。

ただし、
ログミーの記事は専門的な内容や口語ならではの表現も多いため、実用可能
  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
かというと難しそうですね。
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

【メリット】
Windowsユーザーであればたぶん誰でも利用可能だと思う。

【デメリット】
Macユーザーが使えない
あまり長々と喋ると動作を停止することも(PCのスペックによるかも)

辞書機能があるが、「ログミー」という単語を登録してから読み上げてみても
  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
効果がなかった(滑舌か?)
 ̄ ̄ ̄ ̄ ̄ ̄ ̄
ーー(記事はここまで)ーーーーーーーーーーーーーーーーーーーーーーーーー
 

 

同じWindows標準の音声認識で再評価

上の2つの評価①と②ですが、私の評価はまったく違っています。
①実用可能
②単語登録は簡単で、再現性にまったく問題無し

その証明は、次の通りです。
自分のWindows機の同じ音声認識ソフトで、同じ課題文をテストしてみました。
どうぞその結果を確認し、比較してみてください。

注)
②で良くないと評価されていた辞書機能で、あらかじめ「ログミー」を登録しておいてから、テストを実施しています。

【1回目】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文化き起こし、
ログ化することで、価値あるコンテンツをより多くの人にし合する新感覚
メディアです。

ログミーの魅力は、何といっても「前文書き起こし」です。通常、メディア
などに掲載される知事は「研修」という形で、必要に応じて内容の一部
をカットすることがあります。

ログミーでは粗鋼あえて残し、「ありのまま」を見せることで、話しの内容
はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

2回目は、誤変換がいくつか出たためハキハキとした読み方に変えて、「全文化き起こし」の部分は正しく変換されるよう、わずかに区切って読み上げました。

【2回目】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、
ログ化することで、価値あるコンテンツをより多くの人に視野する新感覚
メディアです。

ログミーの魅力は、なんといっても「全文書き起こし」です。通常、メディア
などに掲載される記事は「編集」という形で、必要に応じて内容の一部
をカットすることがあります。

ログミーでは粗鋼相手の腰、「ありのまま」を見せることで、話しの内容を
はもちろん、その場の雰囲気や事実を伝えています。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

「シェア」の部分は誤変換されて「視野」となり、さらに「そこをあえて残し」の部分が「粗鋼相手の腰」となっていますが、ここは読み上げ方が悪いからと思っています。

つまり、読み上げるときの区切り方や間の取り方で誤変換はほとんどなくなります。
あとは「シェア」のように音声辞書を活用すれば、すぐに解決することができることは間違いありません。

いつでもいくつかの誤変換はあり得ますが、適切な読み方と辞書登録によって、変換精度は95%くらいまでは上がっていきますし、今回の課題だけに限るなら、短時間で誤変換ゼロの結果を出すことができます。従って、実用性にはまったく問題無いと考えています。

あまりにも残念な評価だったので、Windows音声認識ソフトを作った方に対して申し訳ないということと、間違った評価を信じてソフトを使わない人が出るということはとても残念なことなので、あえてダブルでテストをして、違う結果を見えるようにしてみたのでした。

ブログの評価結果は、もしかしたらマイクの性能が合っていなかったため、良くない結果になったものなのかも知れません・・。


a:1591 t:1 y:0