音声認識ソフトの実力評価と学習能力活用
トップ > ICレコーダー|mp3音声から音声認識でテキスト変換
旅先などで記事にする文章をICレコーダーに録音しておき、あとでそれを音声認識でテキストデータにすることができれば、すごく利便性と生産性が上がります。
以前、有料で購入した AmiVoice と、無料でトライできるWindows音声認識を使い、計4つのやり方でテストを行って、まあまあの変換精度で文字化ができると確認し、終わっていました。
しかし、旅好き、渓流釣り好きの最近の事情より、いよいよ外出先でICレコーダーに活躍してもらうときが、ついに来てしまったのです。
そのため、今回、再度ICレコーダーと音声認識ソフトのコラボレーションで、記事作成の利便性と生産性向上を図ることにしたのでした。
今までトライした音声データから音声認識して文字化する方法は、4つのやり方がありました。
1)AmiVoice で音声データをダイレクトに文字変換する方法。この場合、音声データはWAV形式でした。
2)AmiVoice でマイクの前にICレコーダーを近づけて再生させて文字変換する方法
3)無料でできるWindows音声認識で、マイクの前にICレコーダーを近づけて再生させ文字変換する方法
4)同じくWindows音声認識で、ICレコーダーのイヤホンジャックとマイクジャックを、オスオスのコードで接続して、ダイレクトに音声認識させる方法。
今回まず最初にトライしてみようと思ったのは、
「Windows音声認識とICレコーダー」の組み合わせです。
以前テストをしたときに、
「あっ意外!こんなに精度よく変換できるんだ!」
と感じて、そのことが頭の中に強く残っているからでした。
しかし、前にテストで使った課題文はとても短いものだったので、今回はもう少し長い、実用的かどうかの判断ができるような長さの文章を使うことにしました。
今回のテスト結果を説明する前に、まずは前回の手応えを感じたレポートの内容を、復習しておきます。
■Windows音声認識(直接マイクに音声入力)
【課題文】
アメリカでは「部屋をシェアする(何人かで部屋を借りる)」ということを、しばしば聞きます。
【テスト結果】
マイク感度「中」で行って90~100%の変換率でした。
(少ーしだけ誤変換がありました)
※これは読み上げる側の若干のバラツキが出たような気がします。音声認識を意識しての(正しく変換されるような)区切った読み上げ方は、結構重要なポイントだと思います。
⇒上記の内容で、比較的、可能性を感じさせる結果となっていました。
以上、ICレコーダーマイク感度と音声認識率 より。
さて、今回再トライした「Windows音声認識とICレコーダー」で使った課題文です。長めの文で6行あります。これをどの程度、正しく変換できるか・・・。
【課題文】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
皆さんは、外国に旅行するとき、看板や交通標識、掲示などには注意を払っていますか。
ちょっと注意して見ると、街中にはいろいろな看板や掲示があることに気づかれるでしょう。
交通標識のように安全な生活を守るために法規を順守させるもの、危険を避けるために
設けられたもの、広告として人目を引くようにつくられたものなどなど。
こうした標識や看板でつかわれている行為や表現を使って「生活英語」に慣れ、パンチの
効いた表現を覚えていきましょう。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
マイクのセッティング
ICレコーダーとマイクのセッティングは次の写真の通りで、マイク(低コスト品)の近く(2cm)にICレコーダーのスピーカーをもってきて、手でささえただけの状況。
第1発目の結果は、とても及第点をあげられるようなレベルではありませんでした。
一応、変換はできそうだが、まだまだ多くの改善が必要・・と感じさせられるような結果でした。
【テスト結果】
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
志賀さんは、外国に旅行するとき、看板や交通標識、掲示などには注意を払っていますか。
ちょっと注意して見ると、80にはいろいろな看板や刑事があることに気付かれることでしょう。
交通標識のように安全な生活を守るために放棄を順守させるもの、危険を避けるために
設けられたもの、う広告として人目を引くようにつくられたものなどなど。
こうした標識や看板でつかわれている行為や表現を使ってぐ「ぐ生活併合」うに慣れ、
パンチの利いたアヘンを覚えていきましょう。あ
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
音声認識が正しく変換してくれるような、はきはきとメリハリの利いた読み上げ方、誤変換されにくい最適な区切り位置など、もっともっと正しい読み上げ方を研究する必要があることがわかりました。
次回は、その辺を考えて反映させた結果を報告できるようにしたいと思います。
a:1628 t:1 y:0