トップ > 英文テキストを音声合成保存‥

英文テキストを音声合成保存、再生して音声認識

前回は英文テキストからの音声合成による読み上げが、かなり良い感じでできることを確認しました。そこで今回は、その英文の音声合成ファイルを保存し、更にその音声ファイルから音声認識を行って、再度英文テキストに変換するというテストをしてみました。

使用機材

①音声合成 :バラボルカ(Balabolka)
 変換プラットホーム  :Microsoft Anna [英語(米国)]
 オーディオファイル保存:バラボルカ(wav形式でした)
②データ変換:Quintessential(wav→mp3)
③音声再生 :sony ICレコーダー
④音声認識 :Online speech recognition(英文なので)

手順:

1)バラボルカでテキストファイル(今回はテスト用英文)を開く。
  (コピペでもドラッグ&ドロップでも直接入力でもOKです)
Balabolka画面

2)「ファイル」タブをクリック
3)「オーディオファイルを保存」
オーディオファイルを保存

4)変換開始 → 約3秒で完了 → 指定フォルダに○○.wavファイルができる。

5)Quintessential Player を立ち上げて、○○.wavファイルをmp3形式に変換。
Quintessentialで変換

6)変換したmp3ファイルをsony ICレコーダーへ書き込み(USB接続で)
mp3をコピー

7)Online speech recognition のサイトを開く
Online speech recognition

8)「Start」ボタンをクリック
9)mp3ファイルを再生開始
Quintessentialで変換

10)音声を英文テキストに変換 → 終了

結構、回りくどいやり方をしていますが、それぞれうまく変換できることがわかれば、それを簡単にしたり自動化することは得意なので、まずは音声の合成と認識の精度が問題です。

 

音声合成ファイル保存と認識テスト結果

100点満点とはいきませんが、大いに可能性のある結果でした。文と文のつなぎ目の「ククッ!」と早く発音される部分はまだ問題ありますが、全体としてはそれなりに変換されている結果です。

あえて点数をつけるとなると、70点くらいかなと思っています。
いろいろと改善していけば、さらに出来栄えよくできそうな感触でした。

■課題文:
How can I make good money like you do?
I feel very comfortable when I stay on the beach.
He has been outgoing since he was little.
We need to clean this room because it is very dusty.
When people are drunk, they speak the truth.
Next time we eat out, It's on me.
Unless you want to go, you don't have to.
Even though It was raining, I went out.
As far as I remember, It's on Main Street.
Even if it's expencive, I'll buy it.
Can you set the table while I'm cooking.
I'll do the dishes after I watch this.
I have something to tell you before I forget.
My future will be hopeless if things don't change.

■変換結果:
Don't make good money why do
I feel very comfortable when I stay on the beach
he has an outgoing since he was little
we need to clean this room because
when people are drunk they speak the truth
next time we eat out
unless you want to go you don't have to
even though it was raining I went out
as far as I remembered it's on Main Street
even if it's expensive
can you set the table while I'm cooking
I have something to tell you before I forget
my future will be hopeless

前:テキストから音声合成、その音声から音声認識<  >次:日本語テキストで音声合成の実験
 

a:2701 t:1 y:0