トップ音声認識でPCのいくつのプログラムを操作できるか

音声認識でPCのいくつのプログラムを操作できるか

Windows音声認識は音声で文字入力できるだけではなく、OSのWindowsや他のプログラムを操作できるということがわかっていたので、今回はどんなプログラムが操作できるのかを、実験をしてみました。

今まで、「メモ帳」を使って音声でテキスト入力することや、Windows Live メールの操作ができることを投稿してきましたが、今回はそれにとどまらずにもっと多くのプログラムを同じように操作できるかトライしてみました。

今回トライしたプログラム

トライしてみたプログラムは次の通りです。

エクスプローラー」を開く
エクセル」を開く
パワーポイント」を開く
Google Chrome」を開く
ライン」を開く
skype(スカイプ)」を開く
ワードパッド」を開く
    ・
    ・
    ・
全て、うまく操作することができました。
プログラムを「開く」、「テキスト入力」、「保存」、「閉じる」などの全てを。

Windows Live メールの「送信」コマンドなどは、相手のアドレスと件名を入力し、メール本文の入力が終わったところで、「送信」とマイクに向かって言うと、すぐに送信が実行されます。

このように各プログラムのコマンド操作をするやり方はいくつかありそうですが、直接そのプログラムのコマンドを声で指示するのは、うまくいったりいかなかったりしていて、もっと試行錯誤が必要な状況です。

その原因は、音声で操作する場合の命令の正しい与え方がわからないからです。コマンドマニュアルには、一つ一つのプログラム操作方法としては載っていませんので。

一番オーソドックスでお薦めなやり方は、次の「番号を表示」と指示してから必要な部分の番号を指定する方法になります。

このやり方は、プログラム毎に違っているのではなくて、全てのプログラムで同じやり方で指示・操作をしていくことができます。
 

 

共通したプログラムの操作方法

例えば、
「メモ帳」と「Google Chrome」、そして「エクセル」の3つのソフトが立ち上がっていて、3つのウィンドウが開いているときに、「Google Chrome」でお気に入りのサイトを開きたい場合。

1)「プログラム名」に切り替え

として、まずそのプログラムのウィンドウをアクティブにします。
その操作しようとしたプログラムがアクティブになっていない場合、この操作が必要になります。すでにアクティブになっているときは、この操作は必要ありません。

例:「Google Chrome」をアクティブにする場合は、「Google Chromeに切り替え」といいます。

2)「番号を表示」という
「その他のブックマーク」を音声で開くため、まずはボタン操作のための番号表示をさせます。

すると「Google Chrome」の操作用の全てのボタンに個別の番号が表示されるため、次にその番号を指定します。

番号を表示

3)操作するコマンドの番号を確認し、その番号をいいます。
番号を言ったなら、番号のボタンが水色から黄緑色に替わり、そのボタンの番号表示が「OK」表示に替わります。

番号を指定

4)OK表示を確認後、「OK」という。
するとその操作するボタンがクリックされたと同じように実行されます。
ここでは「その他のブックマーク」のプルダウンメニューが開きます。

その他のブックマークが開く

全てが同じように「番号を表示」と指令し、「番号」が表示されたの操作するボタンの番号を言い、そのボタンが青から黄緑色となり「OK」と表示されたなら、「OK」と言って実行させます。

黄緑色に替わって「OK」と表示される前に、「OK」と言った場合は、受け付けないときもあります。若干のタイムラグが必要なようです。

以上、全て同じようなやり方で、それぞれのプログラムを、そしてOSそのものを音声認識で正しく操作できることが確認できました。

若干、プログラムによって音声で操作する場合のクセがありますが、それについては、さらに実験して結果をレポートしたいと思います。

例:操作にクセのあるエクセル

メモ帳はすぐにテキスト入力していけるのですが、エクセルは音声入力するとすぐに変換されずに、いくつかの変換候補が表示されます。そしてその中から選んで入力する文を確定させていくというやり方になります。

少し面倒なやり方なので、現在はあらかじめメモ帳にすべてのデータを入れてから、エクセルにコピー・貼り付けをしています。


a:909 t:1 y:0