欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

如何用声音来操控IE浏览器及语音识别引擎的使用

程序员文章站 2023-12-06 13:48:10
如何用声音来操控IE浏览器及语音识别引擎的使用...

  最近做字幕的时候发现一个通过声音控制ie浏览器的方法。本来是要制作字幕的,后来想想如果纯手工制作字幕的话那么效率肯定非常低,做为程序员,本能的想到了让计算机来帮忙。做字幕就是从声音识别出文字,然后在校对时间轴。很机械化的操作,非常适合计算机的来做。通过搜索很快找到了解决方案。使用microsoft speech sdk+python+pythonwin。虽然微软的语音识别引擎已经很强大了,但是要用它来制作字幕还有很长的路要走。字幕做不成了,不过用它来操控浏览器还是错错有余的。发现使用语音功能操作ie浏览器还是非常方便,只要设置好语句,ie浏览器就可以自动进行相关的操作。

  下面是我已经实现的一些功能。(=>符号前面是你要说的话,后面是浏览器执行的操作)

  “显示浏览器”=>打开浏览器,“谷歌”=>进入谷歌的页面,“百度”=>进入百度的页面,“优酷”=>进入优酷的页面等等,“后退”=>返回上一个页面,“最大化”=>最大化浏览器,“下拉”=>下拉网页,“上拉”=>上拉网页,“放大”=>放大网页,“缩小”=>缩小网页,“关闭浏览器”=>关闭浏览器。

  搭建测试环境

  1.从微软官网下载speechsdk51.exe和speechsdk51langpack.exe

如何用声音来操控IE浏览器及语音识别引擎的使用

  2.下载python2.6+pythonwin+wxpython和启动语音识别的脚本文件。从这里打包下载。

  3.安装speechsdk51.exe,speechsdk51langpack.exe

  4.安装python2.6,pythonwin,wxpython

  5.运行开始菜单->所有程序->python2.6— >pythonwin,选择tools -> com makepy utility -> microsoft speech object library 5.0

  6.在控制面板的语音里面,在语言里选microsoft simplified chinese recognizer,在语音选择里选microsoft simplified chinese

如何用声音来操控IE浏览器及语音识别引擎的使用
如何用声音来操控IE浏览器及语音识别引擎的使用

  环境搭建完成,运行speechgui.py脚本就可以来用声音操控浏览器。不过由于python+pythonwin的强大威力,不单单只有ie浏览器可以进行该操作,只要软件能够支持com的应用就都可以显示语音操控,比如微软的windows media player,word,excel等软件。强烈建议大家自己手动去发掘和制作更多有意思的功能。

相关标签: 声音 浏览器