全文共字,预计学习时长10分钟
图源:unsplash
年,笔者还在剑桥大学读研究生,我的老师是SteveYoung和TonyRobinson,他们发明了世界上最好的语音识别系统。
然而,最初的几天里我就学到了,那是从DragonDictate早期版本中无法获得的。但老师们已经将其破解了。一台功能一般的计算机可以将连续的自然语音转换为文本,准确率约为95%,这项技术已经超越了所有人,除了那些训练最好的专业人员。
为什么语音识别直到最近几年才被广泛应用于日常生活中呢?这项技术更多是应用于工业。但作为日常使用的实时用户界面,例如与你的电脑对话,其速度慢得令人难以置信。
在20世纪90年代,笔者学习时读到关于逆向图灵测试的信息,其中阐述了原因之一。志愿者们认为他们是在和一台电脑对话,但实际上是由一个人在幕后输入答案。观察和随后的采访表明,在那个时候,人们只是不喜欢它。
笔者敢肯定,这是一种陌生感,在某种程度上有代际影响。我的孩子和电脑说话比和他说的多。然而,语音作为主要用户界面确实存在严重的问题:
·隐私:你希望其他人听到你的搜索词和信息吗?
·技术不成熟:它还没有完全成熟到走进一家拥挤的咖啡店说“嘿,Siri……”
·基于时间:你不能扫描完整的二进制数字
当笔者离开大学开始工作时,我从语音识别工作中学到了一些东西,这对我来说很幸运,但对于那些仍然专注于听写的演示和讨论语音识别的人来说并不明显。
语音识别不是听写
笔者从事开发可扩展的数字媒体产品。除此之外还领导了BBC在线新闻的发展。年,我决定运用语音技术来解决媒体行业的问题,但我有所预感,人们仍然不喜欢和电脑说话。
所以在一家大型软件公司的资助下,我开发了一些关于将语音识别应用于录音语音的产品。这十分简单,因为同一组的另一家公司是我剑桥老师TonyRobinson创立的SoftSound。
我对Tony的讲座很感兴趣,欣然接受了与他合作开发产品的机会。笔者成功地与世界上最好的系统竞争,但通过运用神经网络,使用了更少的内存和处理能力。从这个意义上说,我们超前了几十年,我们中的大多数人在21世纪10年代中期转向了神经网络。
笔者的团队采用了SoftSound的语音识别算法,并将其与视频、文本和图像识别相结合,为电视、电影和广播档案创建搜索引擎。我们创造了各种各样酷炫的东西,比如编辑软件、通过剪切和粘贴脚本即可编辑视频。这是一个有点超前的时代,它的畅销带来了奖项以及很多优质的媒体报道。
人总是有拖延症
图源:ft
看到人们使用语音搜索引擎其实是一种启示——人们喜欢发现错误,并以此为理由去拒绝哪怕是明显有用的创新。这与YouTube上英国人与早期版本Siri对话的视频片段类似。
电视档案制作有各种背景噪音和音乐,导致识别准确率从实验室的95%下降到大约65-70%。有趣的是,这仍然允许搜索引擎找到合适的剪辑。
问题是,如果向用户显示结果列表中包含他们搜索词的文本,他们还是会