界面新闻记者 |
界面新闻编辑 | 文姝琪
AI时代,输入法也可以被重做一遍。
1月27日,拥有6亿日活用户的搜狗输入法宣布全面AI化。在近日更新的20.0 AI大版本中,AI语音、AI翻译、AI打字三大模型均有升级。
打字方面,新版本在大幅扩充词库、提升用户意图和上下文理解能力的同时,还针对医生、律师等专业人群提供AI定制化服务,例如专业词快输,法律词条、用药说明快查等。而在翻译功能上,新版本可实现30多种语言输入即译,支持文本和语音两种形式。
AI语音则是本次升级的核心。基于自研的AI语音大模型,新版本实现了语音识别流畅性、整体识别准确率和方言识别准确率的提升。此外,新版本还推出了“口语转书面语”和易混音修改功能,针对语音输入中常见的“他她它”、“的地得”等易混音问题提供了候选和替换方案。
语音输入之所以被高度重视,是因为它正在变成一种主流的交互方式。腾讯搜狗输入法大模型产品面对负责人柴宝全在接受界面新闻采访时表示,搜狗输入法的AI用户规模已经破亿,日均语音使用次数已经接近20亿,且许多用户都是年轻人。
语音输入是互联网输入法诞生20年以来,最重要的一次交互革新。过去语音输入更像是一种辅助工具,对同音词、语气词、方言等语音辨别能力差,用户需要频频停下修改。但在大语言模型诞生之后,AI具备了上下文理解能力,能够主动推测用户的输入意图,覆盖日常使用甚至部分轻办公场景。
海外已经不乏成熟的语音输入产品,例如由来自新加坡的Typeless,以及硅谷创业团队打造的Wispr Flow。它们的核心功能都是语音转文字,且主要面向核心办公人群,主打高效率的生产力场景。据介绍,Wispr Flow的输入效率比手动打字快3到4倍,并且能够准确识别和自动编辑,官方称在80% 的情况下用户无需手动修改。
而在国内,一家来自武汉的创业公司也推出了类似产品:闪电说。这是一款端侧优先的AI语音输入法,能够用本地语音模型实现毫秒级识别,自动理解语义,智能过滤口语化表达,做到比键盘快 4 倍的高效输入,且由于数据保留在本地,能够在更大程度上保护隐私。
互联网大厂同样在押注语音输入。除了搜狗输入法之外,微信官方推出的微信输入法、字节跳动力推的豆包输入法,以及大模型“六小虎”之一智谱推出的智谱AI输入法,都将语音输入作为自身参与输入法竞争的核心标签。不同于走SaaS路线的Wispr Flow,互联网大厂的语音输入功能更侧重于日常交流,也更具生态及流量优势,能够借助自有生态的深度整合来提供更加友好的跨应用联动体验。
作为一种互联网基础设施,输入法正在被各大公司重新提起重视。背后的逻辑在于,它是几乎所有互联网行为的开始,通过高频的用户互动掌握大量用户意图数据,并且天生横跨所有App。正因如此,输入法也被认为是AI Agent的雏形。此前,腾讯就已经尝试将输入法和AI搜索结合起来,发现用户使用频次得到明显上升。
不过,现阶段的语音输入还没有到达最终形态。柴宝全认为,语音无疑是一种重要的输入方式,它一定会继续增长,但是不能因此忽略了打字的重要性。至少在硬件完全颠覆之前,打字仍然是非常重要的能力。用户的目的是得到一个最好的输入结果,方式可以是多变的,语音也不一定是唯一选项。
“Wispr Flow是非常OK的形态吗?不见得。它还需要更多的时间。现在很多Vibe coding(AI编程)没有键盘,但并不意味着Vibe coding就不需要键盘,可能是因为短时间内还没有好的键盘。所以,输入法的演变形态,我们才刚刚看到令人兴奋的开始,还远远没有到只拿一个麦克风就可以搞定一切的终极形态。”柴宝全说。
但语音输入无疑是值得尝试的。搜狗输入法现阶段更多是围绕“快”和“准”来进行优化,例如许多用户使用语音输入的场景是安静的环境,或者开车等腾不开手的时刻,因此在新版本中提高了轻声输入的识别准确率。
“从2011年到现在,可以看作语音输入的上半场,核心是‘所听即所得’。下半场的语音输入更应该是一种角色转化,端到端地实现用户的表达和创作诉求,这会是我们努力的方向。”柴宝全说。








