“能看会听”的百度作业帮到底怎么做到的?

过去的一年,在线教育的火爆程度不一般,但K12在线教育如何与学生现实教育相结合始终是个难题。其中一个关键在于传统教育以“纸笔”为主的输出模式,与在线教育的输入方式很难对接,造成跨终端的“语义鸿沟”。

但是技术的发展总是要给人惊喜,就在百度作业帮进入2015年后推出新版两连发后,人们惊讶的发现在其主页的最显著位置上,“拍照搜题”和“读题提问”被赫然列于之上,百度作业帮也成为首家推出“语音答疑”的在线教育应用软件。这一技术上的进步,以及百度作业帮功能重心的转移,能否改变当前在线教育与现实教育体验之间的语义鸿沟?

zuoyebang

打开百度作业帮最新的4.1版本后,首先映入眼帘的便是机器识别答疑的入口“拍题”,这其中又分列了“拍照搜题”和“读题提问”这两个选项。百度作业帮的两大亮点功能,让此前略显冰冷的在线教育过程,变成了“热腾腾”的人机互动场面。

只要点击页面中部的“拍照搜题”,再将手机摄像头对准题目拍照,很快便能够得到系统的响应,包含详细过程的正确答案跃然屏幕之上。不过值得注意的是,其实在作业帮早期版本中也一直存在“作业君”提供“机器识别自动答疑”服务,现在将其从幕后推向前台,一是产品策略上发生改变,二也表明了百度图像识别技术的更加成熟。

更让人新奇的另一个功能“读题提问”,如果在测试中对百度作业帮问道“一加一等于几?”对方会第一时间便准确识别出了问题,并给出了包括脑筋急转弯、甚至扯到哥德巴赫猜想的数个答案;而当“调戏”作业帮问道“兔子有几只脚?”的时候,除了常规答案4只之外,什么要问兔子妈妈之类的“逗比”答案也层出不穷。准确的基础上兼具人性化,百度作业帮的语音识别技术颇为不一般。

当然,在一些深度、难点题型的测试中,百度作业帮无论是拍照搜题还是读题提问,都表现出非常快的识别速度和较高的准确度。相比而言,一些涉及到诸多符号、综合运算或者字数较多的选择题等更适合拍照搜题,而一些简单文字描述的、概念性的问题则适合用“读题提问”,不同的题型不同应对,实用性非常强。

其实无论是拍照搜题还是语音读题提问,纵观全世界范围来看都属于技术难点。对于不少尚处于创业摸索阶段的在线教育应用来说,能够在一个领域有所建树就恨不得满世界宣传,非常不易。

但为何百度作业帮能够两全其能“看”会“听”?其中原因在哪里?有评论分析认为,百度作业帮达到如今的技术高度,主要有三点原因。

首先一点是目标明确。这点从百度CEO李彦宏的言行当中体现的最为明确,从2014年百度世界大会开始,李彦宏在不同场合反复强调了图片和语音搜索的重要性,其目标指向非常明确,就是要打破移动互联网的信息输入障碍。

第二点是掌握核心技术。在2015年的极客公园大会的对话中,李彦宏用了“A picture is a thousand word”来形容图片识别的难度,对于不少科技企业来说,语音和图片识别都是不敢触碰的领域,但是百度在人工智能上的投入却很快得到回报。

在语音识别领域,前段时间百度语音识别研究小组在美国康奈尔大学图书馆的网站arXiv.org上,发表了一篇有关语音识别研究的论文,百度首席科学家吴恩达称按照客观的衡量正确率的标准,百度的语音识别技术已经超过了谷歌和苹果的技术。尤其是在噪音环境下,百度语音识别的表现,超过了谷歌语音识别API,微软的“必应语音”技术,以及苹果。在正确率上,百度能够高出十个百分点。

在图像识别领域,从图像到语义的“语义鸿沟”是世界公认的超级技术难题,在相关报道中我们了解到,百度目前的深度学习算法构造出一个非线性层叠式的“神经元网络”,可以用类似人脑思维的方式去识别和搜索,并且随着“百度大脑”对大数据的持续学习,相关的检索和识别能力(智商)也会不断提高。这让“以图为锚”的搜索成为现实,而且截止目前为止,国内只有百度推出了成熟的拍照搜索产品,其技术优势十分明显。

百度在核心技术取得突破之后,也就为百度作业帮玩转“拍照搜题”和“读题提问”提供了坚实的技术基础,同时作业帮也成功为百度基础技术建立了消费型产品出口。

第三点是强有力的内容支撑。像百度作业帮这样的在线教育产品,内容就如同等待下锅的米,在有了技术这一“巧妇”之后,还必须得有充足的材料供应,才能够做出让用户大饱口福的“美味佳肴”。

仅1年的时间,百度作业帮就积累了高达5000万的独家题库(经过老师校验),在同行中处于领先位置。这一成绩的实现,与百度作业帮完善的UGC机制有关。借助于百度知道在UGC方面的丰富经验,作业帮在用户互助答疑这方面取得了空前的成功,市场占有率一直稳定在第一的位置上,而一年来积累的丰厚的UGC内容也为“拍照搜题”和“读题提问”带来了深厚的内容支撑,让百度深度学习技术的“巧妇”有米下锅。