为1700万视障群体寻找视觉助手
数据显示,我国目前有1700多万视力障碍人士,越来越多的社会力量关注到了他们,并试图用技术和公益来改变他们的困境。
2023年1月13日下午,位于北京大钟寺的一个报告厅里,由抖音集团产品、研发工程师以及清华大学、浙江大学等高校学生组成的12支队伍正在进行决赛。5个多月前,64支队伍,501名参赛选手开启了这场“AI助力视障群体”为主题的技术公益大赛。
01.
找对一双袜子
“袜子会不会穿错?冰箱里的食物会不会过期?我们是否可以帮视障用户,摆脱这些基本的困扰,是我们做这件事情的初衷。”
来自“灵瞳”团队的产品经理在决赛舞台上阐明了团队的目标,他们希望能为视障人群带来一个全方位的视觉助手。这个助手需要是语音、识别以及互动的能力。
灵瞳产品演示资料
在大量调研之后他们发现,目前相关产品分为三类,一是AI语音助手,它能询问天气预报、语音输入协助检索互联网上的信息,但是这仅实现了对话式智能,无法满足视觉需求;第二类是视觉识别工具,例如微软专为视障开发的Seeing AI和谷歌的Look out应用,其商品识别功能能够帮助用户获取商品条码中的信息,以及阅读文档。但是无法实现与用户的交互,即,它的识别功能只会对物体进行识别,文档阅读功能只能阅读全部文字,用户无法传递自己的有效、具体需求,只能被动接收AI的识别结果;第三类则是人工求助,如 Be My Eyes 和 Aira 项目,工作人员或志愿者通过视频的方式为视障人群提供帮助,但是其人力和付费成本都比较高,很难推广。
因此,“灵瞳”团队决定设计一款“对话式视觉助手”。简单来说,这是一款应用于手机和智能眼镜的APP,初始界面类似一个相机,它可以听取和理解用户发起的提问,同时点击按钮录制物品信息,它会根据问题提取有效信息并语音回答。
为此,他们主要从两个方面来改进灵瞳的功能,一个是交互,一个是视觉。交互上,除了连续探索模式,还可以指尖探索,即用手触摸屏幕来告诉用户物品的相对应位置,还有一种是对话定位,用户可以先告诉灵瞳想要什么样的物品,比如想要寻找一个黄色的东西,你可以拿着摄像头去寻找,一旦你想要的目标出现在屏幕中,灵瞳就会提示用户的位置,在屏幕的左侧还是右侧。灵瞳还有一些辅助能力,比如找对袜子,线下买衣服,灵瞳都可以帮助你做一些辅助信息和判断。
“灵瞳”团队成员在比赛现场
此外,视障人士在使用智能设备时,可能出现隐私问题,比如视障人士在拍摄时,并不知道他拍摄的画面点有没有相关的隐私信息,比如银行卡的图片,为此,他们加入了智能信息的检测能力,检测到涉及隐私信息的图就要确保图片不会传出手机。
灵瞳团队相关负责人介绍,该创意在技术层面涉及到多模态技术,如视觉语言问答、视觉语言预训练、视觉文字描述等,这些技术近两年在学术界取得了显著进展。其它的计算机视觉技术和语音技术,包括文字检测和光学字符识别、语音识别和语音合成等技术已经成熟稳定并广泛应用。
灵瞳团队的成员,一名来自抖音集团的研发工程师表示,他最早的触动来自身边人——一位好朋友去年患上视网膜相关的疾病,接下来视力会慢慢受影响甚至完全失明。从那之后,他就开始关注相关领域的技术和研发,直至这次参加比赛。
在决赛中,灵瞳团队得分最高,获得一等奖,目前灵瞳iOS端App已经进入内测阶段。
02.
可以听见的二维码
另一款颇受关注的参赛作品是“听码”。日常工作和生活中频繁出现的扫码操作给视障人群带来极大困扰,而“听码”能够将目前的“平面图片”扫码转换为一种更为沉浸式的“空间音频”扫码。
从技术而言,它构建了一种全端到端的编码器以及解码器模型训练框架,编码系统能将收款支付连接、身份识别信息、网页入口链接等信息加入到一段声音信号上。这段声音信号可以是一首歌曲或者是一段指令语音。当视障人士听到这段声音信号后,会使用装载有解码系统的终端设备上麦克风来接收到语音信号。此时解码系统会解码得到二维码信息,从而完成收付款、身份验证、进入网页等操作。目前该项目已通过技术评测并申请专利,未来,将融入抖音等产品的相关扫码功能。
“聆影听光”团队想尝试改善视障人群对于视频内容的需求。目前,无障碍视频内容流程是人工重新撰写对应视频内容的脚本,再配音录制,辅之以智能读屏。由于制作成本高,且标准不统一,视障用户可选择的内容少且体验不好。
他们希望通过技术将现有的长短视频能够更智能的制作,核心技术是智能视频理解、智能语音合成、智能语音识别。在视频理解并自动生成旁白文本的能力还未成熟时,他们开发了标注平台,通过标注和语音合成技术生成旁白底稿和音库。在视频理解自动生成底稿能力经过验证后,即可全自动化生产中长音视频内容,范围逐渐可以扩大至电视剧、综艺、电影、体育比赛等。
“聆影听光”团队成员在比赛现场
在团队成员看来,视障人群在这方面的需求可能要更强烈,不仅是出于娱乐,还有社交的目的——有更多话题可以融入身边环境。
12支进入决赛的团队依据自身技术特点,还提供了关于视障人群的出行、办公、购物、美妆、游戏等需求的智能解决方案。
“BANG”为视障人群提供了一款无障碍的创作工具:用AI技术实现文本转图、图像编辑、色块成图等功能,支持语音交互方式,帮助视力障碍人群进行便捷创作和表达。
“世界和平“小队则从工作场景出发,希望提供一种面向B端的“工区无障碍改造”的智能工具,为有视力障碍人群就职的机构提供无障碍化改造方案,以给视障群体提供更加舒服的办公环境。
03.
和视障人群“肩并肩”
人类的悲欢并不相通,“明眼人”也很难真正理解视障人群生活中的不便,一直致力于帮助视障群体的公益人傅高山对此深有感触:“明眼人要真正与视障人群从面对面切换进入到肩并肩视角是很难的,让明眼人理解我们真实的需求是第一步。”
要打破这样的隔阂,仅仅热情是不够的,需要耐心的沟通,甚至放下自己对产品和技术的“执念”。
比如“BANG”团队的刘玮,在对视障群体相关专家的用户体验做了反馈后就发现,自己原本的认知被颠覆了,也改变了产品的设计方向:“我们完全不应该把所谓的弱势群体和视障群体去挂钩,视障群体能做的和需要做的和非视障群体没有区别,他们更希望自己使用的产品和非视障群体是相同的,重要的是我们能在产品设计初期就做好无障碍的适配,有利于未来去做一个面向全民的工具。”
而设计耳机的微光团队,与用户沟通需求后发现,起初他们认为可以通过技术让产品落地,但实际上技术在很多问题上是没有效果的。“即使是上地铁和下地铁,买东西和结账,都要面临非常细分的问题,好的技术可能不是使用所谓的高科技,而是能够低成本且有效的解决问题。”最终团队回归到对人的依赖上,让用户可以联系在线的紧急联系人,或者一公里内愿意提供支持的用户。
技术公益,出发点和落脚点,都是公益而非技术,最终也要回归到帮助视障人群真正解决问题上。灵瞳团队的产品经理也经历过这样的改变:“技术人有时候会有一点技术洁癖,比如会追求一个漂亮的交互或者高级的算法,而忽略其他东西。比如,产品中有一个‘帮助视障者探索环境和定位感兴趣物品’的小功能,它卡住了流程,交互和运行都不满意。最后在受益人的建议下,我们采取了看起来比较低阶的技术形式,但是解决了更多问题。关注真实需求,这也是我们的学习的经历。”
比赛的评审问答互动环节
本次活动上,评委除了行业专家,还有视障专家团,如傅高山、盲人美妆师肖佳等。过程中他们作为观察者,也坦诚给出各个队伍和产品真实的反馈。中国盲人协会主席李庆忠,在比赛的最后表示,听到这些项目很感动,因为感受到,项目团队们对盲人的需求了解的非常深,也很有针对性。即使场景范围较小的项目,比如美妆,也具有突破性的意义。
在最后,负责赛事的相关负责人表示,比赛只是为了提供更多的创意,创意之后可能还有demo、还有上线、还有运转和维护等,赛后,抖音公益会支持和协助有价值的项目进行孵化和落地。