在过去的几年里,帮助视障人士导航环境的系统和应用程序经历了快速的发展,但仍然有很大的改进空间,据宾夕法尼亚州立大学的一支研究团队称。该团队最近结合了来自视障社区的建议和人工智能(AI),开发出一种新的工具,专门提供针对视障人士需求的支持。

宾夕法尼亚州立大学最近的一款人工智能手机应用,能够帮助视障人士完成日常任务。图片:宾夕法尼亚大学
名为NaviSense的工具是一款智能手机应用程序,可以根据用户的语音提示实时识别用户正在寻找的物品,并利用手机内置的音频和震动功能引导用户找到环境中的物体。测试用户报告称,与现有的辅助视觉选项相比,使用该工具的体验有所改善。
该团队在10月在丹佛举行的 ACM SIGACCESS ASSETS ‘25会议上展示了该工具并获得了最佳观众选择海报奖。关于该工具的详细信息发表在会议论文集中。据艾普格大学教授、电气工程系A·罗伯特·诺尔讲座教授兼NaviSense团队负责人Vijaykrishnan Narayanan介绍,许多现有的辅助视觉程序会将用户与现场支持团队联系起来,这可能会导致效率低下或引发隐私问题。
一些程序提供自动化服务,但Narayanan解释说,这些程序存在一个明显的问题。“以前,需要预先将物体的模型加载到服务的记忆中才能被识别,”Narayanan说道,“这种方法非常低效,并且大大减少了用户使用这些工具时的灵活性。”
为了应对这一问题,团队将大型语言模型(LLMs)和视觉语言模型(VLMs)这两种可以处理大量数据以回答查询的AI技术整合到了NaviSense中。该应用程序连接到托管LLMs和VLMs的外部服务器上,这使得NaviSense能够了解其环境并识别其中的对象,据纳拉扬说。
“通过使用VLMs和LLMs,NaviSense可以根据语音命令实时识别其环境中的物体,而无需预先加载物体模型。”纳拉扬说,“这是这项技术的一个重大里程碑。”计算机工程博士生、NaviSense的主要学生研究员斯里达尔·纳拉扬表示,在开发之前,团队进行了一系列与视力受损人士的访谈,以能够针对用户的具体需求定制该工具的功能。“这些访谈让我们对视力受损人士面临的实际挑战有了很好的了解。”
NaviSense 会搜索环境以寻找请求的对象,特别过滤掉不符合用户口头请求的物体。如果它不明白用户在寻找什么,它会问一个跟进问题来帮助缩小搜索范围。Sridhar 表示,这种对话功能提供了其他工具难以提供的便利性和灵活性。此外,NaviSense 还可以通过监控手机的手势动作实时跟踪用户的双手移动,并提供反馈说明他们伸手取的物体相对于手的位置。“这项手势指导是这个工具最重要的方面,”Sridhar 说,“实际上没有现成的解决方案能够主动引导用户的手指向物体,但这一功能在我们的调查中被反复要求。”
在访谈之后,团队让12名参与者在一个受控环境中测试该工具,并将NaviSense与两种商业选项进行了比较。研究团队记录了这些工具识别并指导用户找到物体所需的时间,同时也监测了程序检测机制的整体准确性。
NaviSense 显著减少了用户寻找物体所花费的时间,同时在识别环境中的物体方面比商业选项更为准确。 重要的是,参与者报告称与其它工具相比使用体验更好,一位用户在实验后的调查中写道:“我喜欢它能给你提示物体所在的位置,无论是左还是右、上还是下,然后直接命中目标。”据纳拉扬南的说法,尽管当前该工具有效且易于使用,在商业化前仍有改进空间。
团队正在努力优化应用程序的电量使用,这将减少其对智能手机电池的消耗,并进一步提高LLM和VLM的效率。“这项技术距商业化发布已经很近了,我们正致力于使其更加易于获取。”纳拉扬说,“我们可以从这些测试以及之前对该工具的原型设计中学到的经验来进一步优化它,以更好地服务于视障社区。”
勇编撰自宾夕法尼亚大学.2025相关信息,文中配图若未特别标注出处,均来源于自绘或公开图库。