Siri语音助手在理解用户提问时常常需要人们解释半天,因此无法正确回答问题。为了解决这个问题,苹果研究人员开发出了一种新的AI系统——ReALM。ReALM能够理解屏幕画面上的实体,以及对话和背景的上下文关系,有望帮助Siri实现更自然的对话互动。 上周,一篇题为《ReALM:Reference Resolution As Language Modeling》的论文上传至arXiv.org。ReALM利用大型语言模型,将复杂的指代消解任务转换成纯粹的语言模型问题。与现有方法相比,ReALM能够显著提升性能。 苹果研究人员表示:“能够理解上下文,包括参考资料,对语音助理而言相当重要。”为了处理屏幕画面上的参考数据,ReALM的关键做法是解析屏幕画面上的实体及其位置来重建内容,捕捉视觉布局产生文字提示。研究人员证明,这种方法与专门针对指代消解的微调语言模型结合,可在执行解析任务上优于GPT-4表现。 研究人员认为,ReALM优于过去方法,与目前最先进的GPT-4表现大致相同,而且参数相对较少。更重要的是,ReALM在处理特定领域的用户语句方面优于GPT-4,使得ReALM成为可在设备端执行的理想选择。 尽管在迅速发展的AI竞赛中落后于微软、Google、Meta等竞争对手,但苹果在AI研究领域一步步取得重大进展。今年全球开发者大会(Worldwide Developers Conference,WWDC 2024)将是苹果布局AI的重要观察点,市场预期苹果将会对外公开AI计划。 |
原创栏目
笔记本热点
笔记本视频
IT百科
笔记本热词
网友评论
聚超值•精选