首页 > 笔记本 > 笔记本杂谈 > 笔记本_趣闻杂谈> 正文

失业预警:当AI有了眼睛、耳朵和嘴巴,恐加速取代更多工作岗位

阳春丽 编辑: 杨玥锴 发布于:2023-10-10 17:49 PConline原创

近期ChatGPT迎来重大更新,加入了语音和图像识别功能,用户可以直接与ChatGPT进行语音对话,上传图片让AI帮助分析我们所看到的内容,这相当于为AI增添了眼睛、耳朵和嘴巴,也就是ChatGPT的多模态。单从OpenAI发出的演示视频,就感受到了满满的失业预警。

在视频中,用户拍摄了一张照片发给ChatGPT,同时提出了“请你帮我把自行车的座椅放低一些”的需求。然后ChatGPT给出了回答,它说第一步需要找到座位下面的快速释放杆或者螺栓,如果有快速释放杆打开它就可以,如果是螺栓,你需要一个内六角扳手。接下来将坐位向下滑动到你需要的高度,再拧紧螺栓或快速释放杆,确保坐位已经固定,并确定坐位的朝向是正确的,不会晃动。最后ChatGPT提示,如果你有工具,可以展示给它,它会继续告诉你下一步。

接下来,用户在照片局部圈出来座椅下方的螺栓位置,发给ChatGPT,问他这个是不是快速释放杆。ChatGPT回复这不是一个释放杆,他是一个螺栓,你需要一个内六角扳手拧松它,然后就可以调整座位的高度,确保座位朝向是正确的平直的,把螺栓拧紧就完成了调整。

然后用户又上传了说明书照片和工具箱照片,问ChatGPT工具箱里有没有正确的工具。ChatGPT回复你有正确的工具,在你工具箱的左侧,有一个标着“DEWALT”的工具套装,你要找的4mm的内六角扳手,然后用它松开座位下面的螺栓,调整座椅高度,最后把它拧紧。

毫无疑问,拥有了“视觉”以后的AI展现出来的能力是相当炸裂的。半年前,AI还只是威胁到程序员、律师、数据分析师、文案编辑等重复性工作较多,工作流程比较确定的工作的话。仅现在有了视觉的AI,直接威胁到每一个工作岗位。

一方面AI强大的功能,可以帮助普通人解决很多专业问题,我们可以通过对话与AI更高效的交流,同时还能将我们所看见的内容,直接与AI共享,这使得用户与AI的交互更加自然流畅,更像是一个真正的助手,这大大降低了我们对于一些咨询、服务的需求。

另一方面,ChatGPT超强的视觉分析能力,也让AI在更多的领域取代更多的人力。

来自微软的一份166页的测评报告,更加系统地讨论和分析了OpenAI最新多模态语言模型GPT-4V(视觉版GPT-4)。该报告分为11个章节,从多个维度全面考察GPT-4V的能力和局限,以帮助人们深入理解大规模多模态模型的工作机制。

报告首先概述了GPT-4V的结构,它不仅可以处理文本,还可以理解图像信息。然后,报告详细列举了各类测试样本,检验GPT-4V在不同任务上的表现质量和泛化能力。测试发现,GPT-4V拥有前所未有的处理杂乱多模态输入的能力,且其功能高度通用,可泛化到多种任务,成为一个强大的多模态通用系统。

报告特别讨论了GPT-4V对图像的独特理解力,这可能催生新的人机交互方式,例如使用视觉内容进行提示。最后,报告探讨了基于GPT-4V的潜在应用场景,以及未来研发更先进多模态模型的方向。总体而言,该研究对GPT-4V进行了比较全面的测试和分析,深化了对大规模语言模型工作机制的理解,也将促进未来多模态人工智能技术的发展。

接下来我们节选了几个GPT-4V在新兴应用场景中的案例,来跟大家分享一下。

图像识别

人物识别:GPT-4V不仅能够识别出图片中的人物是谁,并且还分析出照片中人物正在做什么。比如左下方的图片,它不仅识别出人物是现任美国总统,并且还分析出他在讲台上,可能在发表演讲。而发表演讲的场合,为2023年在日本广岛举行的七国集团峰会!右侧照片中的人是NVIDIA的首席执行官兼联合创始人黄仁勋。他正在拿着并展示NVIDIA的产品,很可能是图形处理单元(GPU)。

地标识别:GPT-4V精确地识别了测试图像中的地标。它还能生成生动且详细的叙述,捕捉地标的精髓。

食物识别:GPT-4V可以识别各种菜肴。它还可以识别菜肴图像中存在的特定食材、装饰品或烹饪技术。

医疗图像理解结果:GPT-4V能够识别提供的X光片中的牙齿和颌骨,并解释颌骨左下方和右下方的智齿部分露出可能需要拔除。

医学图像理解结果:GPT-4V可以识别像Jones骨折这样的常见病症,还可以基于CT扫描的肺部指出潜在的问题。

多语言图像描述结果:GPT-4V能够生成不同语言的图像描述。GPT-4V是一种语言模型,它可以理解和生成多种语言,包括图像描述。这意味着它可以在不同语言之间生成图像的描述,这对于跨语言交流和信息共享非常有用。

通过这几个案例,可以看到GPT-4V应用潜力非常巨大,比如应用在医学影像方面的辅助诊断,可以提高诊断准确性,也能提升诊断效率。应用在旅游或者博物馆中,可以提供更好的自助导览体验,尤其是它能够生成不同语言的图像描述,对导游造成很大的挑战。

篇幅有限,我们只是截取了其中几个案例,原始报告https://arxiv.org/pdf/2309.17421.pdf。

相比之前仅提供对话功能的AI,有了视觉的GPT-4真的是相当强悍!它就像是一个人,先有了一套思维逻辑,再灌入海量的知识,现在又给了它眼睛、耳朵和嘴巴,它就可以像人类一样直接处理图像、视频等视觉信息,理解场景和对象,而不仅仅依赖语言描述。结合视觉和语言GPT-4能够进行多模态的交互和学习,它的智能会更加贴近人类。

如果将来GPT-4还拥有了类似人类手臂的机械控制“肢体”,它就可以直接操作物理环境,进行更复杂的探索和实践。这将大大提升它汲取现实世界知识的能力。配备传感器的“肢体”还可以帮助GPT-4形成对环境的感知,拥有更丰富的交互方式。

当然,我们还需要解决让GPT-4真正理解知识而不仅仅是模式匹配的问题。还需确保它按照正确认知能力的强大,而不是被误用或造成伤害。如果以负责任的方式持续发展GPT-4,它将朝着成为一个真正的人工通用智能又迈进了一步。

阳春丽

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部