商汤科技发布“日日新5o”大模型,实现实时流式多模态交互

【环球网科技综合报道】7月6日上午,在2024世界人工智能大会期间,商汤科技正式发布了其最新的“日日新5o”大模型。这一模型在交互体验上对标GPT-4o,通过整合跨模态信息,实现了基于声音、文本、图像和视频等多种形式的全新AI交互模式,即实时的流式多模态交互。

“日日新5o”大模型展现了强大的多模态识别和理解能力。例如,当工作人员仅是与它打个招呼时,它就能自动识别出工作人员脖子佩戴的胸卡带子上的字眼,并判断出现场就是世界人工智能大会会场。同时,它还能在这个场景下表示“可以好好学习”,显示出对环境的理解和适应性。对于可爱的小狗玩偶,“日日新5o”也能准确描述其外貌、表情以及重要穿戴,进一步证明了其在多模态交互方面的实力。

此外,“日日新5o”大模型在实时交互方面也表现出色。随便翻开一本书的任何一页,它都能自动进行介绍,而不仅仅是简单的OCR识别文字。它能够识别图文并给出易于理解的总结,真正实现了实时交互的目标。

热门相关:神秘复苏   不良侦探:食物链   前夫有毒:1000万夺子契约   甜蜜婚令:陆少的医神娇妻   战斗就变强