WAIC 2024：大模型进入场景应用深水区未来发展仍需聚焦“人”

2024-07-08 11:23 由环球网发表于 #科技

【环球网科技报道记者李文瑶】7月6日，2024世界人工智能大会在上海落下帷幕，今年大会共有来自50多个国家地区的1300位全球领军人物、展商、团组共襄盛会，包括9位图灵奖、菲尔兹奖、诺贝尔奖得主，88位国内外顶级院士。大会展览面积超5.2万平方米，500余家知名企业超1500项展品参展，50余款新品首发首秀，均达历史最高。

与去年的“百模大战”不同，经过一年的时间，今年展会上更多的是大模型在具体场景的应用。

从科技前沿探索，到赋能产业发展，AI正在以前所未有的速度向各行各业渗透，深度融入生产经营的全流程，降低生产成本，提高生产效率，提升核心竞争力，催生新的商业模式，重塑传统产业。

专家们表示，在智能化时代，人工智能广泛赋能人类、工具、资源、技术等生产力要素，大模型在泛化能力上的“狂飙”，知识的发现得以加速，人类的能力边界得以拓展，产业数字化和智能化持续升级，助推生产范式变革。

金融、教育、医疗成为重点应用落地方向

大模型落地应用进入快速发展阶段，而金融、教育、医疗等行业因数据的规模性和需求的独特性，正成为大模型落地的关键领域。

蚂蚁集团董事长兼CEO井贤栋在大会上表示，在移动互联网时代，二维码让移动支付成为每个人的生活日常，“扫一扫”让小商家用最低的成本享受支付的便利。“在人工智能时代，我们也在探索，让AI像扫码支付一样便利每个人的生活，让AI技术发展的红利惠及更多人。”

蚂蚁集团今年对外展示了“三大AI管家”：支付宝智能助理、AI金融助理和AI就医助理。“大模型进入应用时代，如何用最先进的技术做最普惠的服务，是蚂蚁AI一直在攻关的方向”，蚂蚁集团大模型应用负责人顾进杰对记者说道。

尤其在金融和医疗领域，蚂蚁集团希望能给用户带来低门槛的专业服务。现场工作人员介绍，支付宝AI金融助理的目标是让每一位投资者都拥有一位“私人理财专家”，只需一部手机，用户就能获得高质量的行情分析、持仓诊断、资产配置和投教陪伴等个性化的服务。目前，AI金融助理目前已经服务了4300万用户。

百川智能则带来了全新的AI医疗应用——AI健康顾问。据了解，AI健康顾问依托百川智能的通用医疗增强大模型打造，不仅拥有丰富的医药学知识，并且还具备医生思维。它能够像从业多年的全科医生一样，在用户提出问询之后，根据用户的问题持续提问，从更多维度更深入地了解症状，收集到足够多病症信息后再进行综合判断，给出诊断结果和用药建议。

百川智能工作人员对记者表示，百川智能在成立之初就将健康作为公司的愿景之一，AI医疗一直是百川智能的重要发展方向。百川智能创始人、CEO王小川早在 2021 年就曾表示，“往后二十年，若能为生命科学和医学的发展尽一份力，为大众健康做一点贡献，生命就更有意义了。”

在教育方面，学而思携九章大模型、学而思学习机两大主打产品亮相本届人工智能大会，展现了人工智能在智能学习硬件、产品应用层面的最新应用成果和未来前景。据了解，九章大模型近期新上线了数学搜索答疑工具“九章随时问”，以生成式人工智能技术为基础，通过启发引导的方式帮助学生解决数学难题，旨在培养学生的解题思维，提升数学学习能力。目前“九章随时问”小程序可以从微信轻松进入使用，APP端也已陆续开放下载。

学而思CTO田密对记者表示，随着大模型应用的大爆发，这些技术优势意味着教育技术可以采用大模型进行全面升级。学而思正在利用大模型重构教育科技，具体应用在解题、对话、批改、讲题和推荐五个场景，其中解题、对话和批改功能已经上线，AI讲题能力则通过“九章随时问”小程序和APP提供，用户可以体验到个性化、互动性强的AI教学辅助。

因为大模型具备处理大量数据和执行复杂任务的能力，而将其专精于特定行业或领域，则能显著提升其解决问题的效率和准确性。在垂直领域，大模型可以自动化处理常规任务，释放人力资源，提供定制化的解决方案，满足特定场景下的需求，如个性化医疗治疗计划、精细化生产调度等。

星环科技创始人、CEO孙元浩则对记者表示，人工智能将继续向着更加智能化、通用化、自主化的方向发展，逐步解决可信性低、泛化性差、可解释性弱等诸多问题，从而实现更加广泛的应用场景和更加智能的服务。

星环科技提出“从Data Infra到AI Infra”的发展目标，就是要更有效地统一管理算力、语料、应用，更准确、快捷地处理、存储、检索海量多模数据和知识，为千行百业提供多样、专业的原生人工智能应用，为用户提供端到端的人工智能语料、模型和应用的开发和应用解决方案。

智能体带来人机交互新模式

基于人形机器人的具身智能是当前学术界和产业界学科交叉的前沿热点之一，是通向通用人工智能的重要发展方向。

在今年大会上，人形机器人“天团”的亮相展示了最新的机器人技术和具身智能的发展水平。其中，部分机器人搭载了先进的AI大模型，提高了机器人的智能水平和交互能力，特别是在教育、工业、制造业领域的应用引起广泛关注。

可以看到，基于人工智能的大模型智能体，能够模仿人类的智能行为，展现出一定程度的自主性、适应性和学习能力。

例如，智能体能够理解复杂的自然语言指令和对话，这使得人机交互变得更加自然流畅，用户无需学习特定的命令语法，可以直接用日常语言与智能体沟通。

高级的智能体甚至可以理解情绪和上下文，提供更加人性化和有同理心的响应，这在客户服务、心理辅导等领域尤为重要。而具备物理形态的智能体，如机器人，能够直接与物理世界互动，执行任务，如搬运物品、导航等，这扩展了人机交互的范围。

今年，在工信部和上海市经信委的共同指导下，全国首个国家地方共建人形机器人创新中心（以下简称国创中心）落户浦东，并在大会上发布了国内首款全尺寸人形机器人开源公版机“青龙”，降低人形机器人落地制造业的门槛。“青龙”身高185cm、体重82kg，拥有高度仿生的躯干构型和拟人化的运动控制，支持多模态机动、多模态感知、多模态交互和多模态操控，全身多达43个主动自由度，最大关节峰值扭矩400N.m，算力支持400TOPs。

网易伏羲在大会上发布首个机器人品牌“灵动”，打造了挖掘机器人和装载机器人两款核心产品，已参与10多个省份的50个重点建设项目，覆盖矿山、港口、搅拌站、学校等多种应用场景。目前网易灵动挖掘机器人具备自动装车、一键刷坡、一键平地、自动甩方、循迹导航等自动化功能。同时，挖掘机器人已实现极端环境下的正常作业，单次连续自动化作业可超10小时，单机综合效率达到真人80%以上。而网易灵动装载机器人在混凝土搅拌站施工作业中，实现了全天候无人装载作业，可足量保障搅拌站每天近1000方的实际生产需求。

社交平台Soul就在展会上展示了在游戏互动场景“狼人魅影”中引入的AI 智能体，则集中展现了大模型的多模态互动能力。在该场景中，用户可以选择任意的AI+真人游戏组合模式开启互动，与具备自主推理、发言、“伪装”的AI一起进行真实游戏对决。而“AI游戏陪玩师”也能帮助玩家快速适应门槛相对较高、玩法复杂的狼人游戏，轻松开启交流互动，在更沉浸、即时的交互中获得趣味体验。

对于智能体的发展，蚂蚁集团董事长兼CEO井贤栋表示，专业智能体能够破解通用大模型在严谨产业应用的关键难题。他认为，未来智能化的用户体验，一定不是只靠一个大模型，而是需要全行业深度协作，需要很多的专业智能体共同参与、各司其职。

上海人工智能实验室主任、首席科学家周伯文直言，具身智能绝不仅仅是大模型加机器人的应用，而是大模型接收物理世界的反馈从而进化，“光靠看书或看视频，永远学不会游泳，你得亲身扎到水里才能学会。大模型得通过机器人，扎进现实世界，才能真正理解物理世界。”王兴兴也直言，不仅仅是单纯让机器人帮忙干活，它们能理解人类的情绪也非常重要。

多模态发展成趋势

今年大会上，多模态预训练模型也成为了值得关注的趋势。这些模型正在加速通用人工智能（AGI）的进程，通过综合处理文本、语音、视觉等多种模态信息，展现出强大的泛化能力和创新应用。

例如，在本次论坛上，腾讯知识引擎发布了全新的多模态检索能力，支持图文互搜、以图搜图，能够结合知识库中检索返回的图文片段，给出图文并茂的答案。同时，知识引擎进一步扩展了企业知识类型的覆盖面，升级了泛BI对话式数据问答体验，支持超大表格、多表场景的多步骤推理、多条件筛选、求和计算，并扩展支持对接客户主流数据库。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声表示，今天的大模型技术正在往多模态、零样本学习、3D和视频生成等方向快速演进，通过增强技术融合、简化模型训练流程、提供更加沉浸式体验等方式，加速AI技术的普惠。

网易展示了基于“易生诸相”大模型，多模态智能体助手“丹青约”全面升级，用户只需描述指令，例如“帮我戴上墨镜”、“背景换成海边”、“从白天变成晚上”等，AI 即可理解意图并直接生成结果，无需学习工具和繁琐调参，极大降低使用门槛。

蚂蚁带来了百灵大模型的最新研发成果，多模态能力全面提升。这项能力让大模型能“看”会“听”，能“说”会“画”，可支持音、视、图、文等多模态理解与生成，可以让大模型更像人一样感知和互动，支撑智能体体验升级，未来将应用在支付宝智能助理等多个AI智能体。

蚂蚁集团认为，大模型从智能涌现到应用涌现实现人人可得，需要布局关键技术，用以解决大模型的可信、经济、易用三大难题。

金山办公带来了WPS AI升级后为个人用户新增的4个AI办公助手，分别是AI写作助手、AI阅读助手、AI数据助手、AI设计助手。

阅文集团副总裁黄琰则对记者介绍，去年7月，阅文集团发布了国内网络文学行业首个大模型“阅文妙笔”。经过近一年的探索实践，妙笔大模型在辅助网文多模态创作、支持用户与角色对话、网文AI多语种翻译等方面均有实践和落地。

随着AI模型变得越来越复杂，并开始处理文本、音频、图像和视频等各种类型数据，对快速数据处理的需求变得更加迫切。为此，星环科技提供了企业级多模态知识存储与服务，包括大数据与云平台、星环分布式交易型数据库Transwarp KunDB、分布式分析型数据库Transwarp ArgoDB等，助力企业打造新一代一站式多模型数字底座。

可以看到，多模态技术能够使AI系统更加接近人类的感知和认知方式，从而在诸如内容创造、客户服务、医疗诊断、自动驾驶等多个领域产生深远影响。专家们普遍认为，随着技术的成熟和应用场景的扩展，多模态应用将带来更高效、更自然、更人性化的交互体验，并且有望推动新一轮的AI技术创新和商业应用爆发。

此外，多模态大模型的开发和部署也被视为促进AI市场发展的重要因素，它不仅能够提高现有服务的质量，还能催生出新的商业模式和产品形态。因此，多模态应用的前景被广泛看好，被视为AI未来发展的重要方向之一。

网易伏羲平台技术负责人赵增认为人工智能正从专用转向通用，未来将向群体智能方向发展，多模态学习是其中的关键技术。

未来：关注AI伦理治理技术发展仍需聚焦“人”

今年大会首次更名为“世界人工智能大会暨人工智能全球治理高级别会议”。大会期间，与全球治理相关的论坛有10个，来自联合国、美国、法国等世界各地的大咖聚集在一起，讨论AI的伦理和安全，试图通过技术手段让AI向善。

当下，AI治理正在成为一个热门话题。在今年的展会上，许多企业也带来了相关的产品。

“多模态AI鉴真”是模拟蚂蚁大模型安全检测平台“蚁天鉴2.0”的AIGC检测和证照深度合成检测两大能力推出的互动产品。观众可选择证照、音频、视频等多样化素材，该互动会先对这些素材做一番伪造模拟生成。之后，该产品能对上述伪造的素材快速进行精准鉴别，并形成检测报告。在真实的生产场景，蚁天鉴AI鉴真解决方案，支持多模态内容真实性和深度伪造检测，防范深度合成技术滥用风险，图像识别准确率99.9%，达到信通院测评行业最高优秀级别，已经具备了引领性的AI安全对抗能力。

在“谍影重重”互动装置前，观众还可用一场情景剧的方式打开深度伪造（Deepfake ）的攻防“魔盒”。这一套装置背后，是蚂蚁数科安全科技品牌 ZOLOZ 搭建的端云一体的技术体系。“Deepfake攻和防是一个相对且不断精进的过程，你在进步，Deepfake也在进步，我们要做的就是跑在它的前面”，蚂蚁工作人员对记者说。

针对本届大会人工智能的全球治理和伦理这一话题，星环科技创始人、CEO孙元浩介绍说，为了解决AI发展中的大模型中文语料治理等数据问题，大模型的安全可控的问题，以及垂类全流程安全可控问题等，星环科技加大工具平台研发，如在Sophon智能分析工具中推出大模型运营平台（Sophon LLMOps），提供了一站式的大模型基础平台。

中国科学院自动化研究所研究员，联合国人工高层顾问机构专家曾毅在大会上介绍，2020年起，联合国教科文组织了召集了一批来自各国的人工智能伦理方面的专家组，撰写了全球人工智能伦理的建议书，体现了各国对人工智能伦理的共识。“但仅形成伦理共识是不够的，重要的如何落地才是关键。”

中国工程院院士高文表示，人工智能的安全风险可以从模型、算法硬件、自主意识不可控三个方面考虑。开展国际合作研究和人才培养是提高AI安全水平的关键。

值得关注的是，在今年展会上，AI技术也正在聚焦为“人”服务这一主旨，展现了科技向善的技术应用。

例如，记者在大会现场看到，阿里巴巴携手上海美术电影制片厂、中国青少年发展基金会“阅读中国”基金，孤独症儿童干预机构恒星乐乐、海豚乐乐，联合发布公益产品“追星星的AI”。这是国内首个关照孤独症儿童的AI绘本工具。

该AI工具由近20位志愿者在线协作、共同开发完成。他们基于阿里自研ModelScope-Agent框架，调用基于通义大模型的多项服务，如利用角色扮演能力打造故事绘本专家角色；利用文生图、语音合成等AI多模态能力，实现从一句话故事梗概到完整有声绘本的生成。

通义实验室产品负责人金璐瑶表示：“AI绘本不仅是一个创意工具，更是一个情感交流的平台，它能够帮助孩子们更好地表达自我，同时也能增进家长、老师和社会对他们的理解和接纳。希望通过通义的AI服务，让更多的家庭交流无障碍，更加通情达义。”

对于AI技术可能带来的挑战，中国工程院院士、之江实验室主任、阿里云创始人王坚表示自己是一个技术乐观主义者，“我相信人类在技术发展过程当中，任何人类自身产生出来的问题，人类一定会去解决的。”