AI大模型持续迭代,多模态大模型发展可期

高伟绚 2023-05-24 13:58

本轮AI技术革命源自于生成式AI算法取得突破,自2022年底OpenAI正式推出ChatGPT后,用户量持续增长,围绕ChatGPT相关的应用也层出不穷,通用大模型在很多生成式工作内容上帮助人力节省了大量时间。同时多模态大模型也取得新的突破,文生图、文生视频能力不断提升。

一、国内外大模型厂商和模型梳理:海外大模型技术领先,国内也在加速追赶

1、GPT-4:2023年3月15日,多模态预训练大模型GPT-4发布,相较于过去的GPT系列模型,提升包括几个方面:

(1)具备多模态信息处理能力,能够接受图像和文本两种模态的输入,再通过文字给出正确的文本答复。GPT-4不仅拥有图像阅读能力,还可以从图像中提取逻辑,进行分析思考。以下图为例,问:如果把图中的绳子剪掉会怎么办?GPT-4:气球会飞走。

图片


图:GPT-4的图像阅读能力;资料来源:OpenAI


(2)GPT4的文本处理能力更为出色,在模拟律师考试中取得了应试者中前10%的成绩,而GPT-3.5模型只有倒数10%的成绩,GPT-4模型在SAT、LSAT、美国高中数学竞赛中表现均超越了人类。

2、PaLM-E:2023年3月推出的PaLM-E,具有5620亿参数量,是一个多模态具身视觉语言模型(VLM),且将多模态技术拓展到机器人控制领域。相较于之前的多模态模型,其不仅可以理解和生成图像/语言,如下图所示,输入可以为文本、图像等不同模态信息,还能够融合不同模态的知识进而生成复杂的机器人指令。

例如,“从抽屉中拿取薯片”是一个包含了多个计划任务,需要机器人摄像头和机械手相互配合的任务,PaLM-E模型可以将其分解为走到抽屉旁、打开最上面的抽屉、从最上面的抽屉里拿起绿色的薯片、放在柜台上等多个步骤来完成。

图片


图:PaLM-E 可以处理丰富的下游任务;

资料来源:《PaLM-E: An Embodied Multimodal Language Model》


3、SAM:SAM模型(Segment Anything Model),是CV图像分割领域的基础模型。SAM由一个图像编码器、一个提示编码器和一个掩码解码器组成,具有以下特点:

(1)使用提示工程进行任务学习,交互式点击、选择框甚至文本操作进行物体分割;

(2)具有模糊感知功能,面对分割对象存在歧义时,可以输出多个有效掩码;

(3)与ChatGPT类似,SAM巧妙的将人工标注与大数据结合(数据引擎),最终实现了“分割一切”的功能。

4、国内:国内厂商也都在不断推进自己的大模型,相关模型已有不少进行开放性测试,整体上已经处于GPT3至GPT3.5之间的水平,落后的原因或在于前几年研究较少,一方面因为研究投资较大,另一方面商业模式不清晰。但是国内模型在快速追赶和迭代,国内大模型距离商业化已经越来越近。

5、大模型竞争终局猜想:通用大模型未来竞争终局可能不会超过三家,因为用的人越多,训练效果越好,所以最后可能会有一个非常好的模型,类似于手机操作系统的竞争终局。大模型的核心壁垒是模型发布以后,模型使用越多、生态伙伴越多、效果越来越好的飞轮效应。


二、AI大模型技术发展趋势

AI大模型逐步向多模态发展。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。传统的深度学习算法专注于从一个单一的数据源训练其模型。例如,计算机视觉模型是在一组图像上训练的,NLP模型是在文本内容上训练的,语音处理则涉及声学模型的创建、唤醒词检测和噪音消除。这种类型的机器学习与单模态人工智能有关,其结果都被映射到一个单一的数据类型来源。多模态AI可以提供更接近于人类感知和交互方式,让AI实现更广泛的应用场景。

以ViT为基础的多模态模型不断涌现。在技术层面,ViT打通了Transformer与CV领域的壁垒,BEiT模型将生成式预训练引入CV领域。传统的Transformer模型只适用于单模态文本,ViT模型将patch embedding引入Transformer,打通了Transformer与CV领域的壁垒。

未来,多模态大模型需要更深层次的网络和更大的数据集进行预训练。现有的多模态预训练大模型通常在视觉和语言两种模态上进行预训练,未来可以获取更多模态进行大规模预训练,包括图像、文本、音频、时间、热图像等,基于多种模态数据的预训练大模型具有更广阔的应用潜力。


作者:高伟绚

南开大学金融学硕士,现任兴华基金TMT行业研究员,重点覆盖计算机、传媒等方向。

本文中所阐述到的观点和判断仅代表当前时点的看法,不构成任何的投资建议,也不代表基金管理人对任何股票作出判断。因市场环境具有不确定性和多变性,本文当中所陈述到的观点和判断后续可能会发生调整和变化。投资者在购买基金之前请先认真阅读《基金合同》、《招募说明书》和《产品资料概要》等法律法规文件,了解基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否与您的风险承受能力相适应。基金有风险,投资需谨慎。

相关推荐
打开APP看全部推荐