首页 >热点 > > 正文

训练成本不到1000元!NUS、清华:轻松定制类GPT-4多模态大模型 每日看点

新智元 2023-05-19 18:02:48

编辑:LRS 好困


【资料图】

【新智元导读】最近的多模态(对话)大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如GPT-4、BLIP-2、Flamingo等。但咱们普通玩家训练一个多模态GPT代价非常昂贵。来自于新加坡国立大学和清华大学的研究工作提出一个VPGTrans框架,帮助小伙伴们实现极低成本训练一个高性能多模态大模型。


今年是AI技术爆发式发展的一年,以ChatGPT为代表的大语言模型(LLM)大火。


语言模型除了在自然语言领域显示出巨大的潜力之外,也开始逐渐辐射到其他模态,比如文生图模型Stable Diffusion的背后也需要语言模型。


从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。


最近,来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans,将现有的VPG迁移到现有的VL-LLM模型中,就能以低成本的方式获得目标VL-LLM模型。


论文链接:https://arxiv.org/abs/2305.01278

代码链接:https://github.com/VPGTrans/VPGTrans

多模态对话模型Demo:https://vpgtrans.github.io/

作者:张傲,费豪,姚远,吉炜,黎力,刘知远,Chua Tat-Seng

单位:新加坡国立大学,清华大学


文章的主要创新点包括:


1. 极低训练成本:


通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。


比如,相比于从头训练视觉模块,我们可以将BLIP-2 FlanT5-XXL的训练开销从19000+人民币缩减到不到1000元


图1:基于我们的VPGTrans方法的BLIP-2训练开销缩减对比


2. 多模态大模型定制:


通过我们的VPGTrans框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如我们在LLaMA-7B和Vicuna-7B基础上制作了VL-LLaMA和VL-Vicuna。


3. 开源多模态对话模型:


我们开源了VL-Vicuna,类GPT-4多模态对话模型,可实现高质量的多模态对话:


图2:VL-Vicuna的交互实例


一、动机介绍

1.1 背景

LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型(VLM)到基于大语言模型的视觉语言模型(VL-LLM)的变革。


通过为LLM接入视觉模块,VL-LLM可以继承已有LLM的知识,零样本泛化能力,推理能力和规划能力等。相关模型有BLIP-2[1],Flamingo[2],PALM-E等。


图3:常用的VL-LLM架构


现有的常用的VL-LLM基本采取图3所示的架构:在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。


在参数规模上,LLM一般占主要部分(比如11B),VPG占次要部分(比如1.2B),Projector最小(4M)。


在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。


1.2 动机

实际上,即便基座LLM的参数冻结不训,但由于LLM的大参数量,训练一个VL-LLM的关键开销依然在于加载基座LLM。


因此训练一个VL-LLM依然无法避免极大的计算代价。比如,要得到BLIP-2(基座LLM为FlanT5-XXL)需要付出超过600个小时的A100训练时长。如果租用亚马逊的A100-40G机器,大概需要将近2万元人民币的费用。


既然从零训练一个VPG代价如此昂贵,那么我们开始思考能否把一个已有的VPG迁移到新的LLM上来节省开销。


图4:VPG迁移: 跨LLM大小迁移和跨LLM类型迁移


如图4所示,我们主要探索了两种类型的VPG的迁移:


(1)跨LLM大小迁移(TaS):比如从OPT-2.7B到OPT-6.7B。

(2)跨LLM类型迁移(TaT):比如从OPT到FlanT5。


其中TaS的意义在于:在LLM相关科研中,我们通常需要在小LLM上调参,再扩展到大LLM。有了TaS,我们可以在调参之后,把小LLM上已经训好的VPG直接迁移到大LLM上。


TaT的意义在于:不同功能种类的LLM层出不穷,比如今天有了LLaMA,明天又有了Alpaca和Vicuna。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力。


1.3 贡献

(1)提出高效的方法:


我们首先通过一系列的探究实验,探究了影响VPG迁移效率的关键因素。根据探索实验发现,我们提出了一个两阶段的高效迁移框架VPGTrans。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据。


比如,相比于从头训练,我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移,可以仅用大约10%的数据和计算时间就达成各个数据集相似或更好的效果(图1)训练花销从17901人民币到1673元


(2)得到有趣的发现:

我们同时提供了TaS和TaT场景下一些有趣的发现,并尝试给出解释:


a) TaS场景下,使用VPGTrans从小到大迁移不会影响最终模型效果。


b) TaS场景下,越小的语言模型上训练的VPG,迁移到大模型时效率越高,最终效果越好


c) TaT场景下,越小的模型之间迁移的gap越大。在我们验证实验中,OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢。


(3)开源:


我们使用VPGTrans得到了两个新的VL-LLMs:VL-LLaMAVL-Vicuna,并开源在了社区上。其中VL-Vicuna实现了类GPT4的高质量的多模态对话。


二、高效率的VPG迁移方案:VPGTrans


首先我们进行一系列的探索验证实验,分析如何最大化对于VPG的迁移效率。接着我们基于这些重要观察提出一个解决方案。


2.1 探究实验

我们选取BLIP-2架构作为我们的基础模型,预训练语料采用COCO和SBU,总共1.4M图文对。


下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot)。下面是我们的关键发现:


(1)直接继承一个训练好的VPG可以加速收敛,但效果有限:


我们发现,直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛,但加速效果有限,且收敛后模型效果相比于从头训练VPG会掉点(图5的VQAv2、GQA蓝线最高点均低于橘线)


我们猜测,这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力。


图5:VPG inherit (蓝线): 直接继承训练好的VPG。train from scratch (橘线):从头训练VPG。only linear (绿线):只训练linear projector不训练VPG。


(2)先warm-up训练projector可以防止掉点,且进一步加速收敛:


于是,我们固定住VPG和LLM,先warm-up训练projector 3个epoch,再解冻VPG进行下一步训练。


我们发现,这样不仅仅可以避免掉点情况,还能够进一步加速VPG收敛(图6)。


但值得强调的是,由于训练的主要开销在LLM(参数巨多),仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多


所以,我们开始探究加速projector warm-up的关键技术。



图6:先warm-up训练projector可以防止掉点+加速收敛


(3)词向量转化器初始化可以加速projector warm-up:


首先,VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的。而soft prompt的使用方式和词向量其实是非常相似的,都是直接输入语言模型来提示模型产生对应内容。


所以,我们使用词向量来作为soft prompt的一个代理,训练了一个

的词向量转化器(一个线性层)。


然后,我们将词向量转化器和

上的projector融合作为projector的初始化。


通过这个初始化,我们可以将projector的warm-up训练由3个epoch减为2个epoch


(4)projector可以在超大学习率下快速收敛:


我们进一步实验发现,projector由于其参数量较少,可以使用5倍的正常学习率进行训练而不崩溃。


通过5倍学习率的训练,projector warm-up可以进一步被缩短到1个epoch


(5)一个附加发现:


虽然projector warm-up很重要,但仅训练projector是不够的。尤其在caption任务上面,仅仅训练projector的效果要比同时训练VPG的效果差一截(图5绿线在COCO Caption和NoCaps均远低于蓝线)。


这也就意味着,仅仅训练projector会导致欠拟合,也就是无法充分对齐到训练数据


2.2 我们所提出的方法


图7:VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调


如图7所示,我们的方法共分为两个阶段:


(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。


(2)第二阶段:直接正常训练VPG和projector。


三、实验结果


3.1 加速比

表1:我们的VPGTrans的相比于从头训练在各个数据集的加速比


如表1所示,我们测试了不同迁移类型下,VPGTrans在不同数据集上的加速比。


VPGTrans在某指定数据集A上的加速比是通过从头训练达到A上最佳效果a的轮数除以VPGTrans在A上效果超过a的最小训练轮数得到。


比如,从头在OPT-2.7B上训练VPG,在COCO caption达到最佳效果需要10个epoch,但从OPT-125M迁移VPG到OPT-2.7B,仅需1个epoch就能达到该最佳效果。则加速比为10/1=10倍。


我们可以看到,无论是在TaS还是在TaT场景下,我们的VPGTrans都可以实现稳定的加速


3.2 有趣的发现

我们选取了一个比较有趣的发现进行了说明,其他更多更有意思的发现请参照我们的论文。


TaS场景下,越小的语言模型上训练的VPG,迁移起来效率越高,最后模型效果越好。参考表1,我们可以发现OPT-1.3B到OPT-2.7B的加速比要远小于OPT-125M、OPT-350M到OPT-2.7b的加速比。


我们尝试提供了一个解释:一般越大的语言模型,由于其文本空间的维度更高,会更容易损害VPG(VPG一般都是类似于CLIP的预训练模型)本身的视觉感知能力。我们通过类似于linear probing的方式进行了验证:


图8:仅训练linear projector层的跨LLM大小迁移 (模拟linear probing)


如图8所示,我们进行了OPT-125M,350M,1.3B,2.7B之间的跨LLM大小的迁移。


在实验中,为了公平对比不同模型大小下训练过的VPG的视觉感知能力,我们固定住VPG的参数仅仅训练linear projector层。我们选取了COCO Caption上的SPICE指标作为视觉感知能力的衡量手段。


不难发现,

对于每一个给定的

,几乎都符合

越小,最终SPICE越高的一个现象


3.3 大规模实验

前文实验主要是在小规模场景下验证猜想。为了证明我们的方法的有效性,我们模拟BLIP-2的预训练过程进行了大规模实验:


表2:真实场景下的大规模实验结果


如表2所示,我们的VPGTrans在大规模场景下依然有效。通过OPT-2.7B到OPT-6.7B的迁移,我们仅用10.8%的数据和不到10%的训练时长达到了相似或更优的效果。


尤其是,我们的方法在BLIP-2以FlanT5-XXL为基座的VL-LLM实现了4.7%的训练成本控制


四、定制您的VL-LLMs


我们的VPGTrans可以快速为任意新的LLMs添加视觉感知模块,从而得到一个全新的高质量VL-LLM。在本工作,我们额外训练了一个VL-LLaMA和一个VL-Vicuna。其中VL-LLaMA的效果如下:


表3:VL-LLaMA的效果展示


同时,我们的VL-Vicuna可以进行类GPT-4的多模态对话。我们和MiniGPT-4进行了简单的比较:




五、总结


在这项工作中,我们对VPG在LLM之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。


基于关键观察,我们提出了一种新颖的两阶段迁移框架,即VPGTrans。它可以在显著降低训练成本的同时,实现相当或更好的性能。


通过VPGTrans,我们实现了从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的VPG迁移。相较于从零开始连接VPG到OPT 6.7B,VPGTrans仅需10.7%训练数据和不到10%的训练时长。


此外,我们展示并讨论了一系列有趣发现及其背后的可能原因。最后,我们通过训练VL-LLaMA和LL-Vicuna,展示了我们的VPGTrans在定制新的VL-LLM方面的实际价值。

参考资料:

https://arxiv.org/abs/2305.01278

上一篇:感恩奋进80载! 徐工领航大国重器,与全球客户共赴新征程-全球新消息 下一篇:最后一页
x
推荐阅读

训练成本不到1000元!NUS、清华:轻松定制类GPT-4多模态大模型 每日看点

2023-05-19

感恩奋进80载! 徐工领航大国重器,与全球客户共赴新征程-全球新消息

2023-05-19

“大国重器” 驶向全球 跟随记者探访江苏先进造船工厂|今亮点

2023-05-19

文旅部确定3家旅游度假区为国家级旅游度假区-热文

2023-05-19

悍尼家居程春雷:以设计为第一价值驱动力 创造意式简约生活|每日观点

2023-05-19

永远不要和层次不同的人争辩,那是一种无谓的消耗

2023-05-19

众兴菌业:目前公司仍有双孢菇基地在建设中

2023-05-19

世界焦点!湾区三分钟|这个特别的“首单”为啥被围观?

2023-05-19

环球微头条丨第27届全国省级党报发行协作会在贵州召开

2023-05-19

九命猫王晶_九命猫王_环球速看料

2023-05-19

儿童居住证怎么办理杭州 杭州儿童办理居住证条件

2023-05-19

每日快报!庆城县实施供水保障工程让“放心水”润泽千家万户

2023-05-19

全球今头条!开封智慧养老,透过VR实景看养老

2023-05-19

前4个月全国财政收入延续平稳回升态势

2023-05-19

今热点:首届中国国际供应链促进博览会将于11月底在京举办

2023-05-19

海外金矿遭恐怖袭击致2人死亡14人受伤 紫金矿业发强烈谴责声明 视讯

2023-05-19

老百姓(603883):5月18日北向资金增持14.39万股|焦点播报

2023-05-19

我的世界电脑版怎么打开坐标 我的世界电脑版如何打开坐标

2023-05-19

【世界快播报】亿帆医药(002019):5月18日北向资金减持6.49万股

2023-05-19

全国防治碘缺乏病日|一“碘”不多 一“碘”不少

2023-05-19

热点评!美媒:研究显示美国黑人因种族歧视付出惊人代价

2023-05-18

世界微速讯:民航唯一:厦门现象!

2023-05-18

世界短讯!7所在京高校发布2023高考招生政策

2023-05-18

解密腾讯财报:主业大回血,但视频号商业化似露怯

2023-05-18

五险一金查询网址(五险一金登录查询系统)|当前消息

2023-05-18

豫园股份:复星高科技下属上海艺中、重庆润江累计质押1.08亿股

2023-05-18

世界快消息!热心市民接力营救落水女子,南京警方发文寻找两名救人者

2023-05-18

北斗路上那些事——贵阳卫星观测站落区工作团队大力发扬新时代北斗精神侧记

2023-05-18

世界快讯:沈阳市第二届“警企营商论坛”举办

2023-05-18

有趣的数学小故事50字_有趣的数学故事50字 全球热头条

2023-05-18

安切洛蒂:曼城就是踢的比我们好 配得上赢球!

2023-05-18

淘气天尊:股市周四都不跌,那行情就要爆发了! 焦点信息

2023-05-18

中国成功发射第五十六颗北斗导航卫星

2023-05-18

实时焦点:扭曲的机器乐队2023年演出_扭曲的机器乐队

2023-05-18

ETF观察丨全资子公司与希尔顿美国签订重大合同,石基信息一字涨停,数字经济ETF(159658)早盘上涨

2023-05-18

当前快讯:黄晓明与富婆总裁聚餐,喝上万元拉菲主动合影

2023-05-18

全球首个!5G异网漫游是什么,如何使用?_世界热点评

2023-05-18

特斯拉跑去印度建厂了-环球微动态

2023-05-18

扎根火箭发射落区,他们见证着北斗腾飞 环球速讯

2023-05-18

1方c25混凝土配合比表_1立方c25混凝土配合比表 天天热头条

2023-05-18

焦点报道:苦瓜加一物七天瘦10斤_苦瓜减肥有效果吗

2023-05-18

【全球聚看点】大唐新能源(01798)前4个月完成发电量约1217.73万兆瓦时 同比增加23.60%

2023-05-17

图片报:皇马就贝林厄姆加盟与魔笛有过沟通,他可能成为替补

2023-05-17

焦点热门:应城警方告诉你怎样区分辨别虞美人和罂粟

2023-05-17

全球看点:正阳县召开营商环境监督员座谈测评会

2023-05-17

沐邦高科(603398)5月17日主力资金净卖出76.41万元

2023-05-17

硬度单位是什么(7075的硬度是多少)-消息

2023-05-17

大神画师笔下的《鬼灭》,用普通的彩铅笔,怎样画出高光效果?

2023-05-17

焦点精选!青年失业率首破20%,如何促进大学生就业?国家发改委回应

2023-05-17

5月17日人民币对美元汇率中间价下调242个基点-每日热讯

2023-05-17

城乡建设档案馆查阅相关图纸需要携带两证 讯息

2023-05-17

买到躺赚两千万?一日夫妻凑积分?沪上豪宅打新乱象潜藏,律师提醒代持风险 世界今亮点

2023-05-17

被力捧的京圈公主,资源到底多强大?

2023-05-17

扬州这些林荫路你走过几条?

2023-05-17

每日速读!晨鸣纸业:5月16日融券卖出金额2.51万元,占当日流出金额的0.08%

2023-05-17

经常晒太阳和从不晒太阳的人,有什么区别?注意这3点,正确晒太阳! 观点

2023-05-17

焦点播报:抛弃自我,珍视人脉

2023-05-17

闭角型青光眼手术成功率 青光眼手术成功率-精彩看点

2023-05-17

农食产品贸易已成中国-中东欧贸易合作重要领域 天天观察

2023-05-17

【世界快播报】卤肉做法 最正宗的做法 家常卤肉的做法及配料

2023-05-17

腾讯音乐-SW(01698)CEO梁柱:正探索大语言模型应用 已推出两款AI音乐制作产品|世界资讯

2023-05-16

4l是多少斤多少升_4l是多少斤

2023-05-16

天天最新:多件精美文物首次外展 “中国西南地区青铜文明展”即将来蓉

2023-05-16

世界球精选!2023年5月16日炼焦煤(焦煤)价格最新行情预测

2023-05-16

【全球聚看点】AI主播直播带货,一个月成本200元

2023-05-16

聚焦:深汕加速构建汽车全产业链生态圈:比亚迪为龙头 20配套企业落地

2023-05-16

全球热讯:百度发布2023年Q1财报:营收311亿元,净利润大幅增长48%

2023-05-16

宜兴市小学电话地址汇总

2023-05-16

登体育画刊泳装特辑,81岁家政女王创最年长模特儿纪录

2023-05-16

天天新动态:qq联系人显示4g在线是什么意思_4g在线是什么意思

2023-05-16

内地与澳门驾驶证互认换领协议5月16日正式生效-今日热闻

2023-05-16

梦幻西游口袋版免费精力能干嘛_免费精力作用介绍|世界实时

2023-05-16

即时焦点:“哗众取宠”的低俗营销模式应该休矣|快消栾谈

2023-05-16

环球快讯:国家统计局:当前我国流动性总体合理充裕

2023-05-16

年产6万吨Lyocell纤维生产线项目通过验收|当前要闻

2023-05-16

阿根廷央行加息600个基点至97% 是今年第4次加息

2023-05-16

口碑向上尽显经营韧性,UU跑腿迎来价值释放期 全球快播

2023-05-16

每日速看!沈阳等地强对流天气预警!强降雨、雷电、冰雹、阵风10级!

2023-05-16

当前动态:金贵银业:拟收购宝山矿业100%股权,今日开市起停牌,最晚10月21日起复牌

2023-05-16

2022年全国新增城乡残疾人就业59.2万人 全球速看料

2023-05-16

央视推出大型纪录片《智能时代》 描绘数智未来无限潜能

2023-05-16

杭州印象文化艺术有限公司_关于杭州印象文化艺术有限公司概略 世界要闻

2023-05-16

精彩看点:流行性腮腺炎传播途径及主要症状 流行性腮腺炎传播途径

2023-05-16

天天短讯!手机sim卡是什么意思_sim卡是什么意思

2023-05-16

方圆脸型适合什么发型_平刘海适合什么脸型

2023-05-16

怎样设置电脑护眼模式_如何设置电脑护眼模式win7_环球精选

2023-05-16

辽宁4-0横扫浙江 卫冕CBA总冠军_世界快看

2023-05-15

全球热推荐:蓝牙耳机连接电脑已配对成功但是连接不上(蓝牙耳机连接电脑)

2023-05-15

淄博烧烤火热带动孜然价格大涨?武汉批发商:是涨了,但和淄博烧烤关系不大

2023-05-15

当前热点-澳博首季亏损收窄32%,博彩净收益升近58%

2023-05-15

濮阳市:汇聚志愿服务光芒 照亮平安法治濮阳 精彩看点

2023-05-15

需求太猛,缺货导致涨价近40%!许至12月才能交付

2023-05-15

环球即时:惠普推出Pavilion Aero 13 2023笔记本:镁铝合金机身 轻至998.8g

2023-05-15

2023年宜宾小升初考试时间是多少

2023-05-15

三相电机功率计算公式_三相电机功率计算

2023-05-15

“妈妈岗”来了!人口大省推行“妈妈岗”:灵活上班、弹性工作,有岗位最高月薪12000元 环球热资讯

2023-05-15

【独家焦点】三国志汉末霸业破解版补丁_三国志汉末霸业破解版

2023-05-15

立新能源(001258)5月15日主力资金净买入1369.12万元 环球视讯

2023-05-15

热推荐:黄金短期倾向明显看跌!两张图看黄金技术前景 投资者该如何获利了结?

2023-05-15

港股概念追踪 | 各国央行“大肆扫货” 黄金仍是短期最佳对冲工具 板块依然具备配置价值(附概念股)_最新资讯

2023-05-15