EPFL与苹果研究人员开源4M:跨多种模态和任务训练多模态基础模型的人工智能框架(epp买苹果)

来源：网络　浏览：31次　时间：2023-12-18

12月18日消息:近日，瑞士洛桑联邦理工学院（EPFL）与苹果联手推出了一项名为"Massively Multimodal Masked Modeling"(4M)的人工智能框架，旨在解决训练跨多模态视觉基础模型的挑战。尽管在自然语言处理领域，训练大型语言模型(LLMs)已经取得了显著成功，但在视觉领域，仍需要构建能够灵活处理多种输入模态和输出任务的模型。

4M框架采用了一种独特的策略，通过训练单一的Transformer编码器-解码器，具备多模态的掩码建模目标。"Massively Multimodal Masked Modeling"强调了该方法在扩展到多种各异模态方面的能力。这一方法融合了掩码建模和多模态学习的最佳特性，包括强大的跨模态预测编码能力、共享场景表示以及通过迭代抽样实现生成任务的能力。

不仅如此，4M在保持高效性的同时，通过模态特定的标记器将各种格式的输入模态转换为离散标记的集合或序列，使得单一的Transformer可以同时处理文本、边界框、图片或神经网络特征等多种输入模态，实现它们的统一表示领域。

此外，4M采用了输入和目标掩码的方式，即从所有模态随机选择一小部分标记作为模型输入，另一小部分作为目标。通过将输入和目标标记的数量与模态数量解耦，防止了随着模态数量增加而导致的计算成本快速上升。通过利用CC12M和其他可用的单模态或文本-图片对数据集，使用强大的伪标签网络创建模态对齐的绑定数据，4M在不需要多模态/多任务注释的情况下，可以在不同且大规模的数据集上进行训练。

研究人员发现，4M模型不仅在多个重要的视觉任务上表现出色，而且可以进行精细调整以在未来的任务和输入模态上取得显著成果。为了训练可导向的生成模型，可以根据任何模态进行条件化，必须使用多模态的掩码建模目标。通过对4M性能影响的深入消融分析，结合该方法的简便性和通用性，研究人员认为4M在许多视觉任务和未来发展中具有巨大的潜力。

项目体验网址:https://4m.epfl.ch/

论文网址:https://arxiv.org/abs/2312.06647

推荐站点

77分类目录
77分类目录(www.77dir.com)中国优质分类目录平台,为您提供免费分类目录提交,网站目录提交入口,中文网址目录收录,网址大全,网站大全,网站外链推广,软文发布等服务,为您分享优质正规的中文网站！
www.77dir.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com
赵容部落
赵容部落，一个收集国内，国外便宜主机，VPS，云服务器，独立服务器优惠促销信息，提供VPS新手教程，VPS评测，VPS代购代付服务的博客。
www.zrblog.net
老左博客
老左博客，致力于美国VPS，美国主机评测、推荐；分享便宜VPS，美国主机优惠码，Godaddy优惠码，NameCheap等域名优惠码的IT博客，博主老左(LaoZuo.ORG)。
www.laozuo.org

EPFL与苹果研究人员开源4M:跨多种模态和任务训练多模态基础模型的人工智能框架(epp买苹果)

推荐文章

推荐站点