以上内容为本站据公开信息整理股票平台有哪些,由智能算法生成,不构成投资建议。
2024年中下旬,大模型赛道逐渐冷静,零星动态更新也主要聚焦于多模态领域。相较于大语言模型逐渐收敛的技术趋势,多模态领域技术路线暂时呈现多元化态势,如OpenAI Sora 基于Diffusion Transformer架构,生数科技的核心是使用一个统一的底层架构U-ViT来处理图像、3D、视频等多类复杂生成任务。
10月21日,智源研究院提出一种新训练范式,发布原生多模态世界模型Emu3,可实现视频、图像、文本三种模态的统一理解与生成。原理上,Emu3基于自回归技术路线(Autoregressive Model),只基于下一个token(输入数据的基本单位)预测,无需扩散模型或组合式方法,将图像、文本和视频编码为一个离散空间,在多模态混合序列上从头开始联合训练一个Transformer。
自回归技术路线属于多模态大模型领域的一种方法,核心思想是利用序列数据中的时间依赖性来预测未来的数据点。该类型模型中,不同模态数据共享同一套参数,可实现跨模态的关联和生成,无需人工设计的特征工程。同时因自回归技术路线的特点,在生成数据时模型必须按顺序进行,限制了并行计算的能力,导致生成速度较慢。也会遇到长期依赖问题,即模型难以捕捉序列中较远距离的依赖关系。
此前,谷歌与麻省理工学院(MIT)何恺明团队联合推进了一个新研究项目,推出名为Fluid的视觉自回归模型,采用连续token生成方式和随机顺序生成机制。国内市场中,智源研究院作为非营利性研究组织,率先推出自回归路线多模态模型,初衷为攻克大模型领域原始创新,目标在资源允许的情况下,在国际开源社区中展现中国技术实力与训练成果。目前智源研究院已开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,以方便后续研究和社区构建与集成。
Emu3之前,多模态生成任务主要由以Stable Diffusion为代表的扩散模型所主导,多模态理解任务由CLIP视觉编码器与LLM结合的组合式方法所主导。采访中,智源研究院院长王仲远对记者表示,Emu3证明了下一个token预测可以在多模态任务中有高性能的表现,有机会将基础设施建设收敛到一条技术路线上,为大规模的多模态训练和推理提供基础。
此前一位国内头部大模型企业人员对记者表示,大语言模型是多模态模型的“智商”基础,不论文生图还是图生视频模型,都需要大语言模型作为底座,再通过其他路径将不同模型连接,实现最终的多模态。王仲远对记者表示,Emu3有别于这类组合方法,采用的是原生统一的多模态技术范式。虽然多模态大模型训练所需资源并不比大语言模型要少,但可以极大程度上复用现有基础设施,包括技术范式与GPU集群等。
另外针对目前行业从训练端转向推理端的趋势变化,王仲远对记者表示,在技术路线收敛的趋势下,厂商会更积极地探索模型的落地场景。从乐观的角度来看,说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说,训练转推理说明仅靠市场驱动,会令厂商陷入“追随者”的境地,不利于原始技术创新。
当下,王仲远称,研发多模态技术路线是比大语言模型更重要的时间节点,因为后者主要跟随已被验证的ChatGPT技术路线,而如今的多模态领域还处于非常早期。
至于Emu3模型的具体落地场景方向,王仲远表示,机器人大脑、自动驾驶、多模态对话和推理等都是潜在的应用方向。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者吕倩
相关阅读 需求大增但门槛高、堵点多,长三角跨域医学成果转化破局成果转化领域的热情度很高,但成熟度还有很大提升空间。
280 10-15 22:33 中国研究团队发布全球首个百亿级遥感大模型遥感大模型通过遥感影像数据结合人工智能数据,提供精准精细化服务,在多个行业具有广泛的应用场景。
214 09-22 16:59 阿里云再降价,大模型为何仍不着急“算账”?对云厂商来说,行业仍处于AGI变革的早期,大模型的“降价潮”未有结束的迹象。
144 09-19 20:21 “讲卡伤感情,没卡没感情”,沈向洋外滩大会谈大模型:算力、算法、数据是关键“真正做大模型的公司,如果你一万张卡都没有,你就根本不要讲自己是在干大模型的公司。”
119 09-05 19:21 文心一言更名:百度如何布局AI搜索新战场?颠覆传统搜索的AI产品可能是什么样?股票平台有哪些
744 09-04 15:40 一财最热 点击关闭