每日动态!在GitHub上“搞事”，Meta开源ImageBind新模型，超越GPT-4，对齐文本、音频等6种模态

声明：本文来自微信公众号“CSDN”（ID:CSDNnews），授权站长之家转载发布。

Meta带着开源的模型再次登场

(资料图片)

据外媒报道，上周四，Google、微软、OpenAI几家公司的 CEO 受邀去白宫，共论关于人工智能发展的一些重要问题。然而，让人有些想不通的是，深耕 AI 多年的 Meta 公司（前身为 Facebook）却没有在受邀之列。

没多久，更让 Meta CEO 扎克伯格扎心的是，一位官员对此解释称，本次会议“侧重的是目前在 AI 领域，尤其是面向消费者的产品方面，处于领先地位的公司。”

显然对于这样的解释，并不能让人信服，毕竟这一次受邀名单中还有一家由 OpenAI 的前成员创立的美国人工智能初创和公益公司Anthropic。

似乎是为了出一口“气”，也为证明自家的实力，相比 OpenAI、Google 推出闭源的 GPT-4、Bard 模型，Meta 在开源大模型的路上一骑绝尘，继两个月前开源 LLaMA大模型之后，再次于5月9日开源了一个新的 AI 模型——ImageBind（https://github.com/facebookresearch/ImageBind），短短一天时间，收获了1.6k 个 Star。

这个模型与众不同之处便是可以将多个数据流连接在一起，包括文本、图像/视频和音频、视觉、IMU、热数据和深度（Depth）数据。这也是业界第一个能够整合六种类型数据的模型。

01ImageBind 用图像对齐六模态，旨在实现感官大一统

简单来看，相比 Midjourney、Stable Diffusion 和 DALL-E2这样将文字与图像配对的图像生成器，ImageBind 更像是广撒网，可以连接文本、图像/视频、音频、3D 测量（深度）、温度数据(热)和运动数据(来自 IMU)，而且它无需先针对每一种可能性进行训练，直接预测数据之间的联系，类似于人类感知或者想象环境的方式。

对此，Meta 在其官方博客中也说道，“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是，它能使机器更好地一起分析许多不同形式的信息，从而有助于推进人工智能。”

打个比喻，人类可以听或者阅读一些关于描述某个动物的文本，然后在现实生活中看到就能认识。

你站在繁忙的城市街道等有刺激性环境中，你的大脑会（很大程度上应该是无意识地）吸收景象、声音和其他感官体验，以此推断有关来往的汽车、行人、高楼、天气等信息。

在很多场景中，一个单一的联合嵌入空间包含许多不同种类的数据，如声音、图像、视频等等。

如今，基于 ImageBind 这样的模型可以让机器学习更接近人类学习。

在官方博客中，Meta 分享 ImageBind 是通过图像的绑定属性，只要将每个模态的嵌入与图像嵌入对齐，即图像与各种模式共存，可以作为连接这些模式的桥梁，例如利用网络数据将文本与图像连接起来，或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。

ImageBind 整体概览

从大规模网络数据中学到的视觉表征可以作为目标来学习不同模态的特征。这使得 ImageBind 能够对齐与图像共同出现的任何模式，自然地将这些模式相互对齐。与图像有强烈关联的模态，如热学和深度，更容易对齐。非视觉的模态，如音频和 IMU，具有较弱的关联性。

ImageBind 显示，图像配对数据足以将这六种模式绑定在一起。该模型可以更全面地解释内容，使不同的模式可以相互 "对话"，并在不观察它们的情况下找到联系。

例如，ImageBind 可以在没有看到它们在一起的情况下将音频和文本联系起来。这使得其他模型能够 "理解 "新的模式，而不需要任何资源密集型的训练。

不过，该模型目前只是一个研究项目，没有直接的消费者和实际应用，但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式，也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式，趟出一条属于开源大模型的路。

02ImageBind 强大的背后

与此同时，作为一种多模态的模型，ImageBind 还加入了 Meta近期开源的一系列 AI 工具，包括DINOv2计算机视觉模型，这是一种不需要微调训练高性能计算机视觉模型的新方法;以及 Segment Anything（SAM），这是一种通用分割模型，可以根据任何用户的提示，对任何图像中的任何物体进行分割。

ImageBind 是对这些模型的补充，因为它专注于多模态表示学习。它试图为多种模式学习提供一个统一的特征空间，包括但不限于图像和视频。在未来， ImageBind 可以利用 DINOv2的强大视觉特征来进一步提高其能力。

03ImageBind 的性能

针对 ImageBind 性能，Meta 研究科学家还发布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》（https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf）论文，分享了技术细则。

通过分析表明，ImageBind 模型的性能实际上可以通过使用很少的训练实例来提高。这个模型有新的出现的能力，或者说是扩展行为--也就是说，在较小的模型中不存在的能力，但在较大的版本中出现。这可能包括识别哪种音频适合某张图片或从照片中预测场景的深度。

而 ImageBind 的缩放行为随着图像编码器的强度而提高。

换句话说，ImageBind 对准各种模式的能力随着视觉模型的强度和大小而增加。这表明，较大的视觉模型有利于非视觉任务，如音频分类，而且训练这种模型的好处超出了计算机视觉任务。

在实验中，研究人员使用了 ImageBind 的音频和深度编码器，并将其与之前在 zero-shot 检索以及音频和深度分类任务中的工作进行了比较。

结果显示，ImageBind 可以用于少量样本的音频和深度分类任务，并且优于之前定制的方法。

最终，Meta 认为 ImageBind 这项技术最终会超越目前的六种“感官”，其在博客上说道，“虽然我们在当前的研究中探索了六种模式，但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”

04ImageBind 可以用来干什么?

如果说 ChatGPT 可以充当搜索引擎、问答社区，Midjourney 可以被用来当画画工具，那么用 ImageBind 可以做什么?

根据官方发布的 Demo 显示，它可以直接用图片生成音频:

也可以音频生成图片:

亦或者直接给一个文本，就可以检索相关的图片或者音频内容:

当然，基于 ImageBind 也可以给出一个音频+一张图，如“狗叫声”+海景图:

可以直接得到一张“狗在看海”的图:

也可以给出音频，生成相应的图像:

正如上文所述， ImageBind 给出了未来生成式 AI 系统可以以多模态呈现的方式，同时，结合 Meta 内部的虚拟现实、混合现实和元宇宙等技术和场景结合。

可以想象一下未来的头显设备，它不仅可以生成音频和视频输入，也可以生成物理舞台上的环境和运动，即可以动态构建3D 场景（包括声音、运动等）。

亦或者，虚拟游戏开发人员也许最终可以使用它来减少设计过程中的大量跑腿工作。

同样，内容创作者可以仅基于文本、图像或音频输入制作具有逼真的音频和动作的沉浸式视频。

也很容易想象，用 ImageBind 这样的工具会在无障碍空间打开新的大门，譬如，生成实时多媒体描述来帮助有视力或听力障碍的人更好地感知他们的直接环境。

“在典型的人工智能系统中，每个模态都有特定的嵌入（即可以表示数据及其在机器学习中的关系的数字向量），”Meta 说。“ImageBind 表明可以跨多种模态创建联合嵌入空间，而无需使用每种不同模态组合对数据进行训练。这很重要，因为研究人员无法创建包含例如来自繁忙城市街道的音频数据和热数据，或深度数据和海边文本描述的样本的数据集。”

当前，外界可以通过大约30行 Python 代码就能使用这个多模式嵌入 API:

05开源大模型是好事还是坏事?

ImageBind 一经官宣，也吸引了很多 AI 专家的关注。如卷积网络之父 Yann LeCun 也在第一时间分享了关于 ImageBind 的资料:

NVIDIA AI 科学家 Jim Fan 在 Twitter 上表示:

自从 LLaMA 以来，Meta 就在开源领域大放异彩。

ImageBind:Meta 最新的多模态嵌入，不仅涵盖了常规数据类型（文本、图像、音频），还包括深度、热量(红外)和 IMU 信号!

OpenAI Embedding 是 AI 驱动搜索和长期记忆的基础。ImageBind 是 Meta 的 Embedding API，用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。

通过对齐6种模态，你可以实现一些仅靠文本的 GPT-4无法实现的花式功能:

跨模态检索:将其视为多媒体谷歌搜索

嵌入空间算术:无缝地组合不同的数据格式。

生成:通过扩散将任何模态映射到其他任何模态。

当然，这种通用的多模态嵌入在性能上优于领域特定的特征。

ImageBind:将它们全部绑定到一个嵌入空间。

也有网友评价道，「这项创新为增强搜索、沉浸式 VR 体验和高级机器人技术铺平了道路。对于 AI 爱好者和专业人士来说，激动人心的时刻即将到来!」。

不过，对于 Meta 采取开源的做法，也有人提出了质疑。

据 The Verge 报道，那些反对开源的人，如 OpenAI，表示这种做法对创作者有害，因为竞争对手可以复制他们的作品，并且可能具有潜在的危险，允许恶意行为者利用最先进的人工智能模型。

与之形成对比的是，支持开源的人则认为，像 Meta 开源 ImageBind 的做法有利于生态的快速建立与发展，也能集结全球的力量，帮助 AI 模型快速迭代和捕捉 Bug。

早些时候，Meta开源的LLaMA 模型只能用于研究用途，但是期间LLaMA 模型在4chan 上被泄露，有匿名用户通过 BT 种子公开了 LLaMA-65B—— 有650亿个参数的 LLaMA，容量为220GB。

随着 LLaMA “被公开”，一大批基于这款大模型的衍生品，号称是 ChatGPT 开源替代品的工具在短时间内快速涌现，如跟着 LLaMA（美洲驼）名字走的“驼类”家族包含了:斯坦福大学发布的Alpaca(羊驼，https://github.com/tatsu-lab/stanford_alpaca)，伯克利、卡内基梅隆大学等高校研究人员开源的Vicuna(骆马)，还有基于 LLaMA7B 的多语言指令跟随语言模型 Guanaco(原驼，https://guanaco-model.github.io/)等等。

面对这股新兴的力量，近日，在一位谷歌内部的研究人员泄露的一份文件中显示，在大模型时代，「Google 没有护城河，OpenAI 也没有」。其主要原因就是第三股——开源大模型的力量与生态正在崛起。

所以，OpenAI 和 Google 两家在 AI 大模型上你追我赶的竞争中，谁能笑到最后，也未必就不会是 Meta，我们也将拭目以待。对此，你是否看好开源大模型的发展?

01ImageBind 用图像对齐六模态，旨在实现感官大一统

02ImageBind 强大的背后

03ImageBind 的性能

04ImageBind 可以用来干什么?

05开源大模型是好事还是坏事?

每日动态!在GitHub上“搞事”，Meta开源ImageBind新模型，超越GPT-4，对齐文本、音频等6种模态

要闻速递：甘肃凉州：让非遗民俗文化“活起来”

环球消息！致敬！每一位平凡的劳动者

请张颂文代言，海澜之家赢了？

日丰股份（002953）5月10日主力资金净买入395.47万元_世界快资讯

大黄蜂6号和7号和8号区别，哪款好？附对比图

每日速讯：6家企业 营收总额破百亿

西昌：花果飘香山水间 “浪漫经济”火出圈-全球新要闻

黑科技“氧灸”助力解决都市人久坐病_热闻

当前快讯:共谋渠岸追赶超越的“珍珑棋局”

全球滚动:老里：让豪斯上场的原因是他的身材、运动能力、与哈登的熟悉程度

天天微头条丨古风古韵来袭 国际媒体人盛赞四川广元昭化文旅魅力

多个西方国家就美国枪支暴力发出旅行警告

银行为何不让取未冻结存款？如皋法院司法建议为当事人解燃眉之急 世界头条

自称“馆长被区长推倒昏迷”的博物馆重开，此前官方通报称无肢体接触_最新资讯

天天微速讯：春夏穿搭趋势！芭蕾时尚美学穿搭

数码视讯（300079）5月9日主力资金净买入1203.05万元

“村BA”燃爆今夏 甘肃这地喊话创造“传祁” 热点聚焦

赤峰黄金：5月9日融资买入2798.91万元，融资融券余额10.71亿元

华夏中证装备产业ETF净值下跌2.76% 请保持关注

天天日报丨陕西省机关事业单位养老保险经办系统怎么进入_陕西省机关事业单位养老保险经办系统

哈尔滨承重墙被砸楼栋住户：整不明白，几个傻子怎么能把楼给崩了

世界热门:西藏阿里：民警爱心接力 受伤“夜猫子”终获救

环球热讯:四月ETF净申购份额超五百亿份，资金借道涌入医药、半导体等行业

天王山之战！太阳VS掘金，约基奇遇克星裁判，三巨头力争破金身

2023年5月9日钢坯价格最新行情预测

天工国际(00826)：天工股份解除限售434.52万股-环球新视野

天天资讯：19楼文学_23文学网

【全球时快讯】飞行员怎么报考志愿名培训

从内到外全面升级 深蓝S7增程版值得买么？ 聚焦

十大恐怖游戏排行榜，生化危机排在第一名

世界最新：或许是最后的机会！29岁陈梦再冲世乒赛冠军，能圆梦大满贯吗？

A股收市：上证指数一度升破3400点

索马里军方宣布逮捕3名“青年党”重要领导人

今日聚焦!前沿生物创新低 2020年上市即巅峰两募资累计20.4亿

市值蒸发1000多亿！扫地茅净利润连降，4万股民跌懵了

华硕ROGAlly游戏手持设备到目前为止我们所知道的一切

天天观察：消费低迷+工资下降 日本经济复苏蒙上阴影

优优绿能IPO：充电业务年入10亿近半靠关联交易，小米突击入股

如何安装压花_送12~16男孩什么礼物好 2000

全球速读：鱼旗寿司关东煮南部新城店_鱼旗

公安机关对哈尔滨私拆承重墙事件责任人采取刑事强制措施

电脑什么配置比较好 看完你就明白了

河南新县：杜鹃花开醉游人 环球信息

[徐汇]徐教院附中:初中英语学科数字化转型项目“三个助手”资源与平台试用调研活动-环球关注

CARIAD软件，真的要为大众的销量负全责吗？

月亮在怀里囧囧有妖_你在我怀里入睡

俄乌在土耳其丢脸

首届“510中国品牌日·能源产业品牌宣传周”在京启动

景兴纸业：5月8日融资买入107.59万元，融资融券余额4.21亿元 当前关注

观察：华严小学参加青白江区第八届中小学生艺术节优秀节目展演活动

@敏感人群，如何用食物“抗炎”？_世界新动态

当前热点-债基收益稳健 产品新发势头依然强劲

每日快看：岩性和地层油气藏地质与探

爱与救赎：二十年福彩老业主救回双色球1536万大奖_世界播报

生鲜外带，让美食离消费者更近(微经济) 世界最新

热议：黎巴嫩外长批评一些欧美国家阻碍黎遣返叙利亚难民

全球观热点：办公室主任工作总结范文20篇（办公室主任工作总结）

抖音流行歌曲排行榜_流行歌曲排行榜

凤凰电动自行车荣获“2023中国自行车电动自行车设计大赛”金奖

蛋白质水解方程式_蛋白质水解

易瑞生物: 关于举行2022年度网上业绩说明会的公告

世界报道:禾盛新材股东李云飞质押450万股 用于融资

恒大地产：决定对“19恒大01”展期至2024年5月6日

世界快播：“刷单局中局”，警惕“复合型”刷单诈骗

著名导演万玛才旦去世，他的第9部电影才杀青 全球实时

四川房子拆迁补偿标准是多少

埃尔多安竞选活动打传统价值牌，指责反对派“亲LGBT”-世界热点评

传销的本质是什么 即时看

全球观点：讯飞星火认知大模型发布会：探路国产ChatGPT前沿

广东航空专业的职校有哪些 每日热闻

“6做到” “6禁止”！哈尔滨发布此管理通知！

菜鸟计划香港IPO筹集20亿美元资金？菜鸟官方回复不评论 环球热消息

膝盖疼怎么办？这些好习惯让你远离膝关节问题！_热点聚焦

【世界聚看点】秦岭四宝科学公园回应大熊猫“珠珠”翻墙越狱：这是第一次

每日速讯：6家企业营收总额破百亿

天天微头条丨古风古韵来袭国际媒体人盛赞四川广元昭化文旅魅力

银行为何不让取未冻结存款？如皋法院司法建议为当事人解燃眉之急世界头条

“村BA”燃爆今夏甘肃这地喊话创造“传祁” 热点聚焦

世界热门:西藏阿里：民警爱心接力　受伤“夜猫子”终获救

从内到外全面升级深蓝S7增程版值得买么？聚焦

天天观察：消费低迷+工资下降日本经济复苏蒙上阴影

电脑什么配置比较好看完你就明白了

河南新县：杜鹃花开醉游人环球信息

景兴纸业：5月8日融资买入107.59万元，融资融券余额4.21亿元当前关注

当前热点-债基收益稳健产品新发势头依然强劲

世界报道:禾盛新材股东李云飞质押450万股用于融资

著名导演万玛才旦去世，他的第9部电影才杀青全球实时

传销的本质是什么即时看

广东航空专业的职校有哪些每日热闻

菜鸟计划香港IPO筹集20亿美元资金？菜鸟官方回复不评论环球热消息

55.87万千瓦时大唐万宁和山光伏电站单日发电量再创新高

每日资讯：预计二季度电力消费增速明显回升拉动上半年全社会用电量增长6%左右

振动诱导下人体腰背部肌肉加速疲劳机理及实验研究天天报道

赶尸艳谈电影在线观看_赶尸艳谈电影独家焦点

北京密云区东邵渠镇：引先进种植经验促甘薯高产增收

持续改善提升农村人居环境焦点速讯

每日关注!365家厦企迈开步伐走出去今年以来获意向订单29.8亿元