当前位置:77分类目录 » 站长资讯 » 资讯文章 » 站长新闻 » 文章详细 订阅RssFeed

苹果的「Ferret」是一种新的开源多模态机器学习模型(iphonefive)

来源:网络 浏览:23次 时间:2023-12-25

苹果公司与康奈尔大学的研究人员于 10 月份悄然推出了一款名为首次在 Github 上发布">「Ferret」的开源多模态大型语言模型(LLM)。这一研究成果首次在 Github 上发布,但并未引起太多关注,没有进行任何宣布或庆祝。Ferret 的代码与 Ferret-Bench 一同于 10 月 30 日发布,而检查点版本则于 12 月 14 日推出。

ferret_fig_diagram_v2.jpg

图片来自 Ferret

据 VentureBeat 报道,虽然起初并未受到太多关注,但在周六,这一发布对 AI 研究人员来说变得更为重要。一家医疗 AI 非营利组织的负责人 Bart De Witte 在 X 平台上发帖称这一「错过」的发布「证明了苹果对有影响力的 AI 研究的承诺」。

Ferret 的开源发布采用非商业许可,因此在当前状态下不能商业化。然而,它总有可能以某种方式被用于未来的苹果产品或服务中。

苹果 AI/ML 研究科学家 Zhe Gan 在 10 月的一条推文中解释了 Ferret 的用途,即作为一个可以「在图像中的任何位置、以任何精度、使用任何形状的区域进行参考和定位」的系统。简而言之,该模型可以检查在图像上绘制的区域,确定其中对用户查询有用的元素,识别它,并在检测到的元素周围绘制边界框。然后,它可以将识别出的元素作为查询的一部分,然后以典型的方式做出响应。

例如,高亮显示图像中的动物并询问 LLM 动物是什么,它可以确定动物的物种,以及用户指的是一群动物中的个体。然后,它可以使用图像中检测到的其他项目的上下文提供进一步的响应。

这一发布对研究人员来说很重要,因为它表明苹果愿意在 AI 工作上更加开放,而不是采取其通常的保密立场。

苹果面临的另一个问题是基础设施,虽然它正在努力增加 AI 服务器的数量,但目前可能没有足够的规模来与例如 ChatGPT 等进行竞争。尽管苹果可以与其他公司合作扩大其能力,但另一种方法是像它刚刚做的那样,即发布一个开源模型。

Github 发布中的一个有趣元素是,Reddit 的 r/Apple 注意到 Ferret 是「在拥有 80GB 内存的 8 个 A100 GPU 上训练的」。考虑到苹果与 Nvidia GPU 采用的历史,这被视为对 GPU 制造商的罕见认可。

查看 Ferret 更多介绍:https://top.aibase.com/tool/ml-ferret