小扎联手黄仁勋,推介Meta最新开源AI视频模型,两人还互换皮衣
周一,Meta首席执行官马克·扎克伯格在科罗拉多州举行的SIGGRAPH 2024 大会炉边谈话中,与英伟达首席执行官黄仁勋一起向大众推介了Meta的视频视觉AI模型的最新版本——Segment Anything 2 (SA2)。
Meta于去年推出了Segment Anything,这是一个机器学习模型,可以快速可靠地识别和勾勒出图像中的任何东西。而Segment Anything 2 (SA)更是进入了视频领域,显示了该领域超快的发展速度。
Segment(分割)是一个技术术语,指的是视觉模型在查看图片时,会挑选出各个部分:“这是一只狗,这是狗身后的一棵树”,而不是“这是从狗身上长出来的一棵树”。这种技术经过多年发展变得更好、更快,其中“分割一切”是向前迈出的重要一步。
作为新一代产品,Segment Anything 2 (SA2)也适用于视频而不仅仅是静止图像;当然,如果把视频分解为无数帧,也可以应用第一代的Segment Anything,但显然效率很低。
扎克伯格在与黄仁勋的对话中介绍道:“科学家利用这一模型来研究珊瑚礁和自然栖息地等,在视频中就能够做到这一点,无需拍摄任何照片,就能告诉它你想要什么。这非常酷。”
当然,处理视频对计算的要求要高得多,SA2可以在不访问数据中心的情况下运行,这证明了整个行业在效率方面的进步。当然,SA2仍然是一个庞大的模型,需要强大的硬件才能运行,但在一年前,想要像现在一样快速、灵活地进行分割也很难做到。
与第一代模型一样,SA2也将开放并免费使用。
当然,这样的模型需要大量的数据来训练,Meta同时还发布了一个包含50,000个视频的大型带注释数据库,该数据库是为SA2专门创建的。在描述SA2的论文中,还有一个包含超过100,000个“内部可用”视频的数据库也用于训练,但这个数据库没有公开。
Meta几年来一直是“开放”AI领域的领导者,已经这样做了很长时间。最近,LLaMa、Segment Anything和免费推出的其他一些模型已成为这些领域AI性能通用的标准,当然它们的“开放性”还存在争议。
对此,扎克伯格表示:“这不仅仅是一个你可以构建的软件——你需要一个围绕它的生态系统。如果我们不开源它,它几乎就不会那么好用,对吧?尽管我认为这会对生态系统有所帮助,但我们这样做不是因为我们是利他主义者,我们这样做是因为我们认为这将使我们正在构建的东西成为最好的产品。”
在炉边谈话中,两人还交换了皮夹克。
“它是黑色的,皮革和羊毛混纺,”扎克伯格在描述他给黄仁勋的那件皮衣时说道:“很有气质。我的意思是,再给这家伙买条大金链子。”
黄仁勋回赠给扎克伯格一件皮夹克,说这是他的妻子洛里为纪念今年的 SIGGRAPH大会而买的。过去两个小时里,他一直穿着这件皮夹克。
扎克伯格回应称:“因为皮衣被您穿过,所以更有价值。”
在交流结束时,黄仁勋对扎克伯格的身材赞不绝口。
“我认为马克很有肌肉,”他说:“你看,这家伙肌肉很发达。”
扎克伯格拥抱了黄仁勋,称赞道:“你也是,老兄。”
主编精选,篇篇重磅,请点击订阅“邮件订阅”