メタは現地時間7月29日、画像と動画の両方で、対象物を背景から分離して識別できる新しいAIモデル「SAM 2」(Segment Anything Model 2)を発表した。2023年に公開したSAMの次世代バージョンで、Apache 2.0ライセンスに基づき公開されている。
Introducing Meta Segment Anything Model 2 (SAM 2) — the first unified model for real-time, promptable object segmentation in images & videos.
— AI at Meta (@AIatMeta) July 29, 2024
SAM 2 is available today under Apache 2.0 so that anyone can use it to build their own experiences
Details ➡️ https://t.co/eTTDpxI60hpic.twitter.com/mOFiF1kZfE
SAM 2は、画像や動画内の任意の物体をリアルタイムで識別し、セグメント化できる統合モデル。従来のビデオセグメンテーション手法と比べて3倍速く、より高い精度を実現した。学習データにない新しい対象に対応できるゼロショット汎化能力も備えている。
また、メタはCC BY 4.0ライセンスの下でSAM 2を構築するために使用した新しいデータセット「SA-V」も公開している。既存のデータセットに比べて10倍以上の注釈と約4.5倍の動画を含むもの。具体的には18万本以上の動画から抽出した1200万点以上のマスクレット(時間と空間の両方の情報を含む物体のマスク)を含んでいる。
SAM 2は、自動運転車用システムのトレーニングや、動画編集、科学や医療分野での研究支援などが期待されている。具体的には、ドローンで絶滅危惧種の動物を追跡したり、医療に使われる内視鏡カメラの映像をもとに領域を特定する例などを挙げている。