Facebook опубликовал AI-модель "Segment Anything", которая может обнаруживать объекты на фотографиях и видео, даже никогда их не видела. Об этом компания сообщила на своем сайте.
Вы можете выбирать объекты, нажимая на них или используя текстовые подсказки в свободной форме. К примеру, вы можете ввести слово "кот" и увидеть, как ИИ выделит всех кошачьих на фото.
Модель также может работать в тандеме с другими моделями. Она может помочь реконструировать объект в 3D, используя одно изображение или нарисовать его с помощью гарнитуры смешанной реальности. По сути, Segment Anything может ограничить потребность в дополнительном обучении ИИ.
Как модель ШИ, так и набор данных можно загрузить с некоммерческой лицензией. То есть создатели не смогут использовать их для создания продуктов. Это в первую очередь для исследований и расширения доступа к технологии. Сейчас Meta использует несколько схожую технологию для модерации запрещенного контента, рекомендаций сообщений и тегирования фотографий.
Разработчики признают, что существующая модель несовершенна. Она может пропускать мельчайшие детали и не так точно определяет границы, как некоторые модели. И хотя Segment Anything может обрабатывать подсказки в режиме реального времени, он тормозит, когда речь идет о сложной обработке изображений.
Такие модели могут помочь в ситуациях, когда непрактично полагаться исключительно на обучающие данные. Социальная сеть могла бы использовать эту технологию, чтобы не отставать от быстро растущего объема контента. Это говорит о том, что Meta хочет обобщить компьютерное зрение.