DeepMind разработала универсальную архитектуру Perceiver IO для обработки всех типов входных и выходных данных искусственного интеллекта
В ее основе — оригинальная модель Perceiver, представленная в июне 2021 года. Она обрабатывает изображения, аудио, видео и их комбинации, однако ограничивается задачами с простыми выходными данными, такими как классификация.
Для решения этой проблемы исследователи создали более общую версию архитектуры — Perceiver IO. Она может выдавать широкий спектр выходных данных из разнообразия входящей информации, что делает ее применимой к таким областям, как обработка естественного языка, компьютерное зрение и мультимодальное понимание.
Perceiver и Perceiver IO построены на архитектуре трансформеров, которые хорошо работают для входных данных, содержащих нескольких тысяч элементов. Однако, по словам исследователей, изображения, аудио и видео могут содержать миллионы таких элементов.
«С помощью оригинального Perceiver мы решили главную проблему универсальной архитектуры: масштабирование трансформеров на очень большие входные данные без введения допущений, специфичных для предметной области», — говорится в блоге.
источник: forklog.com
Исследователи также считают, что Perceiver IO может достичь беспрецедентного уровня универсальности.
Они опубликовали исходный код архитектуры на GitHub и надеются, что это поможет исследователям и практикам разрабатывать приложения без необходимости тратить ресурсы на создание индивидуальных решений с использованием специализированных систем.
Напомним, в конце июля DeepMind представила обширную игровую среду XLand для обучения универсальных агентов искусственного интеллекта.
В июле специалисты ИИ-лаборатории собрали и опубликовали самую полную базу данных белковых структур человека, созданную нейронной сетью AlphaFold.
В июне ученые из DeepMind заявили, что для достижения общего искусственного интеллекта достаточно обучения с подкреплением.