В России разработали первую мультимодальную нейросеть
Сотрудники научно-исследовательского Института искусственного интеллекта (AIRI) разработали первую мультимодальную модель искусственного интеллекта (ИИ) OmniFusion. Она способна поддерживать виртуальный диалог и отвечать на вопросы пользователей по изображениям.
Нейросеть необходима для расширения возможностей систем обработки языка с помощью интеграции дополнительных данных, например, изображений, а в перспективе и аудио, 3D- и видеоконтента, пишет Forbes.
Модель способна распознавать и описывать изображения. Она поможет объяснить, что изображено на фото, узнать рецепт блюда, которое на фото и многое другое.
OmniFusion способна выполнять и логические задачи, например, она может решить математическое уравнение, которое написано на доске.
«Спектр возможностей широкий: уже сейчас модель может проанализировать медицинское изображение [снимок] и указать на нем какую-то проблему. Разумеется, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины», — указывают в AIRI.