Alibaba выпустила новый генеративный ИИ, способный понимать сложные изображения и вести диалог

Новые модели представляют собой значительный шаг вперед в развитии мультимодального ИИ, способного обрабатывать как визуальные, так и текстовые данные на английском и китайском языках.

Китайский технологический гигант Alibaba представил две новые генеративные модели искусственного интеллекта Qwen-VL (Qwen Large Vision Language Model) и Qwen-VL-Chat, демонстрирующие расширенные возможности по интерпретации изображений и ведению естественных диалогов.

null

Учитывая растущий спрос на более совершенные возможности искусственного интеллекта, новые модели Alibaba приходятся как нельзя кстати. Новые модели не ограничиваются только пониманием текста: Qwen-VL способен воспринимать и понимать изображения, текст и ограничительные рамки. Он может обрабатывать открытые запросы, связанные с различными изображениями, и генерировать соответствующие подписи. Но на этом его возможности не заканчиваются.

Его собрат, Qwen-VL-Chat, предназначен для более сложных взаимодействий. Например, он может сравнивать несколько изображений, отвечать на несколько раундов вопросов и даже писать истории или создавать изображения на основе предоставленных пользователем фотографий. Представьте себе, что вы спрашиваете ИИ о расположении больницы по фотографии ее вывески и получаете точный ответ — вот уровень сложности, который обещает Alibaba.

Выпуская модели с открытым исходным кодом, Alibaba гарантирует, что исследователи, учёные и компании по всему миру смогут использовать их для создания собственных приложений, не прибегая к трудоёмкому и дорогостоящему процессу обучения нейросетей с нуля.

Поделись с друзьями — нажми на одну из кнопок ниже!