Microsoft создала Windows Agent Arena для тестирования агентов генеративного ИИ

Использование генеративного ИИ и больших языковых моделей для автоматизации и упрощения задач для людей, работающих с ПК, продолжает расти. Однако также необходимо увидеть, насколько хорошо ИИ может работать для выполнения задач.

На этой неделе Microsoft Research объявила, что разработала бенчмарк специально для тестирования агентов ИИ на ПК с Windows.

Бенчмарк, как показано на странице Microsoft GitHub, называется Windows Agent Arena. Эта структура предназначена для проверки того, насколько хорошо и быстро агенты ИИ могут взаимодействовать с приложениями Windows, которые обычно используют люди.

Список приложений, которые были протестированы с агентами ИИ в Windows Agent Arena, включал веб-браузеры, такие как Microsoft Edge и Google Chrome, функции ОС, такие как настройки проводника, приложения для кодирования, такие как Visual Studio Code), простые предустановленные приложения Windows, такие как Блокнот, Часы и Paint, и даже просмотр видео с помощью проигрывателя VLC.

Microsoft заявила:

«Мы адаптируем структуру OSWorld для создания более 150 разнообразных задач Windows в репрезентативных областях, которые требуют способностей агента в планировании, понимании экрана и использовании инструментов. Наш бенчмарк также масштабируем и может быть легко распараллелен в Azure для полной оценки бенчмарка всего за 20 минут.»

Microsoft Research также создала собственного мультимодального агента под названием Navi для его тестирования в бенчмарке Windows Agent Arena. Его попросили выполнить задачи с определёнными текстовыми подсказками, например: «Можете ли вы превратить веб-сайт, который я просматриваю, в PDF-файл и поместить его на мой главный экран, вы знаете, на рабочий стол?».

Было обнаружено, что средний показатель успешности Navi составил 19,5 процента, что всё ещё довольно низко по сравнению с оценкой производительности человека в 74,5 процента.

Наличие бенчмарка, такого как Windows Agent Arena, может стать огромным достижением для создания агентов ИИ, чтобы их можно было улучшить и приблизить к уровню производительности человека.

Добавлено: 15-09-2024, 14:26
0
204
Поделиться:

Подписывайтесь на «Umteh.com» в Новостях и Telegram.

Новости партнеров

Новости СМИ2

Похожие публикации


Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Наверх