Microsoft создала Windows Agent Arena для тестирования агентов генеративного ИИ
Использование генеративного ИИ и больших языковых моделей для автоматизации и упрощения задач для людей, работающих с ПК, продолжает расти. Однако также необходимо увидеть, насколько хорошо ИИ может работать для выполнения задач.
На этой неделе Microsoft Research объявила, что разработала бенчмарк специально для тестирования агентов ИИ на ПК с Windows.
Бенчмарк, как показано на странице Microsoft GitHub, называется Windows Agent Arena. Эта структура предназначена для проверки того, насколько хорошо и быстро агенты ИИ могут взаимодействовать с приложениями Windows, которые обычно используют люди.
Список приложений, которые были протестированы с агентами ИИ в Windows Agent Arena, включал веб-браузеры, такие как Microsoft Edge и Google Chrome, функции ОС, такие как настройки проводника, приложения для кодирования, такие как Visual Studio Code), простые предустановленные приложения Windows, такие как Блокнот, Часы и Paint, и даже просмотр видео с помощью проигрывателя VLC.
Microsoft заявила:
Microsoft Research также создала собственного мультимодального агента под названием Navi для его тестирования в бенчмарке Windows Agent Arena. Его попросили выполнить задачи с определёнными текстовыми подсказками, например: «Можете ли вы превратить веб-сайт, который я просматриваю, в PDF-файл и поместить его на мой главный экран, вы знаете, на рабочий стол?».
Было обнаружено, что средний показатель успешности Navi составил 19,5 процента, что всё ещё довольно низко по сравнению с оценкой производительности человека в 74,5 процента.
Наличие бенчмарка, такого как Windows Agent Arena, может стать огромным достижением для создания агентов ИИ, чтобы их можно было улучшить и приблизить к уровню производительности человека.
Новости партнеров
Похожие публикации
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.