OpenAI GPT-4o mini превзошел Gemini 1.5 Flash и Claude Haiku в большинстве тестов
OpenAI выпустила свою новую модель GPT-4o mini, ставшую самой доступной среди небольших моделей компании. Этот ИИ оказался свыше чем на 60% доступнее по цене, чем GPT-3.5 Turbo, при этом демонстрируя впечатляющие результаты. Она набрала 82% в тесте MMLU AI и сейчас опережает GPT-4 по предпочтениям в чате на таблице лидеров LMSYS.
GPT-4o mini также обошла Gemini 1.5 Flash и Claude 3 Haiku в ряде тестов на текстовый интеллект и мультимодальное мышление. В задачах, требующих рассуждений на основе текста и изображений, модель получила 82,0% по MMLU, превзойдя другие небольшие модели. В тестах на математическое мышление и кодирование она набрала 87,0%, в то время как Gemini Flash и Claude Haiku показали результаты 75,5% и 71,7% соответственно.
По результатам теста HumanEval на производительность в кодировании GPT-4o mini получила 87,2%, в то время как Gemini Flash и Claude Haiku набрали 71,5% и 75,9% соответственно. В мультимодальном мышлении модель достигла 59,4%, обойдя Gemini Flash с 56,1% и Claude Haiku с 50,2%. Единственный тест, в котором Gemini 1.5 Flash превзошла GPT-4o mini, был MathVista, где она опередила на 3%.
Кроме того, GPT-4o mini продемонстрировала высокую производительность при вызове функций, что позволяет разработчикам создавать приложения, взаимодействующие с внешними системами для извлечения данных или выполнения действий. Модель также показала улучшенные результаты в работе с длинным контекстом по сравнению с GPT-3.5 Turbo.
Новости партнеров
Похожие публикации
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.