OpenAI представила новые модели рассуждений o3 и o3 Mini
На завершающем этапе недавно прошедшего мероприятия «12 дней OpenAI» компания OpenAI рассказала о своём новом предстоящем семействе моделей рассуждений под названием o3. Подобно существующему семейству o1, семейство o3 будет включать модели o3 и o3 mini.
OpenAI также поделилась некоторыми показателями эталонных тестов для моделей o3:
- o3 набрала прорывные 75,7% в ARC-AGI Semi-Private Evaluation. С высоковычислительной конфигурацией o3 она набрала 87,5% в Semi-Private Eval.
- В бенчмарке EpochAI Frontier Math o3 решила 25,2% задач, в то время как существующие модели решили только 2%.
- В SWE-Bench Verified o3 набрала 71,7, что на 22,8 балла выше, чем o1.
- На Codeforces o3 достиг рейтинга Эло 2727.
- На AIME 2024 o3 достиг результата 96,7%. Для сравнения, o1 набрал 83,3.
- На GPQA Diamond o3 набрал 87,7%. Для сравнения, o1 набрал 78%.
Команда ARC Prize написала следующее относительно новых моделей o3 от OpenAI:
Мини-модель o3 предоставит пользователям возможность выбора между тремя уровнями рассуждений: высоким, средним и низким. Низкий уровень будет самым быстрым, но менее точным, в то время как высокий уровень будет самым медленным, но более точным.
OpenAI ещё не выпустила модели o3. Однако, уже прямо сейчас, она начала делиться моделями o3 для тестирования безопасности.
Заинтересованные исследователи безопасности также могут подать заявку на получение доступа к моделям o3 до публичного запуска. Ожидается, что модели o3 будут доступны общественности в 2025 году.
Новости партнеров
Похожие публикации
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.