Представлена передовая ИИ-модель DeepSeek-V3 с открытым исходным кодом из Китая
DeepSeek AI, китайская исследовательская лаборатория искусственного интеллекта (ИИ), произвела фурор в сообществе ИИ с открытым исходным кодом.
Недавно DeepSeek анонсировала DeepSeek-V3, большую языковую модель Mixture-of-Experts (MoE) с 671 миллиардом общих параметров, с 37 миллиардами активированных для каждого токена.
Согласно результатам популярных тестов ИИ, эта новая модель DeepSeek-V3 является самой мощной моделью с открытым исходным кодом, и она даже работает лучше, чем популярные модели с закрытым исходным кодом, включая GPT-4o от OpenAI и Claude 3.5 от Anthropic.
DeepSeek-V3 показала самые современные результаты в девяти тестах – больше, чем любая сопоставимая модель такого размера.
Несмотря на превосходную производительность в ключевых тестах, DeepSeek-V3 требует всего 2,788 млн часов GPU H800 для своего полного обучения и около 5,6 млн долларов США на обучение.
Для сравнения, эквивалентная модель с открытым исходным кодом Llama 3 405B требует 30,8 млн часов GPU для обучения. DeepSeek-V3 экономически эффективна благодаря поддержке обучения FP8 и глубокой инженерной оптимизации.
DeepSeek-V3 также очень эффективен в выводе. С 8 февраля входные данные DeepSeek-V3 будут стоить 0,27 долл. США/миллион токенов (0,07 долл. США/миллион токенов с кэшированием), а выходные данные будут стоить 1,10 долл. США/миллион токенов.
Эта цена составляет почти одну десятую от того, что OpenAI и другие ведущие компании ИИ в настоящее время взимают за свои флагманские передовые модели.
Команда DeepSeek написала следующее относительно выпуска DeepSeek-V3:
Вы можете загрузить модель DeepSeek-V3 на GitHub и HuggingFace. Благодаря своей впечатляющей производительности и доступности DeepSeek-V3 может демократизировать доступ к передовым моделям ИИ. Этот релиз знаменует собой значительный шаг к сокращению разрыва между открытыми и закрытыми моделями ИИ.
Новости партнеров
Похожие публикации
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.