Представлена передовая ИИ-модель DeepSeek-V3 с открытым исходным кодом из Китая

DeepSeek AI, китайская исследовательская лаборатория искусственного интеллекта (ИИ), произвела фурор в сообществе ИИ с открытым исходным кодом.

Недавно DeepSeek анонсировала DeepSeek-V3, большую языковую модель Mixture-of-Experts (MoE) с 671 миллиардом общих параметров, с 37 миллиардами активированных для каждого токена.

Согласно результатам популярных тестов ИИ, эта новая модель DeepSeek-V3 является самой мощной моделью с открытым исходным кодом, и она даже работает лучше, чем популярные модели с закрытым исходным кодом, включая GPT-4o от OpenAI и Claude 3.5 от Anthropic.

DeepSeek-V3 показала самые современные результаты в девяти тестах – больше, чем любая сопоставимая модель такого размера.

Несмотря на превосходную производительность в ключевых тестах, DeepSeek-V3 требует всего 2,788 млн часов GPU H800 для своего полного обучения и около 5,6 млн долларов США на обучение.

Для сравнения, эквивалентная модель с открытым исходным кодом Llama 3 405B требует 30,8 млн часов GPU для обучения. DeepSeek-V3 экономически эффективна благодаря поддержке обучения FP8 и глубокой инженерной оптимизации.

DeepSeek-V3 также очень эффективен в выводе. С 8 февраля входные данные DeepSeek-V3 будут стоить 0,27 долл. США/миллион токенов (0,07 долл. США/миллион токенов с кэшированием), а выходные данные будут стоить 1,10 долл. США/миллион токенов.

Эта цена составляет почти одну десятую от того, что OpenAI и другие ведущие компании ИИ в настоящее время взимают за свои флагманские передовые модели.

Команда DeepSeek написала следующее относительно выпуска DeepSeek-V3:

«Миссия DeepSeek непоколебима. Мы рады поделиться нашим прогрессом с сообществом и увидеть, как сокращается разрыв между открытыми и закрытыми моделями. Это только начало! С нетерпением ждем мультимодальной поддержки и других передовых функций в экосистеме DeepSeek.»

Вы можете загрузить модель DeepSeek-V3 на GitHub и HuggingFace. Благодаря своей впечатляющей производительности и доступности DeepSeek-V3 может демократизировать доступ к передовым моделям ИИ. Этот релиз знаменует собой значительный шаг к сокращению разрыва между открытыми и закрытыми моделями ИИ.

Добавлено: 27-12-2024, 10:07
0
317
Поделиться:

Подписывайтесь на «Umteh.com» в Новостях и Telegram.

Новости партнеров

Новости СМИ2

Похожие публикации


Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Наверх