ProofNews: Apple, Nvidia и Anthropic обучали свои ИИ с помощью субтитров на YouTube

Крупнейшие технологические компании, в том числе Apple, Nvidia, Salesforce и Anthrophic, которые используют технологии искусственного интеллекта (ИИ) для своих продуктов, оказались в центре нового противоречия.

Согласно отчёту, опубликованному ProofNews, набор данных, используемый этими компаниями для обучения моделей ИИ, включал субтитры из видео на YouTube.

Набор данных под названием «Субтитры YouTube» был опубликован в 2020 году и создан компанией EleutherAI. Издание обнаружило, что оно включает субтитры из 173 536 видеороликов YouTube, загруженных с более чем 48 000 каналов.

Во-первых, набор данных, похоже, противоречит условиям YouTube, которые запрещают доступ к видео «автоматическими средствами». Согласно публикации, YouTube Subtitles представляет собой набор обучающих данных объемом 5,7 ГБ (489 миллионов слов) и включает субтитры из более чем 12 000 видео, которые были удалены с платформы.

Транскрипции видео, полученные с YouTube, охватывают широкий круг авторов и каналов, в том числе те, у которых сотни миллионов подписчиков, и более 100 000 подписчиков.

Набор данных субтитров YouTube подпадает под зонтик под названием «The Pile», который включает в себя несколько других наборов обучающих данных. Большинство наборов данных Pile открыты для всех, у кого достаточно места и вычислительной мощности для доступа к ним.

Добавлено: 17-07-2024, 07:14
0
191
Поделиться:

Подписывайтесь на «Umteh.com» в Новостях и Telegram.

Новости партнеров

Новости СМИ2

Похожие публикации


Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Наверх