• bitcoinBitcoin (BTC) $ 61,614.00
  • ethereumEthereum (ETH) $ 1,694.96
  • tetherTether (USDT) $ 0.999083
  • usd-coinUSDC (USDC) $ 0.999789
  • tronTRON (TRX) $ 0.317773
  • dogecoinDogecoin (DOGE) $ 0.074190
  • leo-tokenLEO Token (LEO) $ 9.11
  • zcashZcash (ZEC) $ 441.17
  • stellarStellar (XLM) $ 0.199435
  • cardanoCardano (ADA) $ 0.158994
  • moneroMonero (XMR) $ 314.72
  • chainlinkChainlink (LINK) $ 7.75
  • daiDai (DAI) $ 0.999918
  • bitcoin-cashBitcoin Cash (BCH) $ 222.07
  • litecoinLitecoin (LTC) $ 43.40
  • hedera-hashgraphHedera (HBAR) $ 0.073673
  • crypto-com-chainCronos (CRO) $ 0.056258
  • okbOKB (OKB) $ 80.24
  • ethereum-classicEthereum Classic (ETC) $ 7.11
  • kucoin-sharesKuCoin (KCS) $ 7.12
  • cosmosCosmos Hub (ATOM) $ 1.54
  • algorandAlgorand (ALGO) $ 0.086520
  • true-usdTrueUSD (TUSD) $ 0.998232
  • dashDash (DASH) $ 34.53
  • vechainVeChain (VET) $ 0.004591
  • tezosTezos (XTZ) $ 0.214083
  • decredDecred (DCR) $ 11.23
  • iotaIOTA (IOTA) $ 0.038836
  • neoNEO (NEO) $ 1.95
  • basic-attention-tokenBasic Attention (BAT) $ 0.080210
  • qtumQtum (QTUM) $ 0.701608
  • 0x0x Protocol (ZRX) $ 0.082554
  • ravencoinRavencoin (RVN) $ 0.003819
  • ontologyOntology (ONT) $ 0.043169
  • paxos-standardPax Dollar (USDP) $ 0.999639
  • iconICON (ICX) $ 0.025001
  • wavesWaves (WAVES) $ 0.266220
  • liskLisk (LSK) $ 0.087972
  • bitcoin-diamondBitcoin Diamond (BCD) $ 0.061182
  • huobi-tokenHuobi (HT) $ 0.078772
Регулирование

Суд в США: NVIDIA скачала миллионы пиратских книг для обучения языковых моделей

Компанию NVIDIA обвинили в использовании пиратских книг для обучения больших языковых моделей. Согласно судебным документам, гигант чипов получил доступ к примерно 500 терабайтам нарушающих авторские права материалов через Anna’s Archive — поисковую систему по «теневым библиотекам».

Что такое Anna’s Archive

Anna’s Archive появилась в 2022 году под названием Pirate Library Mirror, а затем была переименована. Сервис агрегирует контент из LibGen, Z-Library, Sci-Hub и других источников пиратских публикаций. По данным иска, платформа предоставляет высокоскоростной корпоративный доступ к своим коллекциям в обмен на пожертвования в размере десятков тысяч долларов.

Примерно 30 компаний воспользовались такими услугами, включая практически всех крупных разработчиков больших языковых моделей. NVIDIA обратилась к Anna’s Archive в августе 2023 года для приобретения пиратских материалов предварительного обучения ИИ-моделей.

Детали сделки с NVIDIA

Anna’s Archive предложила NVIDIA миллионы пиратских книг и доступ к нескольким миллионам книг из Internet Archive. Общий объем данных составил около 500 терабайт. Компания получила «зеленый свет» на продолжение сделки в течение недели после первого контакта, несмотря на предупреждения о незаконном характере коллекций.

Помимо Anna’s Archive, NVIDIA скачивала книги из других теневых библиотек, включая LibGen, Sci-Hub и Z-Library. В иске утверждается, что компания скопировала произведения, защищенные авторским правом, из наборов данных The Pile и Bibliotik для обучения своих языковых моделей.

Набор The Pile составляет 800 ГБ, при этом Books3 объемом 108 ГБ содержит примерно 196 640 книг. Классовый период иска начинается не позднее 8 марта 2021 года и продолжается по настоящее время.

Ответ Anna’s Archive

В заявлении от 21 января 2026 года Anna’s Archive отрицает прямые контакты с NVIDIA: «Мы никогда не имели дел с Nvidia напрямую, так что они, вероятно, использовали промежуточную сторону, чтобы избежать юридических проблем».

Представители платформы добавили, что не возражают против сотрудничества с NVIDIA: «Но если Nvidia обратится к нам напрямую, мы с радостью предоставим им высокоскоростной доступ в обмен на пожертвование, как и всем остальным».

Судебные решения

Anna’s Archive сталкивается с юридическими проблемами не только из-за NVIDIA. 15 января 2026 года судья Майкл Уотсон (Michael Watson) в Окружном суде США Южного округа Огайо обязал Anna’s Archive удалить все копии данных WorldCat, включая торренты.

Суд запретил Anna’s Archive извлекать данные из WorldCat и серверов OCLC, а также использование, хранение или распространение этих данных. Иск против Anna’s Archive был подан 12 января 2024 года, а ответчик уведомлен 28 марта 2025 года.

Другие компании тоже используют пиратские данные

NVIDIA не единственная компания, использующая Anna’s Archive для обучения ИИ. В исследовательской работе DeepSeek-VL от марта 2024 года упоминается использование 860 тысяч английских и 180 тысяч китайских электронных книг из Anna’s Archive для обучения модели машинного зрения.

Случай с NVIDIA демонстрирует масштабы использования пиратского контента в индустрии ИИ. Компании получают доступ к миллионам защищенных авторским правом произведений через промежуточные платформы, что поднимает вопросы о законности таких практик. Судебные разбирательства могут установить важные прецеденты для всей отрасли машинного обучения.

Мнение ИИ

С точки зрения машинного анализа данных ситуация с NVIDIA напоминает эпоху Napster начала 2000-х, когда технологические гиганты столкнулись с массовыми исками за нарушение авторских прав. Разница в том, что тогда речь шла о музыке для потребителей, а сейчас — о данных для корпоративного ИИ стоимостью в миллиарды долларов.

Экономическая логика очевидна: легальное лицензирование 500 терабайт книг обошлось бы в сотни миллионов долларов, что делает «серые» схемы привлекательными для стартапов и даже крупных корпораций. Парадокс в том, что компании, создающие технологии будущего, используют методы пиратов прошлого. Ключевой вопрос: станет ли это дело катализатором для создания новых моделей лицензирования контента в эпоху ИИ или просто заставит компании лучше скрывать свои источники данных?

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»