Pirátska aktivistická skupina Anna's Archive vytiahla celý hudobný katalóg Spotify - 86 miliónov audio súborov a 256 miliónov záznamov metadát. Dôsledky pre trénovanie AI a autorské práva môžu zmeniť celé odvetvie.

Vytiahnutie 300TB dát zo Spotify - ďalší veľký dataset na trénovanie AI?

Dňa 22. decembra 2025 pirátska aktivistická skupina Anna's Archive vykonala jeden z najväčších výťahov hudobných dát v histórii - získala približne 300 terabajtov audio súborov a metadát zo Spotify. Hoci skupina tvrdí, že ich motívom je "zachovanie", skutočný príbeh môže byť o tom, co sa stane ďalej s AI.

Čo sa vlastne stalo

Anna's Archive, tieňová knižnica známa hostovaním pirátskych kníh a akademických prác, vytiahla hudobný katalóg Spotify. Získali 86 miliónov audio súborov predstavujúcich 99,6% všetkej počúvacej aktivity na platforme, spolu s 256 miliónmi riadkov metadát skladieb vrátane 186 miliónov unikátnych ISRC kódov.

Audio súbory boli zachované v pôvodnom formáte Spotify OGG Vorbis 160kbps. Celá kolekcia sa distribuuje cez P2P siete a hromadné torrenty.

Podľa oficiálneho vyhlásenia Spotify útočníci vytiahli verejne dostupné metadáta cez webové API Spotify, potom použili "nelegálne taktiky na obídenie DRM" na prístup k skutočným audio súborom. Spotify označilo skupinu za "anti-autorských extrémistov" a potvrdilo aktívne vyšetrovanie.

Slon v miestnosti s názvom trénovanie AI

Bezprostrednou obavou nie sú amatérski piráti budujúci klony Spotify - právna odpoveď na takéto snahy by bola rýchla.

Skutočný príbeh sú trénovacie dáta pre AI.

Podobné datasety vytiahnuté z YouTube už boli použité nelicencovanými službami na generovanie hudby pomocou AI na trénovanie modelov bez súhlasu umelcov. Tento 300TB archív - kompletný s bohatými metadátami, rebríčkami popularity a vysokokvalitným audiom - predstavuje presne to, čo AI spoločnosti potrebujú pre modely hudby novej generácie.

86 miliónov skladieb s podrobnými metadátami vrátane informácií o umelcoch, žánrov, tempa, skóre popularity a ISRC kódov. Toto nie sú len audio súbory - je to štruktúrovaný, dotazovateľný dataset perfektne naformátovaný pre strojové učenie.

Tento výťah by mohol výrazne podkopať prebiehajúce licenčné rokovania medzi hudobným priemyslom a AI spoločnosťami. Prečo platiť za licencované trénovacie dáta, keď sa práve objavilo 300TB na torrent sieťach?

Čo to znamená pre používateľov

Vaše osobné údaje sú v bezpečí. Tento incident sa týkal hudobného katalógu Spotify - nie používateľských účtov. Váš email, platobné informácie a história počúvania neboli súčasťou tohto výťahu.

Niektoré metadáta verejných playlistov však mohli byť zahrnuté. Ak spravujete verejné playlisty, zvážte kontrolu nastavení súkromia.

Širšie dôsledky

Kolízia medzi vývojom AI a autorským právom sa zrýchľuje. Hudobné vydavateľstvá starostlivo rokovali o licencie trénovacích dát s AI spoločnosťami. Tento výťah potenciálne zaplavuje trh nelicencovanými alternatívami.

Pre digitálne platformy to zdôrazňuje zásadnú výzvu. Každá služba s verejným API a cenným obsahom čelí podobným rizikám. Kombinácia vyťahovania metadát a obchádzania DRM predstavuje vektor útoku, ktorý by mala každá platforma vyhodnotiť.

Pohľad dopredu

Vyšetrovanie Spotify pokračuje. Pre väčšinu používateľov to nebude mať žiadny priamy vplyv na každodenné používanie. Pre hudobný priemysel a AI spoločnosti by to mohlo zmeniť spôsob, akým sa trénovacie dáta oceňujú, chránia a licencujú.

Pretnínanie požiadaviek na trénovanie AI a veľkoplošného vyťahovania dát vytvára novú kategóriu bezpečnostných incidentov. Toto nebude posledný.

Únik 300TB dát zo Spotify - ďalší veľký dataset na trénovanie AI?