Vytiahnutie 300TB dát zo Spotify - ďalší veľký dataset na trénovanie AI?
Dňa 22. decembra 2025 pirátska aktivistická skupina Anna's Archive vykonala jeden z najväčších výťahov hudobných dát v histórii - získala približne 300 terabajtov audio súborov a metadát zo Spotify. Hoci skupina tvrdí, že ich motívom je "zachovanie", skutočný príbeh môže byť o tom, co sa stane ďalej s AI.
Čo sa vlastne stalo
Anna's Archive, tieňová knižnica známa hostovaním pirátskych kníh a akademických prác, vytiahla hudobný katalóg Spotify. Získali 86 miliónov audio súborov predstavujúcich 99,6% všetkej počúvacej aktivity na platforme, spolu s 256 miliónmi riadkov metadát skladieb vrátane 186 miliónov unikátnych ISRC kódov.
Audio súbory boli zachované v pôvodnom formáte Spotify OGG Vorbis 160kbps. Celá kolekcia sa distribuuje cez P2P siete a hromadné torrenty.
Podľa oficiálneho vyhlásenia Spotify útočníci vytiahli verejne dostupné metadáta cez webové API Spotify, potom použili "nelegálne taktiky na obídenie DRM" na prístup k skutočným audio súborom. Spotify označilo skupinu za "anti-autorských extrémistov" a potvrdilo aktívne vyšetrovanie.

Slon v miestnosti s názvom trénovanie AI
Bezprostrednou obavou nie sú amatérski piráti budujúci klony Spotify - právna odpoveď na takéto snahy by bola rýchla.
Skutočný príbeh sú trénovacie dáta pre AI.
Podobné datasety vytiahnuté z YouTube už boli použité nelicencovanými službami na generovanie hudby pomocou AI na trénovanie modelov bez súhlasu umelcov. Tento 300TB archív - kompletný s bohatými metadátami, rebríčkami popularity a vysokokvalitným audiom - predstavuje presne to, čo AI spoločnosti potrebujú pre modely hudby novej generácie.
86 miliónov skladieb s podrobnými metadátami vrátane informácií o umelcoch, žánrov, tempa, skóre popularity a ISRC kódov. Toto nie sú len audio súbory - je to štruktúrovaný, dotazovateľný dataset perfektne naformátovaný pre strojové učenie.
Tento výťah by mohol výrazne podkopať prebiehajúce licenčné rokovania medzi hudobným priemyslom a AI spoločnosťami. Prečo platiť za licencované trénovacie dáta, keď sa práve objavilo 300TB na torrent sieťach?
Čo to znamená pre používateľov
Vaše osobné údaje sú v bezpečí. Tento incident sa týkal hudobného katalógu Spotify - nie používateľských účtov. Váš email, platobné informácie a história počúvania neboli súčasťou tohto výťahu.
Niektoré metadáta verejných playlistov však mohli byť zahrnuté. Ak spravujete verejné playlisty, zvážte kontrolu nastavení súkromia.
Širšie dôsledky
Kolízia medzi vývojom AI a autorským právom sa zrýchľuje. Hudobné vydavateľstvá starostlivo rokovali o licencie trénovacích dát s AI spoločnosťami. Tento výťah potenciálne zaplavuje trh nelicencovanými alternatívami.
Pre digitálne platformy to zdôrazňuje zásadnú výzvu. Každá služba s verejným API a cenným obsahom čelí podobným rizikám. Kombinácia vyťahovania metadát a obchádzania DRM predstavuje vektor útoku, ktorý by mala každá platforma vyhodnotiť.
Pohľad dopredu
Vyšetrovanie Spotify pokračuje. Pre väčšinu používateľov to nebude mať žiadny priamy vplyv na každodenné používanie. Pre hudobný priemysel a AI spoločnosti by to mohlo zmeniť spôsob, akým sa trénovacie dáta oceňujú, chránia a licencujú.
Pretnínanie požiadaviek na trénovanie AI a veľkoplošného vyťahovania dát vytvára novú kategóriu bezpečnostných incidentov. Toto nebude posledný.


