Pirátská aktivistická skupina Anna's Archive stáhla celý hudební katalog Spotify - 86 milionů audio souborů a 256 milionů záznamů metadat. Dopady na trénování AI a autorská práva by mohly změnit celé odvětví.

Stažení 300TB dat ze Spotify - další velký dataset pro trénování AI?

Dne 22. prosince 2025 provedla pirátská aktivistická skupina Anna's Archive jedno z největších stahování hudebních dat v historii - extrahovala přibližně 300 terabajtů audio souborů a metadat ze Spotify. Zatímco skupina uvádí jako svůj motiv "zachování", skutečný příběh může spočívat v tom, co se stane dál s AI.

Co se vlastně stalo

Anna's Archive, stínová knihovna známá hostováním pirátských knih a akademických článků, stáhla hudební katalog Spotify. Získala 86 milionů audio souborů představujících 99,6 % veškeré poslechové aktivity na platformě, spolu s 256 miliony řádků metadat skladeb včetně 186 milionů unikátních ISRC kódů.

Audio soubory byly zachovány v původním formátu Spotify OGG Vorbis 160kbps. Celá kolekce je distribuována přes P2P sítě a hromadné torrenty.

Podle oficiálního prohlášení Spotify útočníci stáhli veřejně dostupná metadata prostřednictvím webového API Spotify a poté použili "nezákonné taktiky k obejití DRM" pro přístup ke skutečným audio souborům. Spotify označilo skupinu za "anti-copyrighové extremisty" a potvrdilo probíhající vyšetřování.

Slon v místnosti jménem trénování AI

Bezprostřední obavou nejsou amatérští piráti budující klony Spotify. Právní reakce na takové snahy by byla rychlá.

Skutečný příběh je o trénovacích datech pro AI.

Podobné datasety stažené z YouTube již byly použity nelicencovanými službami pro generování hudby pomocí AI k trénování modelů bez souhlasu umělců. Tento 300TB archiv, kompletní s bohatými metadaty, žebříčky popularity a vysoce kvalitním zvukem, představuje přesně to, co společnosti zabývající se AI potřebují pro hudební modely nové generace.

86 milionů skladeb s podrobnými metadaty včetně informací o umělcích, žánrech, tempu, skóre popularity a ISRC kódů. Nejde jen o audio soubory, ale o strukturovaný, dotazovatelný dataset perfektně formátovaný pro pipeline strojového učení.

Toto stažení by mohlo výrazně podkopat probíhající licenční jednání mezi hudebním průmyslem a společnostmi zabývajícími se AI. Proč platit za licencovaná trénovací data, když se právě objevilo 300TB na torrentových sítích?

Co to znamená pro uživatele

Vaše osobní data jsou v bezpečí. Tento incident se týkal hudebního katalogu Spotify, nikoli uživatelských účtů. Váš e-mail, platební informace a historie poslechu nebyly součástí tohoto stažení.

Některá veřejná metadata playlistů však mohla být zahrnuta. Pokud spravujete veřejné playlisty, zvažte kontrolu svých nastavení soukromí.

Širší dopady

Srážka mezi vývojem AI a autorským právem se zrychluje. Nahrávací společnosti pečlivě vyjednávaly licence na trénovací data se společnostmi zabývajícími se AI. Toto stažení potenciálně zaplavuje trh nelicencovanými alternativami.

Pro digitální platformy to zdůrazňuje zásadní výzvu. Každá služba s veřejným API a cenným obsahem čelí podobným rizikům. Kombinace stahování metadat a obcházení DRM představuje útočný vektor, který by měla každá platforma vyhodnotit.

Pohled do budoucna

Vyšetřování Spotify probíhá. Pro většinu uživatelů to nebude mít žádný přímý vliv na každodenní zkušenost. Pro hudební průmysl a společnosti zabývající se AI by to mohlo změnit způsob, jakým jsou trénovací data oceňována, chráněna a licencována.

Průsečík požadavků na trénování AI a rozsáhlého stahování dat vytváří novou kategorii bezpečnostních incidentů. Nebude to poslední.

Únik 300TB dat ze Spotify - další velký dataset pro trénování AI?