Piracka grupa aktywistów Anna's Archive zeskrobała cały katalog muzyczny Spotify - 86 milionów plików audio i 256 milionów rekordów metadanych. Konsekwencje dla trenowania AI i praw autorskich mogą zmienić oblicze branży.

Wyciek 300TB danych Spotify - kolejny wielki zbiór treningowy dla AI?

22 grudnia 2025 roku piracka grupa aktywistów Anna's Archive przeprowadziła jedno z największych w historii zeskrobań danych muzycznych, wydobywając około 300 terabajtów plików audio i metadanych ze Spotify. Choć grupa twierdzi, że jej motywem jest "zachowanie" danych, prawdziwa historia może dotyczyć tego, co stanie się z nimi w kontekście sztucznej inteligencji.

Co właściwie się stało

Anna's Archive, podziemna biblioteka znana z hostowania pirackich książek i artykułów naukowych, zeskrobała katalog muzyczny Spotify. Pozyskali 86 milionów plików audio reprezentujących 99,6% całej aktywności słuchania na platformie, wraz z 256 milionami wierszy metadanych utworów, w tym 186 milionami unikalnych kodów ISRC.

Pliki audio zostały zachowane w oryginalnym formacie Spotify OGG Vorbis 160kbps. Cała kolekcja jest dystrybuowana przez sieci P2P i masowe torrenty.

Według oficjalnego oświadczenia Spotify, atakujący zeskrobali publicznie dostępne metadane przez API webowe Spotify, a następnie użyli "nielegalnych taktyk do obejścia DRM", aby uzyskać dostęp do rzeczywistych plików audio. Spotify określiło grupę jako "ekstremistów anty-praw autorskich" i potwierdziło prowadzenie aktywnego śledztwa.

Słoń w pokoju: trenowanie AI

Natychmiastowym problemem nie są amatorzy-piraci budujący klony Spotify. Odpowiedź prawna na takie działania byłaby szybka.

Prawdziwa historia dotyczy danych treningowych dla AI.

Podobne zbiory danych zeskrobane z YouTube zostały już wykorzystane przez nielicencjonowane usługi generowania muzyki AI do trenowania modeli bez zgody artystów. To archiwum 300TB, kompletne z bogatymi metadanymi, rankingami popularności i wysokiej jakości audio, reprezentuje dokładnie to, czego potrzebują firmy AI do modeli muzycznych nowej generacji.

86 milionów utworów ze szczegółowymi metadanymi, w tym informacjami o artystach, gatunkach, tempie, wynikami popularności i kodami ISRC. To nie są tylko pliki audio. To ustrukturyzowany, przeszukiwalny zbiór danych idealnie sformatowany dla potoków uczenia maszynowego.

To zeskrobanie może znacząco podważyć trwające negocjacje licencyjne między przemysłem muzycznym a firmami AI. Po co płacić za licencjonowane dane treningowe, skoro 300TB właśnie pojawiło się w sieciach torrentowych?

Co to oznacza dla użytkowników

Twoje dane osobowe są bezpieczne. Ten incydent dotyczył katalogu muzycznego Spotify, a nie kont użytkowników. Twój email, informacje o płatnościach i historia słuchania nie były częścią tego zeskrobania.

Jednak niektóre publiczne metadane playlist mogły zostać uwzględnione. Jeśli prowadzisz publiczne playlisty, rozważ przejrzenie ustawień prywatności.

Szersze implikacje

Zderzenie rozwoju AI z prawem autorskim przyspiesza. Wytwórnie płytowe ostrożnie negocjowały licencje na dane treningowe z firmami AI. To zeskrobanie potencjalnie zalewa rynek nielicencjonowanymi alternatywami.

Dla platform cyfrowych podkreśla to fundamentalne wyzwanie. Każda usługa z publicznym API i wartościową treścią stoi przed podobnym ryzykiem. Kombinacja zeskrobywania metadanych i obchodzenia DRM reprezentuje wektor ataku, który każda platforma powinna ocenić.

Patrząc w przyszłość

Śledztwo Spotify trwa. Dla większości użytkowników nie będzie to miało bezpośredniego wpływu na codzienne korzystanie. Dla przemysłu muzycznego i firm AI może to zmienić sposób, w jaki dane treningowe są wyceniane, chronione i licencjonowane.

Przecięcie się potrzeb trenowania AI i masowego zeskrobywania danych tworzy nową kategorię incydentów bezpieczeństwa. To nie będzie ostatni taki przypadek.