Wyciek 300TB danych Spotify - kolejny wielki zbiór treningowy dla AI?
22 grudnia 2025 roku piracka grupa aktywistów Anna's Archive przeprowadziła jedno z największych w historii zeskrobań danych muzycznych, wydobywając około 300 terabajtów plików audio i metadanych ze Spotify. Choć grupa twierdzi, że jej motywem jest "zachowanie" danych, prawdziwa historia może dotyczyć tego, co stanie się z nimi w kontekście sztucznej inteligencji.
Co właściwie się stało
Anna's Archive, podziemna biblioteka znana z hostowania pirackich książek i artykułów naukowych, zeskrobała katalog muzyczny Spotify. Pozyskali 86 milionów plików audio reprezentujących 99,6% całej aktywności słuchania na platformie, wraz z 256 milionami wierszy metadanych utworów, w tym 186 milionami unikalnych kodów ISRC.
Pliki audio zostały zachowane w oryginalnym formacie Spotify OGG Vorbis 160kbps. Cała kolekcja jest dystrybuowana przez sieci P2P i masowe torrenty.
Według oficjalnego oświadczenia Spotify, atakujący zeskrobali publicznie dostępne metadane przez API webowe Spotify, a następnie użyli "nielegalnych taktyk do obejścia DRM", aby uzyskać dostęp do rzeczywistych plików audio. Spotify określiło grupę jako "ekstremistów anty-praw autorskich" i potwierdziło prowadzenie aktywnego śledztwa.

Słoń w pokoju: trenowanie AI
Natychmiastowym problemem nie są amatorzy-piraci budujący klony Spotify. Odpowiedź prawna na takie działania byłaby szybka.
Prawdziwa historia dotyczy danych treningowych dla AI.
Podobne zbiory danych zeskrobane z YouTube zostały już wykorzystane przez nielicencjonowane usługi generowania muzyki AI do trenowania modeli bez zgody artystów. To archiwum 300TB, kompletne z bogatymi metadanymi, rankingami popularności i wysokiej jakości audio, reprezentuje dokładnie to, czego potrzebują firmy AI do modeli muzycznych nowej generacji.
86 milionów utworów ze szczegółowymi metadanymi, w tym informacjami o artystach, gatunkach, tempie, wynikami popularności i kodami ISRC. To nie są tylko pliki audio. To ustrukturyzowany, przeszukiwalny zbiór danych idealnie sformatowany dla potoków uczenia maszynowego.
To zeskrobanie może znacząco podważyć trwające negocjacje licencyjne między przemysłem muzycznym a firmami AI. Po co płacić za licencjonowane dane treningowe, skoro 300TB właśnie pojawiło się w sieciach torrentowych?
Co to oznacza dla użytkowników
Twoje dane osobowe są bezpieczne. Ten incydent dotyczył katalogu muzycznego Spotify, a nie kont użytkowników. Twój email, informacje o płatnościach i historia słuchania nie były częścią tego zeskrobania.
Jednak niektóre publiczne metadane playlist mogły zostać uwzględnione. Jeśli prowadzisz publiczne playlisty, rozważ przejrzenie ustawień prywatności.
Szersze implikacje
Zderzenie rozwoju AI z prawem autorskim przyspiesza. Wytwórnie płytowe ostrożnie negocjowały licencje na dane treningowe z firmami AI. To zeskrobanie potencjalnie zalewa rynek nielicencjonowanymi alternatywami.
Dla platform cyfrowych podkreśla to fundamentalne wyzwanie. Każda usługa z publicznym API i wartościową treścią stoi przed podobnym ryzykiem. Kombinacja zeskrobywania metadanych i obchodzenia DRM reprezentuje wektor ataku, który każda platforma powinna ocenić.
Patrząc w przyszłość
Śledztwo Spotify trwa. Dla większości użytkowników nie będzie to miało bezpośredniego wpływu na codzienne korzystanie. Dla przemysłu muzycznego i firm AI może to zmienić sposób, w jaki dane treningowe są wyceniane, chronione i licencjonowane.
Przecięcie się potrzeb trenowania AI i masowego zeskrobywania danych tworzy nową kategorię incydentów bezpieczeństwa. To nie będzie ostatni taki przypadek.


