해적 활동가 그룹 Anna's Archive가 Spotify의 전체 음악 카탈로그를 스크래핑했습니다. 8,600만 개의 오디오 파일과 2억 5,600만 개의 트랙 메타데이터가 유출되었습니다. AI 학습과 저작권에 미칠 영향은 업계를 재편할 수 있습니다.

Spotify의 300TB 데이터 스크래핑 - 차세대 AI 학습 데이터셋이 될까?

2025년 12월 22일, 해적 활동가 그룹 Anna's Archive가 역사상 가장 큰 규모의 음악 데이터 스크래핑 중 하나를 실행했습니다. Spotify에서 약 300테라바이트의 오디오 파일과 메타데이터를 추출한 것입니다. 이 그룹은 "보존"을 동기로 내세우고 있지만, 진짜 이야기는 AI와 관련하여 다음에 무슨 일이 일어날지에 있을 것입니다.

실제로 무슨 일이 있었나

Anna's Archive는 해적판 도서와 학술 논문을 호스팅하는 것으로 알려진 그림자 도서관으로, Spotify의 음악 카탈로그를 스크래핑했습니다. 이들은 플랫폼 전체 청취 활동의 99.6%를 차지하는 8,600만 개의 오디오 파일과 1억 8,600만 개의 고유 ISRC 코드를 포함한 2억 5,600만 행의 트랙 메타데이터를 확보했습니다.

오디오 파일은 Spotify의 원본 OGG Vorbis 160kbps 형식으로 보존되었습니다. 전체 컬렉션은 P2P 네트워크와 대용량 토렌트를 통해 배포되고 있습니다.

Spotify의 공식 성명에 따르면, 공격자들은 Spotify의 웹 API를 통해 공개적으로 사용 가능한 메타데이터를 스크래핑한 후 "불법적인 전술로 DRM을 우회"하여 실제 오디오 파일에 접근했습니다. Spotify는 이 그룹을 "반저작권 극단주의자"로 규정하고 적극적인 조사가 진행 중임을 확인했습니다.

AI 학습이라는 코끼리

당장의 우려는 아마추어 해적들이 Spotify 복제품을 만드는 것이 아닙니다. 그런 시도에 대한 법적 대응은 신속할 것입니다.

진짜 이야기는 AI 학습 데이터입니다.

YouTube에서 스크래핑한 유사한 데이터셋은 이미 무허가 AI 음악 생성 서비스에서 아티스트 동의 없이 모델을 학습시키는 데 사용되었습니다. 이 300TB 아카이브는 풍부한 메타데이터, 인기도 순위, 고품질 오디오를 갖추고 있어 AI 기업들이 차세대 음악 모델을 위해 필요로 하는 것을 정확히 나타냅니다.

8,600만 개의 트랙에 아티스트 정보, 장르, 템포, 인기도 점수, ISRC 코드를 포함한 상세한 메타데이터가 있습니다. 이것은 단순한 오디오 파일이 아닙니다. 머신러닝 파이프라인에 완벽하게 포맷된 구조화되고 쿼리 가능한 데이터셋입니다.

이 스크래핑은 음악 산업과 AI 기업 간의 진행 중인 라이선스 협상을 크게 약화시킬 수 있습니다. 300TB가 토렌트 네트워크에 나타났는데 왜 라이선스된 학습 데이터에 비용을 지불하겠습니까?

사용자에게 미치는 영향

개인 데이터는 안전합니다. 이번 사건은 Spotify의 음악 카탈로그와 관련된 것이지 사용자 계정과는 무관합니다. 이메일, 결제 정보, 청취 기록은 이 스크래핑에 포함되지 않았습니다.

그러나 일부 공개 플레이리스트 메타데이터가 포함되었을 수 있습니다. 공개 플레이리스트를 유지 관리하는 경우 개인정보 보호 설정을 검토하는 것이 좋습니다.

더 넓은 의미

디지털 플랫폼에게 이것은 근본적인 과제를 강조합니다. 공개 API와 가치 있는 콘텐츠를 가진 모든 서비스는 유사한 위험에 직면합니다. 메타데이터 스크래핑과 DRM 우회의 조합은 모든 플랫폼이 평가해야 할 공격 벡터를 나타냅니다.

앞으로의 전망

Spotify의 조사가 진행 중입니다. 대부분의 사용자에게 이것은 일상적인 경험에 직접적인 영향을 미치지 않을 것입니다. 음악 산업과 AI 기업에게는 학습 데이터가 평가되고, 보호되고, 라이선스되는 방식을 재편할 수 있습니다.

AI 학습 수요와 대규모 데이터 스크래핑의 교차점은 새로운 범주의 보안 사고를 만들어내고 있습니다. 이것이 마지막은 아닐 것입니다.

Spotify의 300TB 데이터 유출 - 차세대 AI 학습 데이터셋이 될까?