Spotify 300TB 数据抓取 - 下一个大型 AI 训练数据集?
2025 年 12 月 22 日,盗版活动组织 Anna's Archive 执行了史上最大规模的音乐数据抓取之一,从 Spotify 提取了约 300TB 的音频文件和元数据。虽然该组织声称其动机是「保存」,但真正的故事可能是接下来 AI 会如何利用这些数据。
实际发生了什么
Anna's Archive 是一个以托管盗版书籍和学术论文闻名的影子图书馆,他们抓取了 Spotify 的音乐目录。他们获得了 8600 万个音频文件,代表平台上 99.6% 的收听活动,以及 2.56 亿行曲目元数据,包括 1.86 亿个唯一的 ISRC 代码。
音频文件以 Spotify 原始的 OGG Vorbis 160kbps 格式保存。整个合集正通过 P2P 网络和批量种子进行分发。
根据 Spotify 的官方声明,攻击者通过 Spotify 的 web API 抓取了公开可用的元数据,然后使用「非法手段绕过 DRM」来访问实际的音频文件。Spotify 将该组织标记为「反版权极端分子」,并确认正在进行积极调查。

AI 训练这头房间里的大象
眼前的担忧并非业余盗版者构建 Spotify 克隆版,对此类行为的法律回应将是迅速的。
真正的故事是 AI 训练数据。
从 YouTube 抓取的类似数据集已经被未经授权的 AI 音乐生成服务用于训练模型,且未经艺术家同意。这个 300TB 的档案库,配有丰富的元数据、流行度排名和高质量音频,恰恰代表了 AI 公司构建下一代音乐模型所需的东西。
8600 万首曲目,附带详细的元数据,包括艺术家信息、流派、节奏、流行度评分和 ISRC 代码。这不仅仅是音频文件,而是一个结构化、可查询的数据集,完美适配机器学习管道。
这次抓取可能会严重破坏音乐行业与 AI 公司之间正在进行的授权谈判。当 300TB 数据刚刚出现在种子网络上时,为什么还要为授权训练数据付费?
这对用户意味着什么
您的个人数据是安全的。 此次事件涉及 Spotify 的音乐目录,而非用户账户。您的电子邮件、支付信息和收听历史记录不在此次抓取范围内。
不过,一些公开播放列表元数据可能已被包含在内。如果您维护公开播放列表,请考虑检查您的隐私设置。
更广泛的影响
AI 发展与版权法之间的冲突正在加速。唱片公司一直在与 AI 公司谨慎协商训练数据许可。这次抓取可能会让市场充斥未经授权的替代品。
对于数字平台而言,这凸显了一个根本性挑战。任何拥有公共 API 和有价值内容的服务都面临类似风险。元数据抓取与 DRM 绕过的结合代表了每个平台都应评估的攻击向量。
展望未来
Spotify 的调查仍在进行中。对大多数用户来说,这不会对日常体验产生直接影响。但对音乐行业和 AI 公司而言,这可能会重塑训练数据的估值、保护和授权方式。
AI 训练需求与大规模数据抓取的交汇正在产生一类新的安全事件。这不会是最后一次。


