5 月 8 日消息,美国加州北区联邦地区法院作出最新司法裁定,正式驳回英伟达公司要求驳回集体版权诉讼的动议;这起案件被业内称作"AI 训练数据版权第一案”。
本次诉讼由多名作者联合发起,核心指控英伟达使用19.7万本盗版电子书,通过旗下NeMo Megatron AI框架训练大语言模型,侵犯了其合法著作权。

原告方在诉讼文书中明确,英伟达用于模型训练的数据,来自包含19.7万本未经授权电子书的Books3数据集,该数据集被整合进超800GB的开源文本数据集The Pile中,最终被接入NeMo框架用于相关大模型训练。
英伟达在案件审理过程中,援引美国版权法中互联网服务提供商的“安全港”保护条款及相关司法判例,主张NeMo Megatron是通用AI训练工具,具备大量合法非侵权用途,要求法院驳回该起诉讼。
审理该案的法官在裁定中驳回了英伟达的全部抗辩主张,明确本案争议焦点并非NeMo框架整体,而是框架内的特定数据处理脚本,这些脚本被指控的唯一目的就是加速侵权过程,与通用开发工具存在本质区别。
另外,NVIDIA还被指控向Writer、Persimmon AI Labs、亚马逊等客户分发自动下载The Pile的脚本和工具,直接为第三方侵权提供基础设施。
本次裁定生效后,该起集体版权诉讼将正式进入证据开示环节,后续可进入庭审阶段,目前法院尚未公布下次听证会的具体日期。
