欧盟委员会发布人工智能实践准则和培训数据汇总模板
来源: 新疆知识产权公共服务平台
2025-02-19
情况:欧盟委员会发布了一个新模板,用于汇总通用人工智能(AI)模型中使用的训练数据,作为其更广泛的AI监管框架的一部分。
结果:通用AI模型的提供者必须遵守详细的透明度和版权合规要求,在披露与保护商业机密之间取得平衡。
展望未来:人工智能模型提供商应全面、透明地记录其训练数据的来源和处理方法,为遵守这些新要求做好准备。
2025年1月17日,欧盟委员会公布了一个模板,用于总结通用AI模型中使用的训练数据。该模板是《人工智能实践准则》的重要组成部分,旨在确保AI系统开发和部署过程中的透明度、信任度以及对版权法的遵守。
通用AI模型的提供者应采取积极措施来遵守这些新要求,以确保人工智能的开发和部署以尊重版权法的方式进行,同时平衡对透明度的需求和对商业秘密的保护。
法律框架
2024年8月1日生效的《人工智能法》规定,通用AI模型(即设计用于执行各领域广泛任务的AI模型,包括自然语言处理、图像识别和数据分析等能力,通常用作开发更专业的AI应用的基础)的提供者必须公开所使用的训练数据的足够详细的摘要。这一要求在《人工智能法》第53(1)(d)条中作了概述,并在该法案的释义第107条中作了进一步阐述,强调需要一份全面但非技术性的摘要,以方便包括权利人在内的合法各方行使权利。
模板的结构和关键条款
培训数据摘要模板的设计力求简单、有效和平衡,确保在不损害商业秘密的前提下提供足够的细节。模板的主要部分包括:
1、一般信息:
——模型与提供者信息,包括提供者名称、联系方式以及模型标识符。
——上市日期与知识截止日期。
——训练数据的总体规模、模态和特征,例如文本数据的词元数量,或图像数据的图像数量。
——训练数据整体规模、模态及特征,“整体规模”表明训练数据量的大小;“模态”指数据类型,如文本、图像、音频等;“特征”方面,像文本数据以“词元数量”衡量,图像数据以“图像数量”描述等。
2、数据来源列表:
——可公开访问的数据集,包括每种数据模式的总体规模和主要数据集列表。
——第三方非公开访问的私有数据集,详细说明权利人许可的数据和从其他第三方获取的数据集。
——从在线资源中抓取和刮擦的数据,包括每种模式的总规模和抓取者的标识。
——提供者收集的用户来源数据,包括每种模式的总规模和服务/产品列表。
——自行生成的合成数据集,包括每种数据模式的总体规模和人工智能模型的名称。
——通过其他途径获取的数据,详细说明每种模式的总体规模和获取途径。
3、相关数据处理方面:
——为尊重版权和相关权利而采取的措施,包括识别和删除已保留权利的内容。
——删除不需要的内容,说明被视为不需要的内容以及为避免或删除这些内容而采取的措施。
平衡透明度与商业秘密
该模板旨在兼顾透明度和商业机密保护。虽然它要求详细披露数据来源和处理方法,但也考虑到了保护AI提供商竞争优势的需要。例如,模板不要求披露算法、模型架构或具体的数据处理流程。
利益相关者的参与和反馈
模板的开发涉及与利益相关方的广泛磋商,包括AI模型提供商、权利人、民间社会组织和独立专家。AI办公室为这一过程提供了便利,确保模板反映所有相关方的不同观点和需求。
实施时间表
委员会将于2025年第二季度通过模板和配套准则,通用AI规则将于2025年8月2日生效。
五大要点
1、需要详细的文档:通用AI模型的提供者必须记录并公开披露其训练数据的全面摘要,包括数据来源和处理方法。
2、平衡透明度和商业机密:该模板旨在确保透明度的同时保护商业机密,避免披露算法和具体数据处理流程等敏感信息。
3、利益相关者的参与:在模板的开发过程中,广泛征求了各利益相关方的意见,确保要求反映不同的观点和需求。
4、遵守版权法:提供商必须采取措施尊重版权和相关权利,包括识别和删除已保留权利的内容。
5、为新要求做好准备:人工智能模型提供者应着手准备,通过详尽记录训练数据来源和处理方法,以符合这些新要求。
(编译自jdsupra.com)
翻译:吴娴 校对:刘鹏
来源:中国保护知识产权网