新疆知识产权公共服务平台

返回导航

您好，欢迎使用新疆知识产权公共服务平台

海外工作动态

欧盟委员会发布人工智能实践准则和培训数据汇总模板

来源: 新疆知识产权公共服务平台 2025-02-19

情况：欧盟委员会发布了一个新模板，用于汇总通用人工智能（AI）模型中使用的训练数据，作为其更广泛的AI监管框架的一部分。

结果：通用AI模型的提供者必须遵守详细的透明度和版权合规要求，在披露与保护商业机密之间取得平衡。

展望未来：人工智能模型提供商应全面、透明地记录其训练数据的来源和处理方法，为遵守这些新要求做好准备。

2025年1月17日，欧盟委员会公布了一个模板，用于总结通用AI模型中使用的训练数据。该模板是《人工智能实践准则》的重要组成部分，旨在确保AI系统开发和部署过程中的透明度、信任度以及对版权法的遵守。

通用AI模型的提供者应采取积极措施来遵守这些新要求，以确保人工智能的开发和部署以尊重版权法的方式进行，同时平衡对透明度的需求和对商业秘密的保护。

法律框架

2024年8月1日生效的《人工智能法》规定，通用AI模型（即设计用于执行各领域广泛任务的AI模型，包括自然语言处理、图像识别和数据分析等能力，通常用作开发更专业的AI应用的基础）的提供者必须公开所使用的训练数据的足够详细的摘要。这一要求在《人工智能法》第53(1)(d)条中作了概述，并在该法案的释义第107条中作了进一步阐述，强调需要一份全面但非技术性的摘要，以方便包括权利人在内的合法各方行使权利。

模板的结构和关键条款

培训数据摘要模板的设计力求简单、有效和平衡，确保在不损害商业秘密的前提下提供足够的细节。模板的主要部分包括：

1、一般信息：

——模型与提供者信息，包括提供者名称、联系方式以及模型标识符。

——上市日期与知识截止日期。

——训练数据的总体规模、模态和特征，例如文本数据的词元数量，或图像数据的图像数量。

——训练数据整体规模、模态及特征，“整体规模”表明训练数据量的大小；“模态”指数据类型，如文本、图像、音频等；“特征”方面，像文本数据以“词元数量”衡量，图像数据以“图像数量”描述等。

2、数据来源列表：

——可公开访问的数据集，包括每种数据模式的总体规模和主要数据集列表。

——第三方非公开访问的私有数据集，详细说明权利人许可的数据和从其他第三方获取的数据集。

——从在线资源中抓取和刮擦的数据，包括每种模式的总规模和抓取者的标识。

——提供者收集的用户来源数据，包括每种模式的总规模和服务/产品列表。

——自行生成的合成数据集，包括每种数据模式的总体规模和人工智能模型的名称。

——通过其他途径获取的数据，详细说明每种模式的总体规模和获取途径。

3、相关数据处理方面：

——为尊重版权和相关权利而采取的措施，包括识别和删除已保留权利的内容。

——删除不需要的内容，说明被视为不需要的内容以及为避免或删除这些内容而采取的措施。

平衡透明度与商业秘密

该模板旨在兼顾透明度和商业机密保护。虽然它要求详细披露数据来源和处理方法，但也考虑到了保护AI提供商竞争优势的需要。例如，模板不要求披露算法、模型架构或具体的数据处理流程。

利益相关者的参与和反馈

模板的开发涉及与利益相关方的广泛磋商，包括AI模型提供商、权利人、民间社会组织和独立专家。AI办公室为这一过程提供了便利，确保模板反映所有相关方的不同观点和需求。

实施时间表

委员会将于2025年第二季度通过模板和配套准则，通用AI规则将于2025年8月2日生效。

五大要点

1、需要详细的文档：通用AI模型的提供者必须记录并公开披露其训练数据的全面摘要，包括数据来源和处理方法。

2、平衡透明度和商业机密：该模板旨在确保透明度的同时保护商业机密，避免披露算法和具体数据处理流程等敏感信息。

3、利益相关者的参与：在模板的开发过程中，广泛征求了各利益相关方的意见，确保要求反映不同的观点和需求。

4、遵守版权法：提供商必须采取措施尊重版权和相关权利，包括识别和删除已保留权利的内容。

5、为新要求做好准备：人工智能模型提供者应着手准备，通过详尽记录训练数据来源和处理方法，以符合这些新要求。

（编译自jdsupra.com）

翻译：吴娴　校对：刘鹏
来源：中国保护知识产权网

友情链接: 国家知识产权局新疆维吾尔自治区市场监督局(自治区知识产权局) 国家知识产权公共服务网

合作机构: 自治区专利信息中心技术与创新支持中心（TISC）-新疆大学新疆知识产权研究与发明协会新疆商标协会国家知识产权培训（新疆）基地

地址：乌鲁木齐市天山区光明路121号建设广场15层

邮编：830000

新ICP备2021000114号公安部备65010602000736号浏览量：2987521