华商林李黎律师事务所

新闻动态

新闻中心

《人工智能企业投资收购法律尽职调查要点分析》

前言

2025年11月，德国慕尼黑法院就GEMA（德国音乐演出和作品复制权协会）诉OpenAI版权侵权案作出一审判决，明确AI模型训练中的“记忆”与输出“再现”受版权保护内容均构成侵权，驳回“文本与数据挖掘例外”抗辩，成为欧洲生成式AI版权侵权第一案[i]。该案争议焦点问题与我国《生成式人工智能服务管理暂行办法》“使用合法来源数据”的规定高度契合。

AI企业的核心资产是数据、算法、模型、知识产权，本文结合最新监管规则与司法判例，按照“资质准入、训练语料、输出成果、知识产权、责任归属规则”五大要点内容，对人工智能企业投资收购法律尽职调查作要点分析。

一、国内监管规则概览

监管核心思想：鼓励创新与审慎监管并重，明确企业主体责任。

（一）法律

1. 《网络安全法》（2017.06.01实施）

2. 《数据安全法》（2021.09.01 实施）

3. 《个人信息保护法》（2021.11.01 实施）

（二）行政法规与部门规章

1. 《生成式人工智能服务管理暂行办法》（2023.08.15生效）——AI服务的“基本法”。

2. 《互联网信息服务深度合成管理规定》（2023.01.10生效）（规范“AI换脸”等）。

3. 《互联网信息服务算法推荐管理规定》（2022.03.01生效）

4. 《新一代人工智能伦理规范》（2021.09.25实施）

5. 《科技伦理审查办法（试行）》（2023.12.01 实施）

6. 《人工智能生成合成内容标识办法》（2025.09.01 实施）

7. 《人工智能拟人化互动服务管理暂行办法》（2026.07.15实施）

（三）其他

1. 国家标准化文件：GB/T 45654-2025《生成式人工智能服务安全基本要求》（2025年11月1日施行）

2. 《互联网搜索引擎服务自律公约》（2012年11月1日发布）

二、尽调前置判断

AI企业并非同质化主体，技术形态与业务场景决定监管强度与尽调重点，第一步需完成企业业务类型区分。

截至2026年2月28日，累计有796款生成式人工智能服务完成备案，481款生成式人工智能应用或功能完成登记[ii]。

三、准入资质尽调

根据AI企业的业务形态不同，可能涉及不同的互联网业务资质要求。

（一）基础互联网资质

ICP许可/备案：若AI企业通过互联网（如网站、APP、小程序等）向公众提供信息服务，无论是否收费，均需履行《互联网信息服务管理办法》规定取得ICP经营许可证，非经营性完成ICP备案。除非标的AI企业仅从事模型研发、训练，通过私有化部署向企业客户交付模型能力，不直接面向终端用户提供互联网信息服务，仅作为技术提供商向其他企业授权模型使用权，不涉及自身通过互联网向公众提供信息服务，则可不需履行ICP许可/备案手续。

专项资质：若服务内容涉及网络出版、网络文化、视听节目服务的，需核查《网络出版服务许可证》《网络文化经营许可证》《信息网络传播视听节目许可证》，如AI视频生成、数字人直播等场景[iii]。

（二）算法备案

具有舆论属性或社会动员能力的算法推荐、深度合成服务，需在提供服务起10个工作日内完成网信办算法备案；

深度合成技术（AI换脸、文本生成、语音合成等）需完成安全评估，并在服务界面显著标注备案编号。

（三）生成式AI双备案/登记

大模型上线需履行“深度合成算法备案+生成式AI服务备案”双备案，开展安全评估，未备案不得向境内公众提供服务。

如非自研，而是通过调用第三方已备案大模型API接口开发生成式AI应用来向公众提供服务的，则需要完成“算法备案+大模型登记”。

尽调实操：要求企业提供备案截图、安全评估报告、资质证书，核验备案主体与标的公司一致性，排查“借用资质”“已上线但未备案”等违规情形。

四、训练语料尽调

语料合规是AI企业尽调的重要内容，核心核查语料来源以及内容。

（一）语料来源合法性

用于训练的语料通常来源于开源数据、自采数据、商业数据以及用户输入的数据，对于不同来源的数据，其核查要点不同。

开源数据：必须遵循开源许可协议，核查是否存在商用限制、署名要求等，避免“开源=免费商用”误区；

自采数据：核查采集记录，严禁违反Robots协议（如小红书、抖音明确禁止爬虫的平台），绕开技术保护措施采集构成不正当竞争。若出现相关不正当竞争情况，权利人可以“不正当获取、使用数据纠纷”或者“侵害数据权益纠纷”为案由提起诉讼。[iv] 《反不正当竞争法》（2025修订）亦增设了“数据保护专款”对以欺诈、胁迫、避开或者破坏技术管理措施等不正当方式获取、使用其他经营者合法持有的数据进行了规制。[v]

商业数据：核查采购合同、上游权利证明链，确保数据供应商具有合法处分权，无权利瑕疵；

用户输入数据：必须有完整授权记录，提供4步内便捷关闭输入信息用于训练的功能，显著告知用户训练使用规则。

（二）语料内容合规

语料内容的合规主要关注对违法信息的过滤、知识产权保护、个人信息保护等。

违法信息过滤：训练前全量过滤GB/T 45654-2025标准列明的29种违法不良信息，抽样违法率不得超过5%；

知识产权保护：建立知识产权管理策略，杜绝未经授权使用版权作品、商业秘密；

个人信息保护：使用个人信息需取得单独同意（敏感个人信息如人脸、医疗健康等），完成匿名化/去标识化处理，落实个人信息保护影响评估。

特别关注内容：无法提供数据来源证明、授权文件、采集记录的；曾发生数据侵权诉讼（如微博、微信数据抓取案）的。

五、输出成果尽调

大模型输出内容是监管重点，属于侵权高发区，尽调需重点关注安全、责任、内容标识三大内容。

（一）内容安全指标

生成内容安全合格率≥90%（无GB/T 45654-2025附录A列明的31种安全风险）；

是否建立前置过滤、实时监测、事后处置全流程审核机制，对违法违规提示坚决拒答；

是否建立相关机制杜绝输出侵犯知识产权、商业秘密、虚假信息等内容。

（二）知识产权侵权防控

是否建立版权识别技术，防范输出与版权作品高度相似内容；

服务协议中是否明确用户与平台责任边界，约定用户不当使用导致侵权的责任分担；

是否设立侵权投诉快速响应渠道，及时处置第三方投诉。

（三）AI生成内容标识义务

按照《人工智能生成合成内容标识办法》，图片、视频、文本等生成内容需显著标识（如水印、文字说明），防止混淆视听，未标识面临行政处罚。

尽调过程中，可现场测试模型拒答能力，核查内容审核记录、投诉处理台账、用户协议条款，验证标识合规性。

六、知识产权与责任归属规则尽调

AI企业核心价值在于技术知识产权，同时需厘清侵权责任归属。

核心技术权属：核查算法、模型、代码的知识产权证书，排查职务发明、委托研发、共有技术争议，杜绝“技术侵权出资”；

开源协议风险：禁止核心模块使用强传染性开源代码，防止未来被要求公开全部核心代码，丧失商业价值；

责任划分：明确模型输出侵权、数据泄露、深度合成内容违法的责任主体，建立企业与用户、技术提供方的责任隔离机制（需要关注用户协议）；

数据跨境合规：涉及训练数据出境的，核查数据出境安全评估、标准合同备案，符合《数据安全法》和《个人信息保护法》等要求。

七、AI企业尽调总结

资质：算法备案、大模型备案、专项资质是否齐全；

数据来源：训练语料来源合法、授权完整、无侵权采集；

输出内容：生成内容安全合规、标识到位、审核机制完善；

技术来源：核心技术权属清晰、无开源侵权、无职务发明纠纷；

信息安全：数据安全、个人信息保护、侵权责任机制健全。

>>返回