机器学习对著作权合理使用制度的挑战与应对

Posted 2021-04-27 工信部电子知识产权中心

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习对著作权合理使用制度的挑战与应对相关的知识，希望对你有一定的参考价值。

高阳上海对外经贸大学讲师

胡丹阳上海对外经贸大学

原文载于《电子知识产权》2020年第10期

摘要：人工智能技术在给人类生活带来便利的同时也深刻影响着著作权制度。以往机械学习使用作品的行为并不侵犯著作权人的专有权利，可适用合理使用规则保证技术的发展。而机器学习作为人工智能的核心技术，对其适用合理使用将打破著作权人专有权利与技术发展之间的利益平衡。从机器学习技术的工作原理出发，讨论机器学习技术存在的著作权侵权风险；并从理论基础、规则适用等方面分析机器学习技术对著作权合理使用制度的挑战。为解决著作权人权利保护与人工智能技术发展之间的矛盾，提出对人工智能技术公司适用法定许可作为解决之道。

关键词：人工智能; 机器学习；合理使用；转换性使用；法定许可

一、问题的提出

人工智能对人类的社会生活影响深远，在便利人类生活的同时，也给现有的著作权制度带来巨大挑战。目前，学界多将目光聚焦于人工智能生成物的可版权性与权利归属问题上，对人工智能学习过程中的著作权侵权问题少有研究。一般而言，人工智能的“学习资料”包括以下两种：一是不受著作权法保护的数据；二是受著作权法保护的作品。就前者而言，人工智能是否可以对数据进行免费学习存在争议。如果认为应当对数据设定“数据财产权”（Data property right）,人工智能在对数据进行学习之前显然应当获得数据所有者的授权。相反，如果认为不应为数据建立新的财产权，人工智能就可以对数据进行免费学习。德国马克思·普朗克研究所（简称“马普所”）研究表明数据不应设定财产权：第一，数据的属性会使数据交易更加复杂，为数据设定财产权并不能促进数据的交易；第二，为数据设定财产权可能加强数据持有者对数据的垄断地位，将第三方排除在外；第三，为数据设定财产权可能带来法律的不确定性。本文赞同该观点，认为人工智能可以对数据进行复制、学习，而无须获得数据持有人的许可。就受版权保护的作品而言，其可能来源于以下两种渠道：一是人工智能技术公司在获得著作权人授权之后使用作品，二是未经著作权人授权，人工智能技术公司擅自使用作品。在第一种情况下，使用作品的行为不具有违法性。但在第二种情况下，人工智能技术公司使用版权作品的行为可能落入著作权权利内容的控制范围内，构成侵权行为。本文即在第二种情况下探讨机器学习是否能够适用著作权合理使用制度。

人工智能的发展，表现为从机械学习（mechanical learning）到机器学习（machine learning）的进步过程。机械学习是指依托技术设备获得作品并进一步使用的过程,其本身表现出强烈的工具属性，需要使用者预先规划操作流程、确定学习对象及特征。而机器学习以计算机如何模拟人类的学习行为作为主要研究内容，可以自主确定学习对象、构建其特征，跳出预设指令的局限性进行额外操作。从“思想——表达二分法”的角度来看，机械学习只能从作品的思想中获取经验，而机器学习则可以从作品的表达中发掘价值。比如，Arriba的缩略图搜索引擎、谷歌图像搜索和谷歌图书等都属于机械学习的范畴，无法从原作品的独创性表达中进行“学习”；而谷歌的“智能回复”应用就可以“学习”网络中大量作品的表达，使智能回复的语句和人类无异，属于机器学习的范畴。

对于人工智能技术公司非以商业目的使用作品的行为，如以科学研究或以文化遗产机构收藏为目的使用作品的，无论是机器学习还是机械学习，既不会影响作品的正常利用，也不会不合理侵犯权利人的合法利益，可以认为属于合理使用的范畴。而以商业目的使用作品时，机械学习和机器学习在是否可以适用合理使用问题上可能存在分歧。机械学习依然可以适用合理使用，在未经许可的情况下使用作品，究其原因，在于合理使用可以调和技术发展与专有权利之间的利益冲突。而对于机器学习，合理使用制度是否依然可以作为利益平衡的工具，值得研究。本文以机器学习的工作原理为出发点，分析合理使用的基本原理与认定标准，认为以商业目的的机器学习适用合理使用陷入了困境；并对如何走出困境，平衡作者的专有权利与技术发展之间的矛盾提出解决之道。

二、机器学习“学习”过程中潜在的著作权侵权风险

（一）机器学习之“学习”过程

分析机器学习潜在的著作权侵权风险，前提要了解机器学习的“学习”过程。以自然语言处理（Natural Language Processing）为例，机器学习的工作流程包括以下五个步骤：

步骤一，数据的收集，从作品、辞典和网络文本中收集数据并建立成数据库。步骤二，数据库的预处理，将数据库中的人类语言转换为计算机语言。步骤三，数据库的标注，根据语法、词性、形态等不同的分类标准，将数据进行标注，建立起最初模型。步骤四，模型的训练,最初模型提取一组已被标注的数据，学习数据与分类标准之间的相关性，得出事物之间的规律。步骤五，模型的固定，将经过步骤四的模型创建成永久文件，得到机器学习的最终模型。基于机器学习自动在网络中收集的数据或者由使用者输入的数据，最终模型会产生输出结果，即人工智能生成物。

机器学习根据上述步骤三的不同可以分为三类——监督学习、无监督学习和强化学习。在监督学习中，步骤三依然对数据进行分类、标注，再用标注的数据进行模型的训练。无监督学习就不包括分类、标注这一过程，机器学习直接根据未标注的数据进行训练，自主得出事物之间的规律。强化学习介于监督学习与无监督学习之间，同时利用标注的数据和未标注的数据进行模型训练。无论是哪种类型的机器学习，均需要建立学习“资料”的数据库。

（二）机器学习的著作权侵权风险

人工智能是基于计算机对人脑的数字化抽象而产生的，机器学习更是类似人类的学习过程，可以说，机器学习就是人脑在计算机中的再现。当人类学习一门新语言时，通常会把训练信息（比如课文）转变为大脑中专门负责语言区域的电化学痕迹储存起来，此即人类学习记忆的过程。人类背诵记忆他人作品并不侵犯他人著作权，究其原因一方面是著作权人的经济利益未受影响，另一方面是规制背诵记忆行为不具有现实操作性，因此传统著作权法理论认为这种活动超出了著作权法的范畴。然而，机器学习从收集数据到生成物的产生面临着著作权侵权风险。至于机器学习究竟可能侵犯哪些著作权权利内容，学界的讨论主要集中在复制权、翻译权、改编权和汇编权上,以下分述之。

1.机器学习是否构成复制行为

关于是否构成复制行为，学界对此并无分歧，学者多认为机器学习的“学习”过程涉及复制作品的行为。为保证机器学习获取数据的准确性，消除输出结果的误差，机器学习需要将尽可能多的已知数据纳入数据库中。因此，步骤一涉及大量未经授权的复制行为，落入著作财产权中复制权的规制范围。而步骤四是最初模型的学习过程，往往伴随临时副本的生成，由于我国并未将“临时复制”纳入“复制”的范畴，机器学习的临时复制问题在我国无须进行调整。

2.机器学习是否构成翻译行为

在步骤二中，机器学习将数据库中的人类语言转换为计算机语言，有学者认为该步骤涉及翻译行为。笔者对此持不同看法，此种行为实际上仍然是复制，而非翻译。

首先，翻译行为主要是指将此语言文字翻译为彼语言文字，两个作品若满足“接触＋实质性相似”的侵权认定标准，则后者侵犯了前者之翻译权。而以计算机语言为要素的“作品”并不属于作品的范畴。纵观《著作权法》第3条规定的作品类型，要么是能够为人类所欣赏（比如文字作品、音乐作品），要么是能够为人类所使用（比如工程设计图、产品设计图）。但对于计算机语言，人类无法理解，亦无法使用，只能通过计算机间接使用。将人类语言转换为计算机语言亦不属于“计算机软件”的范畴，《计算机软件保护条例》第2条规定计算机软件包括计算机程序和有关文档，第3条进一步对“文档”的含义作了说明，而计算机语言构成的“作品”并非属于“文档”的范畴。既然计算机语言构成的“作品”不属于著作权法意义上作品的范畴，机器学习对作品的使用也就不可能侵犯翻译行为了。

其次，即使认为计算机语言构成的“作品”属于著作权法意义上作品的范畴，将人类语言转化为计算机语言也并非翻译行为，实则复制行为。第一，根据《著作权法》第10条的规定，翻译权是指将原作品转化为另一种语言文字的权利。然则无论何种语言，都应当是人类所能理解的语言，而计算机语言，诸如C语言、Java属于计算机语言，而非人类的“语言文字”。第二，翻译作品应当具备独创性。如果两种语言之间存在一一对应的关系，从一种语言到另一种的转换不具有独创性，不属于翻译权控制的行为。例如将某部作品由繁体字转换成简体字，就属于复制行为而非翻译行为，因为简体字和繁体字是汉字的不同书写形式而已。同理，人类语言向计算机语言的转换，是根据编程人员设定规则进行的，二者同样存在一一对应的关系，因此，这种转换过程并非翻译，而仅属于复制权控制的行为。

3.机器学习是否构成改编行为

关于改编权，从行为的角度看，司法实践将改编行为类型化为两类，前提都是不改变原作品的基本内容：一是将一种类型作品转化为另一种类型的作品，比如将小说改编为剧本；二是不改变原作品的类型而创作出新作品，比如将世界名著改编为儿童读本。这两种行为方式都可能出现在机械学习的工作过程中，却不会出现在机器学习的工作过程中。原因在于，机器学习具有自主性，无须人类干预，其根据自身算法“学习”输入的数据并进行创作，并无改编的意思。很难想象人工智能某天突发奇想，说要改编一部作品。而机械学习在使用者的指令下，可能对某部作品进行改编，因为这是使用者的意志在主导机械学习。

就侵权责任的承担主体而言，学界主要有“人工智能开发者说”、“人工智能所有者说”、“人工智能操作者说”、“人工智能投资者说”等分歧。笔者认为，“人工智能投资者说”较为符合现行法律规定的立法宗旨，亦有“激励理论”作为法哲学的支撑，应当提倡。因此，机器学习侵权责任的承担主体应认定为人工智能技术公司。

综上所述，无论是监督学习、无监督学习还是强化学习，在步骤一收集作品的过程中，人工智能技术公司可能面临着复制权的侵权风险。机器学习对于版权作品的复制行为该如何定性，其是否属于合理使用的范畴，是当今各国著作权法所面临的问题，也对我国著作权法提出了挑战。

三．机器学习适用合理使用困境分析

（一）机器学习对合理使用规则基本原理的挑战

著作权法具有双重目的，一方面要充分保护作者权益，另一方面也要维护公共利益。著作权法就是关于公共利益与专有权利的平衡法。机器学习对版权作品的使用也存在公共利益与专有权利的平衡问题。一方面，如果著作权法采取对专有权利的强保护，机器学习使用作品就需要一一获得许可。在未经许可的情况下使用作品，人工智能技术公司也将面临侵权指控。由于输入数据中包含的作品数量庞大，巨额的损害赔偿将使人工智能技术公司不堪重负，不利于机器学习技术的发展。这也会导致人工智能领域内的技术创新流入著作权保护较为宽松的司法辖区。另一方面，如果著作权法采取对专有权利的弱保护，将机器学习使用版权作品的行为认定为合理使用，虽然使机器学习技术得以快速发展，却忽视了作者的权利。

合理使用作为平衡公共利益与专有权利的制度工具，在一些特定的领域包括以往的机械学习领域，较好地发挥了制度功效。但是在机器学习的利益平衡问题上，合理使用无法平衡著作权人的专有权利和机器学习技术发展之间的矛盾。制度失灵的原因在于机器学习的利益平衡问题与合理使用的基本原理相违背。

公平正义是整个合理使用制度的基础。日本学者胜本正晃认为，对著作权的限制旨在防止“权利滥用”；允许他人正当使用作品即是“权利的公平使用”。在制度目的的层面上，合理使用限制了著作权的范围，防止著作权人的控制力侵入应由公众支配的领域，破坏著作权法在维持激励和保障公众自由间的微妙平衡。从功利主义的角度出发，法律的目的是使个人和社会的原则趋于均衡状态，合理使用允许后继作者在不损害原作品的利润或前景的情况下再创作，人类智慧便得以进步，社会文化财富便得以增加，个人和社会便处于均衡状态之中。

然而，在机器学习问题上，广大网络用户禁止机器学习复制其作品并非“滥用权利”，机器学习从作品的表达中获取的价值也会影响原作品的利润和前景，不属于“应由公众支配的领域”，难以构成“正当使用”。机器学习适用合理使用将打破著作权法内在的利益平衡机制，究其原因，在于权利人与使用者身份的转换，导致合理使用制度使作品价值流转方向发生转变。以往网络用户是他人作品的使用者，作者或出版商是著作权的权利人。使用者相较于权利人处于经济上的弱势地位，出版商等企业处于优势地位，Benjamin教授将这种优势地位比喻为“霸权”。合理使用以“公共利益”为理由，在保护权利人的基础上，对“霸权”进行适当限制，使作品中的价值从作者或者出版商流向社会公众，因而是正当的。而人工智能时代，人工智能技术公司成为他人作品的使用者，网络用户是自己作品的权利人。使用者集经济优势与技术优势于一身，相较于权利人处于“霸权”地位，如果将合理使用制度适用于机器学习，将使作品中的价值从广大的网络用户流向人工智能技术公司，本处于资本优势地位的公司享有法律上的优势地位，促进了“霸权”的扩张，使合理使用制度演变成为公司服务的工具，而作者的地位日渐式微，违背了公共利益优先原则和平衡精神，与著作权法的立法目的相冲突。

（二）机器学习对转换性使用的挑战

1.转换性使用的发展沿革

机械学习和机器学习都涉及未经许可对版权作品的使用，以合理使用为核心的著作权限制制度为此类行为提供了抗辩可能。美国版权法第107条确立了合理使用的四因素判断标准，然而，四个因素应当以何种顺序进行考量，每个因素在合理使用判定中占多大权重，美国版权法没有明确统一的标准。为解决法条解释力上的不足，莱瓦尔法官在《论合理使用标准》一文中首次提出“转换性使用（Transformative fair use）”。他认为“合理使用中的使用应当是生产性（productive）的，并且应当以不同于原作品的方式或目的而进行。仅对原作品的重新包装或重新发布不能构成合理使用。……换言之，二次使用应当赋予原作品新的价值，比如新的信息、新的美感、新的见解，这种情况下的使用才会丰富社会的文化财富，才是合理使用制度应当保护的使用”。

关于转换性使用的判例最早见于“Campbell案”。原告阿卡夫-罗斯音乐公司(Acuff-Rose Music, Inc.)是流行歌曲《噢，美丽的女人》的著作权人，说唱组合2 Live Crew在保留原歌曲基本旋律的同时，将其改编为说唱歌曲《美丽的女人》（Pretty Woman），是对原作的戏仿。美国联邦最高法院认为2 Live Crew的戏仿构成合理使用。首先，即使涉案作品复制了原歌曲的基本旋律，戏仿行为仍然可能构成合理使用，因为戏仿本身即是将原作品的核心内容作为派生作品的一部分，并以最容易使人联想起原作品的方式进行创作的行为。其次，戏仿行为具备“转换性”，它在原作品的基础上增加了新的表达、含义和信息。最后，由于受众不同，戏仿作品不会取代原作品。戏仿行为虽然可能对原作品的市场造成损害，但这种损害并非版权法意义上的损害。这就好比措辞严厉的文学评论可能会抑制消费者对于原作品的需求，但原作品销售量的降低并非是文学评论取代原作品而造成的。

Campbell案的指导意义在于，它解决了美国版权法107条合理使用认定标准的模糊问题，虽然对“转换性”的适用标准仍有不同争议，但转换性使用可以用于判断二次使用是否构成合理使用已经基本成为共识。既然著作权法以鼓励作品创作与传播为目标，且任何创作行为不可能完全独立于对已有作品的借鉴，那么转换性使用作为激励“二次创作”的合法性基础就应该受到认可。Campbell案之后，在判断新作品是否构成合理使用时，内容上的转换性越强，其他因素的重要性就越小，比如是否为商业目的等，过度考虑其他因素可能会阻碍合理使用的正确判定。

随着信息技术的发展，计算机在复制、存储和分析能力等方面变得更加强大，也招致越来越多的版权法诉讼，而法院则通过运用转换性使用规则克服计算机技术的版权风险。在Kelly v.Arriba Soft Corp一案中，被告是一家搜索引擎公司，根据用户的搜索，反馈缩略图的搜索结果。这些缩略图的原图片是由“网络爬虫”搜集的。被告的“网络爬虫”在访问到图像信息时会下载完整大小的图像，将图像缩放至拇指大小后，删除完整大小的复制件，仅保存拇指大小的缩略图。当用户进行图片搜索时，显示给用户的正是这些缩略图。第九巡回法院认为，原告的图像是“为读者提供艺术性体验的美学性作品”，而被告将图像缩放至拇指大小的行为仅仅是工具性的，是帮助用户索引图像和接触图像的工具，不涉及作品的表达。被告缩略图的低分辨率使任何读者都不能将其用于艺术上的欣赏，而只能作为参考性使用，相较于原图像的带给人们美学体验的目的，Arriba的缩略图旨在为用户提供指引，具有目的上的转换性。同时，提供缩略图的行为并未损害原告作品的潜在市场，反而把用户引向了原告的网站。被告的行为不会扼杀原告艺术性的创作，不会取代原告的作品，因此属于转换性使用的范畴。

2.机器学习是否构成转换性使用

机械学习能构成转换性使用的原因在于，使用行为能在刺激公共知识积累的同时还不会削弱对创新的激励，因而被认为是正当的。然而，机器学习是不同于机械学习的新技术，机器学习以多种方式打破了转换性使用规则的理论基础，对转换性使用的认定标准提出了挑战。

首先，机器学习对于版权作品的复制不再具有“转换性”。转换性使用包括内容上的转换和目的上的转换。转换内容的使用行为是典型的转换性使用，此种使用行为主要是对原作品进行改动，比如批评、评论、滑稽模仿等行为，上述Campbell案即是一例。转换目的的使用行为是指仅转换使用目的而不改变原作品表达方式的使用行为，上述Kelly v.Arriba案中被告的使用即具有目的上的转换性。

机器学习并非对原作品进行改动，而是在使用者的要求下，根据以往“学习”内容，进行自主创作，因此，机器学习对作品的复制不具有内容上的转换性。就转换目的的使用行为而言，美国法院仅认可原作品的目的是使公众欣赏作品表达，后续使用的目的是不同于原作品的以下三种情形：（1）对原作品的比例、清晰度进行调整，使公众即使能获得作品也无法欣赏，比如利用图片报道新闻、缩略图检索等；（2）对原作品进行大幅度调整，虽然使用目的也包括让公众阅读和欣赏，但主要目的在于评价原作品；（3）全文复制原作品，但仅提供片段或关键信息供公众检索，公众无法获得作品全文，比如数字图书馆的建设。而机器学习的复制并自主创作行为并不具有上述三种目的，因此，机器学习对作品的使用也不具备目的上的转换性。

2015年，谷歌公司在Inbox邮箱服务中推出了一款名为“智能回复（smart reply）”的应用程序，它可以通过对用户所收邮件的处理，自动产生三封回信，用户可以从中选择一封作为回信而无需亲自写作。“智能回复”的数据库包含大量人类写的语句，研究团队使用数据分析与人工审查组合的方式，训练机器学习运用不同词语表达同样含义的造句能力，同时还可以避免歧义。这种方式没有使 “智能回复”写出精彩的散文，于是，谷歌又以小说资料库作为数据输入，来改进“智能回复”，使其更善于辞令，更像是人类的口吻。但是，小说的作者不知道其作品被使用，亦未收到任何使用费。面对“智能回复”的侵权指控，谷歌公司发言人抗辩道：“智能回复”的使用并未损害作者的利益，其使用目的完全不同于作者的目的，属于合理使用的范畴。然而，该发言人没有明确说明为什么这种使用目的不同于作者的目的。事实上，“智能回复”使用的是小说的表达方式，而这正是著作权法所要保护的客体。“智能回复”对小说资料库的使用很大程度上盗用了作者独创性的表达，超出了合理使用的界限。

其次，机器学习会对原作品潜在市场产生版权法意义上的威胁。在腾讯公司与上海盈讯科技有限公司著作权纠纷一案中，原告腾讯公司利用其自主研发的人工智能应用Dreamwrite，创作了一篇财经报道文章；被告上海盈讯科技有限公司复制涉案文章，通过其经营的“网贷之家”网站向公众传播。关于涉案文章是否构成作品，法院认为，“文章由原告主创团队人员运用Dreamwrite软件生成，其外在表现符合文字作品的形式要求，其表现内容体现出对当日上午相关股市信息、数据的选择、分析、判断，文章结构合理、表达逻辑清晰，具有一定的独创性”，因而认定为属于著作权法意义上的“作品”。人工智能生成物是否属于著作权法意义上的“作品”，学界尚有争议。但在司法实践中，即使不承认人工智能生成物的可版权性，也会肯定对人工智能生成物的保护。相较于人类创作的作品，人工智能生成物在外部表现上与人类作品难以区分，在产量上又远高于人类作品。机器学习在对人类作品复制“学习”之后，形成生成物与人类作品相竞争，对人类作品市场产生的威胁不言而喻。版权法评价行为的最终依据在于行为对激励效果的影响。机器学习削弱了对作者的经济激励，违背了著作权法的立法目的。

我国合理使用条款中不存在转换性使用，但是法院在著作权案件中有时会援引转换性使用来裁判案件。法院引入转换性使用的方式，是将其纳入合理使用条款“为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已经发表的作品”这一法定类型，并将 “说明某一问题”作为转换性使用的同义语。易言之，就是将原作品作为新作品的论据或素材来使用。但是，机器学习使用他人作品并不属于这一法定类型，而是为了学习、模仿或借鉴作品的表达。因此，机器学习对他人作品的复制行为，在我国不能用转换性使用来解释。

（三）机器学习无法适用我国著作权合理使用条款

我国现行《著作权法》第22条以封闭列举的方式规定了著作权合理使用的12种情形，全国人大常委会于2020年11月11日通过的《著作权法》（以下简称“新《著作权法》”）对该条款进行了一定的修改。但无论是现行《著作权法》还是新《著作权法》，其规定的合理使用制度均难以适用于机器学习使用作品的行为。

首先，新《著作权法》第24条或者对以往条款的用语进行了微调，如第3项、4项、11项和12项等；或者在某些具体情形中增加了使用作品的行为，如第6项；或者为某些具体情形增加了一定的限制条件，如第9条。但总体来看，合理使用作品的情形并未发生变化，除了第6项和第8项规定的以科学研究或以文化遗产机构收藏为目的使用作品的情况可能存在机器学习适用的余地之外，其余规定均不符合机器学习使用作品的情形。

其次，虽然新《著作权法》在合理使用条款中增设了“法律、行政法规规定的其他情形”的兜底规定，但我国著作权合理使用的特定情形规定在《著作权法》和《信息网络传播权保护条例》两部法律文件中，此外再无法律或行政法规对合理使用制度作出规定，而机器学习使用作品的行为难以被纳入这些情形的范围之内。因此，在法律、行政法规没有规定其他情形时，兜底条款无法起到兜底的作用，亦无法解决机器学习适用合理使用制度的困境问题。

最后，新《著作权法》将《伯尔尼公约》、《世界知识产权组织版权条约》、TRIPs等国际公约或条约规定的“三步检验法”（three-step test）吸收进新《著作权法》第24条的合理使用条款中，消除了合理使用条款列举的情形本身就应符合“三步检验法”的要求，还是仅仅满足“三步检验法”中“某些特定情形”的第一步测试的争议。或许有观点认为只要机器学习使用作品的行为符合“三步检验法”的要求，就存在适用合理使用制度的空间。但是，此种观点是难以成立的。所谓“三步检验法”，是指成员国可以对著作权作出例外的限制，但“只能在特定情形下作出，且不得与作品的正常利用相冲突，也不得不合理地损害著作权人的合法权益”。根据上文所述，机器学习会对原作品潜在市场产生版权法意义上的威胁，与作品的正常利用相冲突，不合理地损害了著作权人的合法权益。因此，机器学习对作品的使用无法满足“三步检验法”的要求。

四．机器学习适用合理使用困境的出路

（一）设定法定许可之必要性分析

“著作权法以维护作者权益作为核心的立法原则。作者的权利是第一位的权利，是本源性权利”。对待作者的专有权利当然不能置若罔闻。同时，机器学习技术对于人类生活的便利、社会文化的进步具有独特的价值。前文已述，合理使用对机器学习并不可取，但如果要求机器学习技术在使用受保护的作品时一一向作者寻求许可也不可取。在数字网络时代，互联网中存在着“海量作品”，其背后是“海量的著作权人”，要求人工智能技术公司与各个著作权人进行协商，无疑给公司增加了巨额谈判成本，而这些成本终将成为机器学习技术发展之掣肘。

创新发展需要新技术与法律制度协同演进。自1976年以来，美国国会一直通过相关修正案来确保版权法的立法目的不至于因新的技术发展而受到损害。例如，1995年版权法修正案增加了数字音频传输权；1998年版权法修正案增加了禁止规避技术措施的条款。这些版权法修正案清楚地表明美国国会试图阻止因新技术的产生而导致版权法存在法律漏洞的意图。我国《著作权法》第22条规定了12种可构成“合理使用”的情形，《信息网络传播权保护条例》第6条在此范围内规定了八种网络环境下可构成“合理使用”的情形，但这些封闭式的列举无法解决人工智能时代各方利益冲突失衡的问题，法律的滞后性已无法适应新技术的发展需求。

笔者认为，此问题的解决仍然有赖于著作权限制和例外的规定，关键在于明确机器学习能够在何种程度上使用互联网内的版权作品。换言之，解决问题的途径是在著作权的强保护与弱保护之间寻找利益平衡点。

既然不可以适用无须付费、无须获得许可的合理使用制度，而需付费且需获得许可的授权使用会使人工智能技术公司谈判成本过高，法定许可制度即成为著作权制度框架下破解机器学习是否可以复制作品这一问题的出路。法定许可是指法律明确规定实施某种原本受专有权利控制的行为无须经过著作权人许可，却应向著作权人支付报酬。易言之，法定许可将著作权中某类绝对权降格为可以获得合法报酬权，将剥夺著作权人的许可权与保障著作权人获酬权融合起来，在发挥著作权法经济激励机制的基础上，进一步促进作品的传播，构成了著作权限制和例外的重要组成部分。

目前我国《著作权法》在第23条、第33条第2款、第40条第3款、第43条第2款、第44条规定了四项法定许可，《信息网络传播权保护条例》第9条规定了一项准法定许可，但这些规定尚不足以应对数字时代机器学习对著作权提出的挑战。因此，可从立法论的角度，就机器学习的复制行为增设一项法定许可。如此便可平衡专有权利与技术发展之间的矛盾，兼顾公司与著作权人的利益。一方面，通过限制作者的专有权，避免著作权人因对价无法满足而拒绝他人使用其作品，保障了机器学习技术的发展；另一方面，规定人工智能技术公司向著作权人支付一定的报酬，保证了对著作权人的经济激励，体现了对作者专有权利的尊重。

（二）法定许可之制度优势

机器学习适用法定许可，可以同时实现正义和效率的价值追求。首先，法定许可制度可以调整机器学习问题中社会关系的正义性。在授权许可模式下，使用者想要合法使用他人作品的前提，是获得著作权人的许可。面对海量作品，潜在使用者为了追求效率、降低成本而在未经许可的情况下使用作品，损害了著作权人的专有权利；合理使用制度又将著作权人的专有权利置若罔闻。而法定许可平衡了著作权人的专有权利和使用者使用权之间的冲突，既保证机器学习可以大规模使用作品，又充分尊重了著作权人的利益，符合著作权法“保护加限制”的二元价值取向。

其次，从效率价值来看，法定许可制度允许机器学习先使用后付酬，跳过了著作权人和使用者之间的谈判环节，充分提高了作品的传播和利用效率。在严格保护著作权的情况下，机器学习在使用作品之前需要与著作权人进行协商，获得许可之后才能使用作品，如果协商不成或协商后反悔，都会导致低效率或无效率。在机器学习适用合理使用的情况下，作者没有充分的经济激励，可能导致作品产出的低效率。因此，机器学习适用法定许可制度，使著作权人和机器学习得以避免这些低效率或者无效率，实现了双赢的局面。

法定许可是对著作权市场的替代，即通过构建一个政府管制下的拟制市场（artificial government-regulated market）消除市场失灵导致的权利流转障碍。当今，无论是市场本身还是著作权其他制度，都无法调和机器学习技术发展与广大作者专有权利之间的矛盾。集“权利限制”与“报酬补偿”于一身的法定许可，在技术发展与专有权利的利益博弈中既能减缓授权许可之“刚”，又能弥补“合理使用”之柔，为利益失衡提供了解决途径。

西方世界著作权法对于新近技术提出的法律问题，往往通过税收制度来解决。自联邦德国于1965年通过一部法律，就私人复制产品的行为而向著作权所有人提供补偿以来，税收制度就成了欧洲著作权法的一个特征。欧洲议会委员会关于机器人问题的民法报告草案中，报告员Mady强调“为了达到税收和社会保障贡献的目的，可能需要引入企业报告要求，以此说明机器人和人工智能对公司经济效益的贡献程度和比例进行规定”。著名的数字磁带录音机案也体现了美国版权法对于用税收制度解决技术问题的青睐。对人工智能技术加以课税，的确可以避免公司由于开发机器学习而陷入的侵权诉讼，从而保障这项技术的未来。但是，从著作权人的利益出发，这种激励机制并不具有针对性，无法切实保障著作权人的权利。从立法成本方面考虑，也过于高昂。因此，相较于税收制度，机器学习适用法定许可更具制度优势。

（三）法定许可的实现

1.机器学习法定许可的具体规定

增设机器学习法定许可制度有四方面值得注意：一是主体问题，即由何种主体承担法定许可费用；二是法定许可适用于何种使用行为；三是法定许可适用于何种作品；四是法定许可是否允许权利人以事先声明的方式排除适用。以下分述之。

关于主体问题，笔者认为，由于是人工智能技术公司为训练机器学习而复制版权作品，进而引发了著作权侵权风险，那么法定许可费应当由人工智能技术公司缴纳。适用机器学习法定许可的主体应规定为人工智能技术公司。

关于法定许可适用于何种使用行为的问题，根据前文所述，机器学习对作品的使用只构成复制行为，而非翻译、改编行为，因此可以规定机器学习法定许可仅适用于对作品的复制行为。

关于机器学习法定许可适用于何种作品的问题，应将适用客体规定为“已发表的作品”。这主要是考虑到法定许可制度虽是平衡权利人与作品使用者之间利益冲突的制度工具，但利益平衡的前提是权利人具有将作品公之于众的意愿。倘若作者创作完成之后并不准备将作品公开，著作权法也应当对作者的选择表示尊重。因此，在人工智能技术公司复制他人作品时，只有对已发表作品的复制行为才可纳入法定许可的范围内，对未发表作品的复制则可能侵犯他人著作权。

关于机器学习法定许可是否允许权利人以事先声明的方式排除适用的问题，如果赋予权利人排除适用的权利，那么权利人一旦发出相关声明，任何人都无法通过法定许可使用其作品。这一方面会不当扩大著作权人的权利，另一方面也不利于人工智能技术的发展与进步，打破了权利人与使用者之间的利益平衡，有违设立机器学习法定许可的初衷。因此，机器学习法定许可制度不应允许作者以事先声明的方式排除法定许可的适用。

综上所述，建议在《著作权法》第二章第四节“权利的限制”中增设一项机器学习法定许可，具体表述为：“人工智能技术公司以训练机器学习技术为目的复制他人已发表的作品，可以不经著作权人许可，但应当支付报酬。”

2.机器学习法定许可的实现途径

机器学习法定许可能够较好平衡相关主体之间利益冲突，但在其实现过程中可能面临以下问题：首先，人工智能技术公司需要海量的作品，现实中作品分散在互联网中，甚至属于身份不明的孤儿作品，人工智能技术公司为寻找作者需要花费高昂的搜索成本；其次，考虑到著作权人在现实中很难时时掌握作品的利用情况，即使存在侵权行为也不能及时发现。人工智能技术公司在经过交易成本与风险的评估之后，可能认为交易成本远高于风险而擅自使用作品。待著作权人发现侵权事实、提起诉讼，再做赔偿，将使法定许可制度形同虚设。最后，人工智能技术公司具有较大的技术优势，如何保证其在获得作品之后仅用于机器学习的训练，而没有以其他目的使用作品，也是法定许可实现过程中不得不考虑的问题。

为解决上述问题，需要后续的制度支撑和技术支撑作为辅助，保障法定许可的实现。在制度支撑方面，可以考虑引入著作权集体管理制度。著作权集体管理制度的目的在于，降低作品使用者的搜寻成本、交易成本和法律风险，同时补强著作权人在掌握作品利用情况和维权能力方面的不足，从而促进交易的顺利进行。一方面，著作权集体管理组织经著作权人授权之后，就可以自己的名义与人工智能技术公司签订许可使用协议。因此，人工智能技术公司无需一一寻找著作权人，大大降低了搜寻成本。履行义务的成本越低，人工智能技术公司履行义务的概率就越高，便不会冒着承担侵权责任的法律风险径行使用他人作品，有利于保证著作权的真正实现。另一方面，对于著作权人而言，著作权集体管理组织会代替他们搜集作品的利用情况，并在必要的时候帮助他们进行维权。值得注意的是，我国法定许可的收费标准一般由行政机关事先确定，与作品在市场交易中灵活定价的需求不相适应，碍于保持行政法规的稳定性，收费标准也远低于著作权交易的实际水平。因此，应当允许交易双方平等协商，以市场实际情况事先确定作品使用的统一费率。在双方无法达成一致的情况下，通过仲裁或诉讼确定使用费率。

在技术支撑方面，首先，可以通过网络技术加强作品的数字化工作，便于著作权集体管理组织对作品的统一保存、统一管理，方便人工智能技术公司利用作品进行机器学习。其次，在网络空间内完善著作权人的个人信息登记，以便著作权集体管理组织能够及时联系著作权人，并转交使用费，保障著作权法激励功能的实现。对于孤儿作品，著作权集体管理组织应将作品信息予以公布，寻找作品的著作权人，经过勤勉寻找仍无法确定著作权人的，应当对其登记备案。最后，利用技术手段控制作品的使用范围和使用期限，保障作品被合理地使用。例如，为防止人工智能技术公司以机器学习以外的方式擅自使用作品，可以采用“联邦学习（Federated Learning）”技术对作品加密，保证人工智能技术公司只能将作品用于对机器学习的训练。

五、结语

机器学习技术的出现被誉为“最后的发明”，以互联网的普及使用为基础，基于广泛分布的传感技术、大数据存储和通信技术的应用，数据规模指数增长，全球进入了大数据的时代。在计算机的程序运行中，涉及互联网内大量未经授权的版权作品。机械学习由于其强烈的工具属性，本身没有自我提高的能力，只能从作品的思想或事实中获取价值，往往能够纳入合理使用的范畴。而机器学习是人类大脑的数字化抽象，表现出自主性和拟人性，可以在模仿作品的独创性表达后进行后续创作，可能侵犯作者的著作权。无论是著作权的强保护还是弱保护，皆不能平衡技术发展与专有权利之间、作品使用者与作品权利人之间的矛盾。机器学习难以符合合理使用的基本原理，也无法适用转换性使用的认定标准。机器学习适用合理使用规则陷入了困境。该问题的解决之道在于在著作权强保护与弱保护之间寻求一个平衡点，这一平衡点即是对人工智能技术企业适用法定许可，同时，辅以著作权集体管理组织的制度支撑和新兴技术的技术支撑，以期解决人工智能技术发展与著作权人权利保护之间的矛盾。

（未经授权禁止转载、摘编、复制及建立镜像，违者将依法追求法律责任）

注：因字数关系，注释省略，详见《电子知识产权》刊发原文。

长按二维码，关注工业和信息化部电子知识产权中心官方微信

以上是关于机器学习对著作权合理使用制度的挑战与应对的主要内容，如果未能解决你的问题，请参考以下文章

卧槽，B 站上线斯坦福最新「机器学习系统」全集，假期学起来！

一本顶流著作和一次匠心翻译！《机器学习与资产定价》重磅上市

机器学习与网络安全书籍1Web安全深度学习实战

基于机器学习的web异常检测

使用机器学习创建语音识别系统

基于三明治结构深度学习框架的金融反欺诈模型研究与应用