手机版 旱涝保收网
当然,政策的规范性依然是其根本属性。
造成中文人工智能训练数据问题的原因具有多重因素,但法律制度是其中重要原因。例如,互联网企业收集个人信息进行大数据分析,但采取严格保护措施,这类做法带来了长尾效应,促进了消费者福利。
当个人面对信息处理的复杂实践,个人往往难以理解其真正面对的风险是什么,[9]个人常常要么是无奈选择同意信息处理者的隐私政策,要么能拒绝的尽量拒绝。隐私政策也可以为市场主体与非交互场景下的个人提供信息,为市场与社会监督提供媒介。因为除了极少数专门采集的个人信息,绝大部分个人信息被收集时,其目的都只和生活、消费、资讯、出行、娱乐、服务等个人目的相关。首先,人工智能应承担社会责任,避免数据与算法歧视、价值观等方面的风险与侵害。当然,减轻对个人同意的依赖,并不意味着放弃告知同意制度。
综合而言,法律应在减轻个人同意要求的同时,保持甚至强化企业的告知义务。如何既保护个人、著作权所有人和企业的合法权益,又设计出促进人工智能发展的数据制度,成为迫切需要回答的问题。[67]关于财产规则与责任规则的区别,参见Guido Calabresi A. Douglas Melamed, Property Rules, Liability Rules, and Inalienability: One View of the Cathedral, Harvard Law Review, Vol.85(No.6), p.1089-1128(1972)。
自动驾驶利用交通照片数据进行训练,是为了对各类不同情形进行更准确预测。在正当利益条款下,很多没有获得个人同意或没有其他合法性基础的个人信息处理都可以被视为合法。而数据的行为主义规制则预设数据的互联,将某些行为排除在外。但在2023年初生成式人工智能引起关注后,欧盟最后一刻在《人工智能法案》加入了要求生成式人工智能对其利用的著作权作品保持透明性的条款,[82]该条款虽然没有明确要求利用著作权作品都必须获得许可,但仍然为著作权所有者提出权利主张埋下了伏笔。
互联网企业自治与互联各有利弊。互联网的自治与互联亦是如此,要求互联网企业完全开放,也可能对企业的合理生态管理造成威胁。
四、人工智能时代的数据法律重构为了重构数据的公共性,应对个人信息、著作权与数据互联的法律制度进行重构。如果人工智能对于公开个人信息的利用适用个人信息保护的一般规则,则人工智能将很难获取足够的数据集合。[63]2.著作权对于涉及著作权数据的人工智能利用,可以首先将人工智能区分为生成式人工智能与非生成式人工智能。此外,著作权人或数据库持有者也可以利用侵权法提起诉讼或权利主张,当人工智能对于数据的利用具有过错并产生具体损害,法律应当为相关行为提供侵权法救济。
[85]如果此类数据成为排他性的财产,则无论此类数据是私人企业所有还是国家所有,数据都会走向封闭,产生人为制造的数据孤岛现象。同时,法律应强化人工智能对个人信息的事中事后保护责任,防止生成式人工智能对于整体数据库的剽窃性利用。以个人信息保护为例,个人信息保护制度起源于20世纪六七十年代,在理念上与个人信息控制论或自决论密切相关,[32]其制度则起源于美国的公平信息实践(fair information practices)。因为个人自行公开意味着个体对其中的风险有较强的事前预期与预防,而合法公开则常常是政府所为,此类公开常常是为了满足公众知情权或促进公共利益。
更为恰当的方法是要求水库承担更为严格的安全保障义务,同时要求水库承担更多社会责任。[77]在这种标准之下,生成式人工智能所生成的作品,很可能会在美国被认定属于合理使用。
还有很多作品则可能完全找不到作者,属于孤儿作品(orphan works)。[14]《个人信息保护法》第27条。
2.制度的路径依赖与市场机制失灵相关的是,个人信息、著作权、数据互联存在路径依赖的难题。其次,法律应适度减轻各类数据爬虫的责任,利用各类合理的爬虫机制打通不同企业之间的数据壁垒。至于生成式人工智能可能替代大量绘画从业者,这一问题也不应通过著作权加以解决。如果此类数据都受到排他性的著作权保护,排除人工智能对这类数据的合理利用,则生成性人工智能将很难发展,或者很难训练出高质量的产品。从比较法看,不少国家和地区也经历了此种转变。对个人信息与著作权作品,应在数据收集端适度放宽。
3.数据互联对数据汇聚形成另一挑战的是数据互联问题。在法律层面,大量的研究与讨论开始关注人工智能所带来的风险与监管方案,例如,人工智能带来的个人信息保护、虚假信息等问题。
本文指出,当前数据制度的核心问题在于数据收集端的形式性风险防范与确权门槛过低,导致集体行动的失败与数据汇聚困难。上文提到的著作权人难以联系、策略性要价问题就仍将存在。
网络的互联互通带来了溢出效应(Spillover Effect),极大促进了数据的共享。上述告知同意、必要性原则和公开个人信息的制度设计,有利于放松个人信息在收集端的法律限制,促进数据的大规模汇聚。
这类确权不仅妨碍数据的大规模汇聚,而且可能对中小人工智能企业带来不成比例的困难,形成更严重的数据不公。但在数据汇聚后,法律就应施加更多监管,强化人工智能的处理者责任。最后,应强化人工智能企业在数据利用环节的个人信息保护责任。[39]尤其对于生成性的人工智能,其训练数据高度依赖Reddit、Wikipedia、知乎等社区的高质量内容。
[89]最后,法律应通过行业自律等方式,在允许互联网企业自治的同时推动企业之间的互联互通。而我国则在制定法上对其采取了特殊规制的进路,在允许处理的同时赋予了个人的拒绝权,并规定对个人权益有重大影响的应当获取其同意。
排他性的数据确权预设了数据的孤立性,要求数据的获取与互联都必须得到事先许可。非生成式人工智能对于著作权作品的利用目的是获取其中的事实性知识,而非创造性表达。
在个人信息保护中,对此类信息进行特殊规定,符合个人信息保护的一般原理。而在告知同意方面,法律在强化告知要求的同时,减轻同意要求。
对于数据库而言,数据库所拥有的数据可能仍然较少,难以满足人工智能数据训练所需要的数据量。但对于人工智能企业而言,单项作品所能带来的利润非常有限,人工智能企业将很难和著作权人达成许可协议。其次,在人工智能适用场景下,应对个人信息处理的必要性原则进行适度扩张解释。生成式人工智能对于数据的利用更为复杂,因为其对著作权作品数据的利用常常既涉及事实,也涉及表达,其生成作品有可能对原作品形成替代。
[44]当然,数据不仅具有正外部性,也具有负外部性。百度也试图通过爬虫协议(Robots)拒绝360搜索。
而且,大数据与人工智能时代所需要的恰恰是数据的汇聚融合。大规模微型权益 一、问题的提出:人工智能发展的数据基础随着人工智能聊天机器人程序(ChatGPT)等生成式人工智能的问世,人工智能的发展再次引起全球关注。
[53]信息处理者不仅可以通过个人同意而轻易收集个人信息,而且其处理也常常可以因为告知同意而免责。个人信息保护不仅涉及个人,也可能涉及第三方,如个人的基因信息也会揭示第三方信息。
Copyright (c) 2018-现在 XML地图html地图 All Rights Reserved. 针对外部性,一种解决方案是通过国家规制进行调整,如通过庇古税来增加边际私人成本,从而实现社会成本等内部化(internalization of social cost)。SMS接码-实卡接码平台 企业网站源码 pbootcms教程 八戒站长 空间域名 海纳吧 三合一建站 多城市分站1