当前位置:首页  /  时时快讯  /  13家媒体怒告OpenAI等AI巨头:内容创作为何成了大模子 的“免费午餐”?

13家媒体怒告OpenAI等AI巨头:内容创作为何成了大模子 的“免费午餐”?

分类:时时快讯 38

  每经记者 文巧 郑雨航    每经编辑 兰素英    

  想象一下,在一个巨大的机房内,数不清的服务器闪烁 着点点亮光,随着数据流的进入,大语言模子 将其一股脑儿“吞食”,随后开始高速分析和处理 惩罚 。在日复一日的数据“投喂”和深度学习技能 的推动下,大模子 表现 得越来越类人化,OpenAI等一众AI公司也随之迎来迅猛发展。

  然而,对于到底“投喂”了什么数据,是否得到 授权,这些AI公司总是讳莫如深。伯克利盘算 机科学家Stuart Russell等学者以为 ,大模子 吞噬了大多数互联网信息,以复制人类智能并将其以主动 化情势 镜像回馈给我们。

  当意识到其网站上发布的故事都被主动 抓取成了大模子 的“食品 ”后,以《纽约时报》为首的媒体/出书 机构向OpenAI等发起了版权诉讼。《逐日 经济消息 》记者在采访哈佛法学院传授 丽贝卡·塔什内特(Rebecca Tushnet)、安杰世泽状师 事件 所合资 人于雯竹后相识 到,此类案件判定 的难点在于怎样 确定AI输出内容与媒体报道间的“实质性相似”。

  另一方面,OpenAI等科技公司也向媒体/出书 机构抛出了橄榄枝,由于 数据总有耗光的一天。研究机构Epoch AI近期猜测 ,大模子 将在2026年至2032年之间斲丧 完全部 可用数据。

13家媒体怒告OpenAI等AI巨头:内容创作为何成了大模型的“免费午餐”?

  有外媒批评 称,告状 大概 是《纽约时报》会商 的本领 之一。实际 上,在告状 之前,《纽约时报》与OpenAI不停 在商谈授权相助 协议。图为OpenAI首创 人兼首席实行 官阿尔特曼。 视觉中国图

  付费内容被抓取

  2009年末,媒体大亨默多克曾在一场论坛上说:“有些人以为 他们有权拿走我们的消息 内容,还无需为消息 生产贡献一分钱。他们险些 陵犯 了我们的全部消息 ,这可不是公道 利用 。说得直白些,这就是偷。”

  当时 ,随着谷歌等新兴互联网公司的出现,美国报业的广告收入腰斩。而如今 ,OpenAI等天生 式AI公司的强势崛起,雷同 的一幕好像 又开始重演。

  消息 团体 首席实行 官罗伯特·汤姆森就曾表现 ,“媒体的团体 知识产权正受到威胁,我们应该高声 要求补偿 ”。消息 行业状师 Steven Lieberman更是直言,OpenAI的巨大乐成 也要归功于其他人的工作,它在未经答应 或付款的环境 下获取了大量优质内容。

  据外媒,ChatGPT重要 通过阅读册本 、文章和公开的网络内容来学习,包罗 来自互联网的在线消息 文章。雷同 的大语言模子 也依靠 的是交际 媒体帖子、博客、数字化册本 、在线批评 、维基百科页面以及人们能想到的险些 全部 网络信息。

  在意识到ChatGPT对汗青 和局势 的相识 源自其网站上发布的故事(乃至 是付费内容)时,客岁 底,《纽约时报》对OpenAI以及微软提告状 讼,控告 后者未经授权利用 该报版权内容练习 AI模子 ,并在ChatGPT产物 中出现 给用户。

  该案打响了媒体机构告状 OpenAI的第一枪,随后又有多家媒体参加 了这一队列。据《逐日 经济消息 》记者不完全统计,克制 本年 6月尾 ,已至少有13家消息 媒体机构对OpenAI和微软提起侵权诉讼。这内里 有Alden Global投资团体 旗下的地区 性着名 报纸,包罗 芝加哥论坛报、纽约逐日 消息 、丹佛邮报,尚有 数字消息 媒体The Intercept、Raw Story以及非红利 消息 构造 The Center for Investigative Reporting。

  “判定 这种数据抓取举动 是否陵犯 版权,是一个复杂且有争议的题目 。”安杰世泽状师 事件 所合资 人、中国和美国纽约州执业状师 于雯竹在担当 《逐日 经济消息 》记者采访时表现 。

  这些诉讼只是各行业与天生 式AI公司斗争的缩影。

  美国本地 时间6月24日,环球 三大唱片公司索尼音乐团体 、环球 音乐团体 和华纳音乐连合 多家唱片公司,向AI音乐天生 公司Suno和Udio 开辟 商Uncharted Labs发告状 讼,控告 后者非法利用 版权音乐来练习 模子 并提供服务。唱片公司控告 Suno抄袭了662首歌曲,Udio抄袭了1670首歌曲,正在实行 索取每件音乐作品最高15万美元的补偿 费用。

  8个月角力无结果

  越来越多关于天生 式AI技能 的法律之争也让人们开始正视媒体/出书 商与颠覆性技能 之间的关系。

  据闻名 广告周刊Adweek报道,谷歌客岁 5月推出了基于AI的搜刮 引擎 Search Generative Experience(SGE)测试版,担当 采访的媒体高管和搜刮 引擎优化专家称,出书 商必须为天然 搜刮 流量的大幅降落 做好预备 ,降落 幅度大概 在20%到60%之间。而出书 商在开放网络上的搜刮 流量镌汰 通常意味着数字广告收入降落 。新型媒体公司Raptive创新实行 副总裁Marc McCollum估计,在如今 的SGE下,整个出书 业每年的广告收入丧失 大概 高达20亿美元。

  而《纽约时报》的告状 不但 是媒体范畴 的紧张 里程碑案件,亦可以为法律业界提供极具参考代价 的信息。

  “就版权法而言,本案的紧张 影响在于版权法在数字和AI期间 的实用 范围。特别 是对于消息 报道这类具有较高公共长处 的文本内容,怎样 均衡 版权掩护 和信息自由将成为一个关键题目 。”于雯竹对记者说道。

  在于雯竹看来,假如 《纽约时报》的诉讼得到 乐成 ,将树立一个紧张 的法律先例,鼓励其他笔墨 类媒体、版权机构和作家团体构造 跟随告状 OpenAI及雷同 的AI公司。本案大概 会督促AI公司器重 AI模子 练习 的合法 性,大概 推动相干 行业规范的创建 。

  如今 ,该案件已经连续 将近 8个月,但还没有定论。

  “实质性相似”难证明

  《纽约时报》在告状 书中称,ChatGPT险些 逐字复制了其消息 报道。该报举例称,2019年,《纽约时报》发表了一篇荣获普利策奖的关于纽约市出租车行业打劫 性贷款的系列文章。该报称,只要稍加提示,ChatGPT就会一字不差地背诵此中 的大部分 内容。

  在其他多家媒体的告状 书中,记者发现,其法律论证和主张都基于美国1976年版权法和《数字千年版权法》(DMCA)。

  对于这两部法案中涉及AI的内容,于状师 告诉记者,“就1976年版权法而言,侵权的判定 通常依靠 于原作品和被控告 侵权作品之间的相似性,以及实际 的复制举动 。本案中实际 复制举动 相对轻易 证明 ,由于 OpenAI并未否认其练习 数据中包罗 《纽约时报》的文章。”

  然而难点在于,“证明 终极 天生 的文本构成版权侵权仍需满意 ‘实质性相似’测试,由于 它有助于判定 受版权掩护 的表达元素是否被复制,还是 仅复制了此中 的头脑 。版权掩护 的是表达,而不是头脑 。你可以用本身 的语言重新实现他人的头脑 ,这不构成版权侵权。但假如 你利用 他人的语言——即他们的表达——那就是版权侵权。”于状师 说道。

  谈及DMCA,于雯竹表明 道:“此中 的一项规定鼓励版权持有者在数字资产中添加内容管理信息(CMI),比方 资助 辨认 创作者或权利持有者的信息,并克制 他人移除这些信息。”

  然而,《纽约时报》告状 书提到,OpenAI在抓取其文章以创建数据库时,移除了这些信息,违背 了DMCA。

  “实际 上,美国是判例法国家,而其版权法及DMCA并未特别 规定与AI相干 的法律内容,对于OpenAI的举动 是否属于侵权的认定,法院依据的是相干 的先例及其对相干 法律条文的表明 。”于雯竹表现 。

  公司称是“公道 利用 ”

  在回应《纽约时报》版权侵权诉讼时,OpenAI夸大 利用 公开质料 练习 AI模子 属于公道 利用 。这一规则基于美国1976年版权法第107条规定。

  哈佛法学院传授 丽贝卡·塔什内特在担当 《逐日 经济消息 》记者采访时以为 ,“美国版权法既提供了广泛的权利,也提供了广泛的例外 。关键题目 是AI练习 是否构成‘公道 利用 ’,以及当AI输出的内容与现有作品过于相似时,该题目 到底应该归咎于模子 还是 用户的滥用”。

  塔什内特以为 ,“OpenAI提供了有一个风趣 的主张,即(AI)要得到 高度相似的输出,必须故意用《纽约时报》原始文章中的大量引文来提示模子 ,这表明错误在于提示者(用户的滥用)”。

  “‘公道 利用 ’是美国版权法的一项关键上风 ,使其可以或许 应对不绝 变革 的环境 。它促成了我们所知道的当代 互联网的鼓起 ,尤其是搜刮 引擎。按照同样的推理,只要输出通常不是从特定作品中复制而来,创建AI模子 就应该被视为厘革 性的和公平的。”她对记者解读称,“我以为 这是一个相称 标准 的有关‘公道 利用 ’的题目 ”。

  根据1976年版权法,判定 公道 利用 的认定包罗 四个因素。此中 ,于雯竹以为 ,最紧张 的是第四点:利用 对版权作品的潜伏 市场或代价 的影响。简而言之,就是新作品是否对原作品构成市场侵害 。

  《纽约时报》在告状 书中称,OpenAI的AI工具不但 未经授权利用 了《纽约时报》的数据举行 练习 ,还分流了《纽约时报》网站的流量,导致公司广告、订阅和授权营收的丧失 。因此《纽约时报》公司向OpenAI和微软提出数十亿美元的索赔,并要求他们克制 利用 本身 的内容数据。

  “我以为 OpenAI的‘公道 利用 ’辩护在理论上具有较大的公道 性,但其乐成 与否取决于法院对四因素测试的具体 评估。”于雯竹说道。

  塔什内特也表现 ,“我对法院是否会驳回(OpenAI)的全部 辩护持猜疑 态度,但没有什么是绝对肯定的”。

  窘境 之下的相助

  如今 ,OpenAI可以合法 地为其模子 “喂食”什么内容这一题目 仍待办理 ,但媒体机构的战略 开始出现 分化趋势。

  本地 时间6月27日,《期间 》杂志与OpenAI公布 ,两家公司告竣 了一项多年内容授权协媾和 战略相助 搭档 关系。该协议答应 OpenAI将这家出书 商的内容引入ChatGPT,并资助 练习 其开始 辈 的AI模子 。

  据消息 稿先容 ,OpenAI可以通过这笔买卖 业务 访问《期间 》已往 100多年的档案和文章,以练习 其AI模子 ,并在其面向斲丧 者的产物 (如ChatGPT)中用于复兴 用户的扣问 。但两边 的买卖 业务 代价 并未透露。

  本年 5月,OpenAI和消息 团体 也告竣 了雷同 的相助 关系。在此相助 下,OpenAI有权访问消息 团体 旗下媒体的当前和存档文章,包罗 《华尔街日报》《MarketWatch》《巴伦周刊》《纽约邮报》等。

  《逐日 经济消息 》记者留意 到,已往 半年时间,OpenAI已连续 与多家媒体机构告竣 协议。

  对媒体机构来说,担当 OpenAI等AI巨头抛来的橄榄枝,与科技公司在AI新期间 相助 ,共同探索新的资讯形态、贸易 模式和分成比例,大概 是最好的选择。与OpenAI相助 的媒体公司以为 ,天生 式AI将继承 存在,最好能分一杯羹。别的 ,与OpenAI相助 让出书 物在某种程度 上可以控制他们的消息 报道在ChatGPT相应 中的出现 方式。

  正如消息 团体 首席实行 官Robert Thomson所称,“(与OpenAI的协议)承认 了顶级消息 应有顶级代价 。数字化期间 的一大特性 是分销者占据主导职位 ,而内容创作者常常 长处 受损。很多 媒体公司都被无情的科技大潮所卷席。我们如今 有责任捉住 这一最大的机会 ”。

  有外媒批评 称,告状 大概 也是《纽约时报》会商 的本领 之一。实际 上,在告状 之前,《纽约时报》与OpenAI不停 在商谈授权相助 协议,但在OpenAI参加 了新的免责条款后,会商 破裂 。

  对科技公司来说,付出 授权费用一方面可以有效 化解法律风险,另一方面可以得到 更多优质练习 数据,优质数据才是决定将来 AI大模子 优劣的关键因素。毕竟 ,当前各大科技公司都面对 数据枯竭的风险。

  在6月更新的一项研究结果 中,人工智能研究机构Epoch AI称,据他们估测,如今 人类天生 的公开文本总量约为300万亿个Token,但利用 数据的速率 远远高出 了天生 数据的速率 ,这意味着大模子 将在2026年至2032年之间斲丧 完全部 可用数据。

  与AI公司相助 到底能给媒体机构带来多大的收益?

  以消息 团体 举例,《逐日 经济消息 》记者留意 到,除2024财年第二财季由于图书出书 本钱 低落 以及与公布 的5%裁人 筹划 相干 的总本钱 节流 所带来的高额净收入之外,消息 团体 每个季度的净收入均在6000万美元以内。而《华尔街日报》援引知恋人 士的消息称,消息 团体 与OpenAI的协议代价 在五年内大概 高出 2.5亿美元,包罗 现金和利用 OpenAI技能 的积分情势 的补偿 。云云 算来,相称 于OpenAI每年将向消息 团体 付出 高达5000万美元的内容授权费用,这险些 相称 于消息 团体 将近 一个财季的净收入。

  从近期科技公司与媒体告竣 的相助 金额来说,这一买卖 业务 可以算是AI行业发展的里程碑变乱 。而且,消息 团体 与OpenAI的协议并非是一份独家授权协议,意味着消息 团体 还可以从谷歌等其他AI公司继承 得到 授权收入。

  汤森路透的财报也证明 了相助 带来的收益。《逐日 经济消息 》记者查询汤森路透公司的财报发现,2024年第一季度,该公司收入为18.85亿美元,同比增长8%。该公司在财报中写道,“(增长)重要 是由于‘三大’部分 (该公司的法律、企业和税务以及管帐 部分 )的常常 性收入和买卖 业务 收入的强劲增长,以及路透社消息 部分 的天生 式AI相干 内容答应 收入”。

  一季度财报表现 ,路透社消息 业务的收入为2.1亿美元,同比增长3%。这一增长重要 是由于汤森路透与伦敦证券买卖 业务 所团体 (LSEG)数据分析部分 签订 的消息 协议。根据该协议,路透社消息 将向LSEG授权提供消息 内容,后者用于天生 AI相干 内容。2024年第一季度,仅该协议为路透社消息 业务带来的收入就高达9600万美元。

  封面图片泉源 :视觉中国

猜你喜欢

全部评论(0
评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。