AI的发展史可能是踩踏法律向上攀爬的犯罪史

摘要

AI公司为训练模型频繁窃取数据,从Meta偷黄片到OpenAI复制艺术家风格,揭示行业黑历史。本文分析侵权案例与法律风险,提供数据保护策略,助你防范AI滥用。

大纲

一、开头用 meta 偷黄片的例子来引入吸引读者兴趣:

今天刷到一个内容,讲的是 Meta 一直在偷偷下载黄片来训练自己的大模型,然后被发现起诉了。

原因是

我们这些黄片,画质高、分辨率高、镜头长、表情自然、对话有节奏、动作有连贯性、场景变化少。 对于训练 AI 模型,尤其是生成类视频模型来说,没有比这种素材更理想的了。 大多数电视剧剪辑太快,镜头太多,表演太做作。新闻视频没有人物互动。YouTube 视频缺乏一致性。而成人电影呢?它天然有一个清晰的“故事线”,人物动作从开始到结束基本在一个空间中完成,配音与肢体一致,而且角色情绪、表情都是真人表演。 当然,除此之外它还有其他训练数据没有的「独特场景」。

再往前看,这还不是它第一次偷数据,之前就偷过文本数据来用。

今天就来聊聊 AI 公司的那些起家黑历史,果然第一桶金都是脏的。

二、讲现象

大家可能会发现这样的现象,自己的内容出现在了 AI 里:

案例 1、2、3、4、5

(收集一些用户说自己创作的内容(文字、图片、影像等)出现在了 ai 的结果里的案例)

三、解释现象

讲清楚大模型公司收集的训练数据是怎么影响到 ai 输出的结果的 ?

需要研究现在不同 AI 的问题结果,反推可能训练数据是怎么来的?

四、引出思考,为什么会这样,合法的吗?

但这些是合法的吗?

大模型公司有钱,玩法都是:管你同不同意,先抓数据,被发现了就罚款当作买了。买卖强卖。

五、深挖 AI 公司的犯罪案例与证据

类似的案例还有:

各个 AI 大公司陷入的诉讼、违法事件列举 5 个

六、讲怎么办?

最后,讲个人、商业公司怎么保护自己的数据不被 ai 拿去训练,进而泄密呢? 例如在 AI 生成文本内容的时候,如何在文本中加入不可见的水印,方便进行内容的跟踪等等

七、思考

其实法律和商业发展是相爱相杀的

有时候,发展太快,法律跟不上,所以 AI 的高速发展伴随着大量法律问题,带来大量诉讼

但法律把 AI 往后拉,是能确保它的发展方向是健康有利人类的。

正文

AI 的发展史可能是踩踏法律向上攀爬的犯罪史

今天刷到一个巨离谱的新闻,讲的是 Facebook 母公司 Meta 一直在偷偷下载成人影片来训练自家的大模型,结果被发现并告上了法庭。

为什么它冒险去偷别人家的黄片?是因为爱看吗?

确实,但爱看的不是员工~~(也不一定)~~,是 AI:

**这些影片画质高、镜头长、人物表情真实自然、对话有节奏、动作连贯,而且场景通常很稳定。**对于训练一个需要理解人类行为和生成视频的 AI 模型来说,是完美教材。相比之下,其他影片,电影剪辑太快,电视剧表演痕迹过重,而 YouTube 上的 UGC 内容又质量参差不齐。

这听起来荒谬,但绝非孤例。

深挖下去,你会发现 AI 公司们为了“喂饱”自家模型,其数据来源的“不拘小节”程度远超想象。比如,Google 曾被曝出其用来训练大模型的 C4 数据集中,包含了大量从医疗网站、专利数据库甚至众筹平台 Kickstarter 上抓取的个人敏感信息(相关分析可见:Uncovering the Origins of C4)。这似乎揭示了一个行业内秘而不宣的潜规则:在通往人工智能王座的道路上,第一桶金,似乎总是脏的。

被“一键复制”的灵魂

你是否曾有过这样的经历?在社交媒体上看到一张由 AI 生成的精美图片,其独特的风格让你想起了某个你很欣赏的艺术家,甚至,那就是你自己的风格。就在不久前,OpenAI 发布其惊艳的 GPT-4o 模型时,人们发现它能轻易生成“吉卜力风格”的动画。这立刻引发了轩然大波,因为吉卜力工作室及其灵魂人物宫崎骏以其对作品版权的严格保护而闻名。尽管没有公开的法律文件,但巨大的舆论压力和潜在的侵权风险,据信是导致该特定风格在后续版本中被迅速削弱的原因。这生动地展示了创作者的愤怒:自己穷尽一生心血磨练出的独特风格,转眼间就被 AI“一键复制”了。

这种“创意被窃取”的感觉,艺术家们体会得最早也最深。Sarah Andersen, Kelly McKernan, 和 Karla Ortiz 这三位艺术家就联合对 Stability AI 和 Midjourney 等公司提起了集体诉讼,因为她们发现自己的名字成了生成特定画风的“魔法咒语”(案件详情可见 The Verge 的报道:AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit)。全球知名的图片库 Getty Images 更是直接将 Stability AI 告上法庭,不仅因为后者抓取了数百万张受版权保护的图片,更因为 AI 在生成的图像中,竟不时“复刻”出 Getty Images 那标志性的、被扭曲了的水印——这无异于小偷作案后,不小心在现场留下了带有失主签名的手套。(相关诉讼报道:Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content

文字创作者也未能幸免。《权力的游戏》作者乔治·R·R·马丁与其他多位知名作家一起,加入了美国作家协会对 OpenAI 提起的诉讼,指控该公司利用他们的小说来训练 ChatGPT,构成了“系统性的大规模盗窃”。(作家协会官网声明:Authors Guild Sues OpenAI)而新闻业的巨头《纽约时报》更是直接与 OpenAI 和微软对簿公堂,称其 AI 产品几乎可以逐字复述其付费文章,直接损害了其核心商业利益,索赔金额可能高达数十亿美元。(《纽约时报》自己的报道:The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work

带血的代价

如果说“偷数据”听起来还只是知识产权层面的纠纷,那么当 AI 的“学习”成果被应用到物理世界时,其代价可能就是血淋淋的。以自动驾驶为例,这无疑是 AI 技术最雄心勃勃的应用之一。然而,为了让车辆“学会”开车,它同样需要海量的数据训练。当这种训练和部署不够完善时,悲剧便会发生。根据美国国家公路交通安全管理局(NHTSA)的数据,仅涉及特斯拉 Autopilot 系统的车祸,就已导致了数百起伤亡事故。截至 2024 年初,与特斯拉自动驾驶相关的死亡人数已累计数十人(相关数据可查阅路透社等媒体对 NHTSA 报告的报道:Tesla Autopilot, Full Self-Driving under probe after hundreds of crashes)。每一个冰冷的数字背后,都是一个破碎的家庭。这让我们不得不质问:在追求技术“跃进”的过程中,这种“必要的牺牲”真的可以被接受吗?

问题在于,AI 公司通常会用“合理使用”(Fair Use)这一概念来为自己的数据抓取行为辩护。但对于创作者和普通公众来说,这更像是一种强买强卖。这些科技巨头手握雄厚的资本,玩法简单粗暴:先用了再说,被发现了就支付一笔罚款或和解金。在针对 GitHub Copilot 的诉讼中,原告方提出的索赔金额高达 90 亿美元,但这对于市值万亿的微软而言,似乎也只是一笔“可以计算的成本”。(相关报道:The lawsuit that could rewrite the rules of AI copyright)当侵权的“成本”远低于创新带来的收益时,法律的威慑力就显得苍白无力。

我们与恶的距离

面对这种局面,我们该如何自保?在讨论如何防御之前,我们得先承认一个事实:很多时候,数据泄露的“大门”是我们自己亲手打开的。你是否曾在公共 AI 聊天框里输入过公司的敏感代码、客户的隐私信息或是自己未公开的创意草稿?你是否在注册某个“免费”AI 工具时,想都没想就勾选了那个“同意用户协议”的复选框?

许多 AI 公司的用户协议都暗藏玄机,用冗长晦涩的法律条文写着:“您上传的内容可能会被用于改善我们的服务”,这实际上就是一份数据“卖身契”。而那些所谓的“福利”,比如免费使用强大的代码助手或论文润色工具,其真实的价格,往往就是你的隐私数据。你以为自己薅到了羊毛,实际上却成了 AI 的“数据饲料”。

也许有人会觉得,自己的数据早就被各种 APP 泄露得差不多了,再多一个也无所谓。但这种“无所谓”的态度,可能让你面临比想象中可怕得多的后果。当 AI 掌握了足够多关于你的信息后,它可以被用来进行精准的诈骗,合成你的声音和影像向你的家人勒索钱财。2017 年信用报告机构 Equifax 的数据泄露事件,导致 1.47 亿人的社保号码、生日等核心信息被盗,直接引发了无数起身份盗窃和金融欺诈案件,受害者至今仍在承受后果。对于企业而言,后果更是灾难性的。一次关键的商业合同或客户名单泄露,就可能被竞争对手利用,导致竞标失败、客户流失,甚至直接引发诉讼,最终走向破产。你的数据,远比你想象的更值钱,也更危险。

认清这一点后,构建主动防御体系就至关重要。我们可以多管齐下:管理上,建立严格的数据安全规范,区分内外网 AI 使用权限;技术上,利用 robots.txt 文件阻挡爬虫,或将核心内容置于付费墙后;法律上,在服务条款中明确禁止数据被用于 AI 训练。

必要的“拉扯”

回看这一切,我们不难发现,科技的发展与法律的完善,总是在一种“相爱相杀”的动态关系中前进。AI 的崛起速度之快,远远超过了现有法律框架的更新速度,因此,它的发展史在某种程度上,就是一部不断试探甚至冲撞法律边界的历史。

这些层出-穷的诉讼,以及那些触目惊心的事故报告,看似是给狂飙突进的 AI 产业踩下了刹车,但从长远来看,这又何尝不是一种必要的拉力?正是这种来自法律、伦理和公众的压力,迫使着科技公司去思考更负责任的数据使用方式,去开发更透明的内容溯源技术,最终确保 AI 这头“猛兽”的发展方向,是真正对人类社会健康、有益的。否则,一个建立在践踏个人权利和知识产权基础上的技术帝国,无论多么强大,其根基也终将是不稳的。




👤 关于作者:饼干哥哥 & NGS
我是饼干哥哥,数据分析师、AI 博主,和出海业务专家朋友创立了公司 NGS NextGrowthSail,专注 AI 在出海营销场景下的落地。这让我想起 NGS 在服务客户时,正是利用类似的 AI SEO / GEO 流量优化逻辑,解决了数据安全与合规问题。

发表评论