当前位置: 网站首页 > 数码印刷 > 详情

聊天机器人正在消化互联网怎么办(聊天机器人正在消化互联网怎么回事)

2024-05-07 06:16:33 数码印刷 0

据4月30日消息,人工智能公司正在未经人们同意、也没有任何补偿的情况下利用互联网上无数人创造的内容。现在,越来越多的科技和媒体公司要求付款,希望能从聊天机器人的热潮中分得一杯羹。

翻译内容如下:

聊天机器人正在消化互联网怎么办(聊天机器人正在消化互联网怎么回事)

如果您曾经在Reddit 上写过博客、发过帖子,或者在开放网络上分享过任何内容,那么您很可能为最新一代人工智能的诞生做出了贡献。

谷歌的Bard、OpenAI 的ChatGPT、微软的新版Bing 以及其他初创公司的类似工具都融入了AI 语言模型。但如果没有互联网上免费提供的大量文本,这些聪明的机器人作家就不可能出现。

如今,网络内容再次成为竞争的焦点。自搜索引擎之战初期以来,这种情况还没有发生过。科技巨头正试图开拓这一不可替代、富含新价值的信息来源,作为自己的领地。

此前毫无戒心的科技和媒体公司意识到,这些数据对于培育新一代基于语言的人工智能至关重要。 Reddit 是OpenAI 宝贵的培训资源之一,但它最近宣布将向人工智能公司收取数据访问费用。 OpenAI 拒绝置评。

最近,Twitter还开始对数据访问服务收费,这一变化影响了Twitter业务的许多方面,包括人工智能公司对数据的使用。代表出版商的新闻媒体联盟本月在一篇论文中宣布,公司在使用其成员制作的作品来训练人工智能时应支付许可费。

“对我们来说真正重要的是信息的所有权,”程序员问答网站Stack Overflow 的首席执行官Prashanth Chandrasekar 说。该公司计划开始向用户创建内容收费。 “在过去15 年里,Stack Overflow 社区为回答问题付出了巨大的努力,我们真的希望确保这些努力得到回报。”

之前有许多人工智能服务,例如OpenAI 的Dall-E 2,学会了生成图像,但被指控大规模盗窃知识产权。创建这些系统的公司目前正因这些指控而陷入诉讼。关于人工智能生成文本的争论可能会更大,不仅涉及补偿和信用问题,还涉及隐私问题。

但华盛顿大学计算语言学家艾米丽·M·本德(Emily M. Bender)认为,根据现行法律,人工智能机构不对自己的行为负责。

争议源于人工智能聊天机器人的开发方式。这些机器人的核心算法被称为“大语言模型算法”,需要通过吸收和处理大量现有语言文本数据来模仿人类语音的内容和方式。此类数据不同于我们在互联网上习惯的行为和个人信息,例如Facebook 母公司Meta Platforms,它使用它来定位广告。

这些数据是由人类用户使用各种服务创建的,例如Reddit 用户发布的数亿条帖子。只有在互联网上你才能找到足够大的人工生成单词库。没有它,当今基于聊天的人工智能和相关技术都不会成功。

非营利性艾伦人工智能研究所的研究科学家杰西·道奇(Jesse Dodge) 在2021 年的一篇论文中发现,维基百科和来自大大小小的媒体的无数受版权保护的新闻文章。存在于最常用的网络爬虫数据库中。 Google 和Facebook 都使用这个数据集来训练大型语言模型,OpenAI 使用类似的数据库。

OpenAI 不再公开其数据来源,但根据该公司2020 年发表的一篇论文,其大规模语言模型使用从Reddit 抓取的帖子来过滤和改进用于训练其人工智能的数据。

Reddit 发言人蒂姆·拉斯施密特(Tim Rathschmidt) 表示,不确定向访问其数据的公司收费会产生多少收入,但相信他们拥有的数据可以帮助改进当今最先进的技术。大型语言模型。

出版业高管一直在调查:他们的内容在多大程度上用于训练ChatGPT 和其他人工智能工具?他们认为自己应该如何得到补偿?他们可以利用什么法律来维护自己的权利?不过,该组织总法律顾问Danielle Coffey 表示,到目前为止,尚未与任何大型人工智能聊天引擎(如Google、OpenAI、微软等)的所有者达成任何协议,让他们支付一部分费用从新闻媒体联盟成员那里收集的培训数据。

推特没有回应置评请求。微软拒绝置评。谷歌发言人表示:“我们在帮助创作者和出版商通过内容获利并加强与受众的关系方面有着悠久的历史。根据我们的人工智能原则,我们将继续以负责任和道德的方式这样做。以道德的方式进行创新方式。”该发言人还表示,“现在还处于早期阶段”,谷歌正在就如何构建有利于开放网络的人工智能征求意见。

法律和道德泥潭

在某些情况下,复制开放网络上的可用数据(也称为抓取)是合法的,尽管公司仍在争论如何以及何时允许这样做的细节。

大多数公司和组织愿意将他们的数据放在网上,因为他们希望搜索引擎发现这些数据并对其建立索引,以便人们可以找到内容。然而,复制这些数据来训练人工智能,而不需要寻找原始来源,是完全不同的。

计算语言学家本德表示,从网络收集信息来训练人工智能的科技公司的运作原则是:“我们可以接受它,所以它是我们的。”将文本(包括书籍、杂志文章、个人博客文章、专利、科学论文和维基百科内容)转换为聊天机器人答案会删除材料来源的链接。这也使得用户更难验证机器人告诉他们的内容。对于经常撒谎的系统来说,这是一个大问题。

这些大规模的刮擦也会窃取我们的个人信息。 Common Crawl 是一个非营利组织,十多年来一直在开放网络上抓取大量内容,并将其数据库免费提供给研究人员。 Common Crawl 的数据库也被谷歌、Meta、OpenAI 等寻求训练人工智能的公司用作起点。

Common Crawl 的数据科学家兼工程师Sebastian Nagel 表示,你几年前写的一篇博文,虽然后来被删除了,但可能仍然存在于OpenAI 使用的训练中。在数据中,该公司使用多年前的网络内容来训练其人工智能。

本德说,与谷歌和微软拥有的搜索索引不同,从训练有素的人工智能中删除个人信息需要重新训练整个模型。道奇还表示,由于重新训练大型语言模型的成本可能非常高,即使用户能够证明个人数据被用来训练人工智能,该公司也不太可能这样做。由于需要巨大的计算能力,此类模型的训练成本可能高达数千万美元。

但道奇补充说,在大多数情况下,人工智能也很难接受包含个人信息的数据集的训练来反省这些信息。 OpenAI 表示,它已经调整了基于聊天的系统,以拒绝个人信息请求。欧盟和美国政府正在考虑制定新的法律和法规来管理此类人工智能。

问责制和利润分享

人工智能的一些支持者认为人工智能应该能够访问其工程师可以获得的所有数据,因为这就是人类学习的方式。从逻辑上讲,为什么机器不应该这样做呢?

本德表示,抛开人工智能尚未与人类相同的事实不谈,上述观点存在一个问题,即在现行法律下,人工智能无法对自己的行为负责。抄袭他人作品或试图将错误信息重新包装为真理的人可能会面临严重的后果,但机器及其创造者并不承担同样的责任。

当然,情况可能并非总是如此。就像版权所有者盖蒂起诉图像生成人工智能公司使用其知识产权作为训练数据一样,如果基于聊天的人工智能制造商未经授权使用其内容,企业和其他组织最终可能会起诉基于聊天的人工智能制造商。除非他们同意搜查令,否则请上法庭。

那些由无数人撰写的个人文章、在不起眼的论坛和消失的社交网络上发布的帖子以及其他各种东西真的能让今天的聊天机器人和作家一样出色吗?也许这些内容的创作者能从中获得的唯一好处是,他们在语言的使用方面为聊天机器人的培养做出了一些贡献。