介绍
人工智能领域不断发展,但新的挑战也随之而来:像 Midjourney 和 ChatGPT 这样的生成式人工智能模型的训练数据匮乏。这种情况不仅是一个技术障碍,也反映出数字时代围绕数据使用日益增长的伦理和法律担忧。著名麻省理工学院 (MIT) 的一个研究小组最近开展的一项研究揭示了这一新兴问题。通过分析三个大型人工智能训练数据集(C4、RefineWeb 和 Dolma)中包含的 14.000 个网络域名,研究人员发现了所谓的“新兴的同意危机”。
研究的主要发现:
1. 广义限制: 目前,所有数据的 5% 被限制用于人工智能训练。
2. 对高质量来源的影响: 当谈到被认为是高质量的来源时,这个数字跃升至令人印象深刻的 25%。
3. Robots.txt 的使用增加: 网站所有者越来越多地使用 robots.txt 文件来屏蔽 AI 爬虫。这些发现对于 AI 行业尤其令人担忧,因为训练数据的质量对于开发有效可靠的模型至关重要。限制对高质量来源的访问可能会导致生成式 AI 模型的性能和可靠性下降。
危机背景:
这种情况并非空穴来风。人工智能行业因涉嫌从艺术家、作家和其他内容创作者的作品中获利而未获得足够报酬,面临着越来越多的批评和诉讼。多起诉讼正在进行中,其中包括摄影师对谷歌、Midjourney 和 Stable Diffusion 等巨头提起的诉讼。数据所有者的回应很明确:阻止访问。使用 robots.txt 文件(一种已有数十年历史的控制机器人访问网站的工具)已成为一种拒绝人工智能爬虫程序权限的流行方式。虽然它不具有法律约束力,但它明确表明了意图。
各行业反应不一:
人工智能公司对这一趋势的反应褒贬不一。一些公司,例如 OpenAI(DALL-E 和 ChatGPT 的创造者)和 Anthropic,声称尊重 robots.txt 准则。然而,其他公司则被指责无视这些限制,引发了重大的道德问题。
对人工智能未来的影响:
1. 模型质量:随着高质量数据获取渠道的减少,未来的人工智能模型可能会变得不那么准确或可靠。2. 创新与版权:促进技术创新与保护知识产权之间的平衡正变得越来越微妙。3. 人工智能的民主化:有人担心,如果所有人工智能训练都需要许可协议,这可能会将独立研究人员和民间社会组织排除在人工智能开发之外。4. 对新商业模式的需求:人工智能公司可能需要为内容创作者开发新的补偿模式。5. 监管:这种情况可能加速对人工智能训练数据使用制定更明确监管规定的需求。
前进的道路:
克服这场新出现的危机需要人工智能行业、内容创作者、政策制定者和公民社会的共同努力。一些可能的解决方案包括:——制定人工智能数据收集和使用的道德标准。——为内容创作者创建公平的补偿模式。——投资研究,开发需要更少数据的人工智能训练方法。——建立清晰的监管框架,平衡创新与版权。
结论:
数据访问中的“同意危机” IA 这提醒我们,随着技术进步,我们必须始终考虑创新的伦理和社会影响。人工智能的未来不仅取决于技术进步,还取决于我们公平且合乎伦理地处理这些复杂问题的能力。








