全球热消息:我在AI训练库里,找到200多张周杰伦的照片
Eden:我的一些网站正在被你的用户攻击,你不能不经同意就抓取我的照片信息。
Romain:你要是不想让人看你发网上的照片,你就把它删除啊。
(资料图)
这段对话来自图片抓取工具 Img2dataset 的 GitHub 页面,争论的双方,是被抓取图片的网站站长 Eden,和抓取工具的开发者 Romain。
▲双方发言的赞踩数,似乎能看到大众的偏向
发布上网=默认同意 AI 训练
不论是 Open AI 的 DALL-E、Google 的 Imagen,还是开源的 Stable Diffusion,任何由文字生成图片的通用大模型,都需要经过大量的数据训练,网络是训练信息的最佳来源。
Eden 建立了一个名为 OpenBenches 的网站,邀请用户上传世界各地的纪念长椅图片和位置。截至今日,OpenBenches 已经收集了超过两万七千张长椅,托管了 250GB 的照片。
一日,Eden 收到了服务器报警,说网站正在受到持续攻击,来源正是上文中提到的 Img2dataset。原因很简单,有人把 Eden 网站里的长椅图片用于 AI 训练。
因为网站流量的激增,导致 Eden 不仅支付了额外费用,还花费了不少时间去阻止抓取工具的滥用。
当然,Img2dataset 的抓取并不是无法禁止的,只需为网站加入“X-Robots-Tag: NoAI”的标头,就可以避免被 Img2dataset 抓取,如果你没有加,则默认你同意自己的网站数据可以被用于 AI 训练。这就出现了争论的关键:作为所有者,我应该选择加入,而不是选择退出。
▲“你剥夺了人们的同意权”
听起来似乎有一点绕,举一个不太恰当的例子,我在手机上下载了一款新 app,在没有打开前,它就已经获取了所有权限,并根据信息推送了广告通知,当我质问开发者时,却得到了“你要是不想看广告,就不要用手机啊”的回复。
怎么样,你开始生气了吗?
公司能收费,个人没办法
今年 2 月,Twitter 宣布不再支持免费 API 访问,如果你想访问 Twitter的数据,需要每月支付 4.2 万到 21 万美元不等的费用,金额越高,研究人员或企业获得的推文数量就越多。
因此,微软则宣布数字营销中心随后表示不再支持 Twitter,这将导致用户不能再通过微软的免费社交媒体管理服务创建、管理他们的推文。
TwitterCEO 马斯克也一点都不含糊:微软在用 Twitter的数据进行非法训练,接下来是诉讼时间。
知名社交媒体 Reddit 拥有庞大的用户群体和活跃的社交板块,同时不少板块的内容也相当专业权威,这让它成为了一个非常好的 AI 学习资料库。
Google Bard 和 ChatGPT 都曾引用 Reddit 的数据作为其训练的信息来源之一。
▲两者的语义学习文档中都出现过 Reddit 的身影
“Reddit 的数据语料库非常有价值,我不能免费将这些价值提供给世界级大公司。”Reddit 创始人 Steve 在采访中表示。
上周二,Reddit 追随 Twitter的脚步,开始向大公司收取 API 访问费用。
你构建未来与我竞争的工具,而我还要把数据免费提供给你,怎么想都不合理。
对大公司来说,改变 API 的开放策略尚是一件需要进行多方权衡的反击方法,而像 Eden 这样的个人网站运营者或者普通网友,面对 AI 默认同意的照片训练,并没有太好的应对方法。
音乐家 Holly Herndon 创建了一个名为“Have I Been Trained”的网站,收集了 5 亿张用于 AI 艺术模型训练的图片,旨在帮助艺术家了解他们的作品是否包含在 AI 模型训练的数据集中。
我尝试在网站中搜索了“Jay Chou”,不知这些被用来进行 AI 训练的周杰伦照片,有没有经过周董本人的同意。
那么,我可以不让 AI 识别我的照片吗?当然可以,那就是 Img2dataset 开发者提供的方法了:拒绝 AI 识别的最佳方法,就是删除它——不想让我用?那你就别上传。
人工智能正在以惊人的速度发展,AI 工具方便了我们的工作生活,但我们似乎还没有想好,该如何应对为人工智能提供动力的数据源。
请给我们“同意”的权利
在“长椅”网站所有者 Eden 与图片采集工具开发者 Rom 的争论中,后者提到一个观点:被 Google 搜索是搜,被我搜索也是搜,为什么你愿意让 Google 收录你的网站,不允许我搜索呢?
这看起来似乎有些道理,但 Google 搜索中心为开发者提供了一个非常全面的防请求机制:robots.txt。
使用这个文件,就可以避免网站收到过多的请求,它并不是一种阻止 Google 抓取某个网页的机制,而是为了更加合理地分配流量。
有网友指出,Img2dataset 主动忽略了 robots.txt,这个做法显然是恶意的。而且,相比全球最大的搜索引擎 Google,Img2dataset 这样的小工具数量更多、迭代更快,今天禁止了这个,明天就会冒出那个。
“难道每出现一个新工具,我就要选择一次拒绝?”Eden 提出的疑问,也是我们每个人可能会遇到的事。
或许是为了利益,或许是寻求方便,不管是故意的还是不小心,“默认同意”似乎成为了 AI 高速发展的秘密武器。但我始终认为,同意是道德的基石,AI 发展的同时,也需要更加合理的数据集采集方式。
在争辩的最后,Rom 依然坚持自己的观点:很遗憾,你们中的一些人还是不理解 AI 的潜力,作为创作者,你们有更多机会从中受益,却与此斗争,这令人感到悲哀。
AI 在飞速发展,而要走的路还是很长。
标签:
- 甘肃再续“艾黎情”:探职业教育德技并修
- 【城市守望者】致敬抗“疫”一线的“拆弹专家”
- 浙江绍兴越城区核酸检测结果公布 除1例阳性外其余均为阴性
- 内地首例奥密克戎变异株感染者身体状况如何?来自哪里?专家解读→
- 对变异病毒已有准备!关于中国新冠药物,钟南山发声→
- 江苏睢宁小网格大担当 织就乡村振兴“幸福网”
- 改造老旧小区 共享幸福生活
- 天津静海:群众在哪里,文明实践就延伸到哪里
- 齐齐哈尔:初步判断疫情感染来源为接触新冠病毒污染环境和物品
- 重庆大竹林派出所副所长因对群众态度简单粗暴被停职
- 黑龙江讷河病例感染源初步判断为新冠病毒污染的环境和物品
- 致敬2021
- 浙江瑞安民警捐献造血干细胞:14年前的心愿终将如愿
- “考研房”涨价离谱 律师:借机宰客有违市场伦理
- 广州白云机场:14天内有东莞旅居史的旅客须凭48小时核酸阴性证明乘机
- 浙江绍兴本轮疫情已报告确诊病例145例 无症状感染者1例
- 福建龙岩一男子和前妻斗气 扛着126斤硬币到法院“还钱”
- 重庆这座立交酷似“悟空” 走红 设计师揭秘(图)
- 青海警方破获特大电诈案 涉案流水高达1.7亿
- 云南新增境外输入确诊病例3例
- 黑龙江讷河市5名核酸阳性人员流调溯源:接触被新冠病毒污染的环境和物品
- 男子爱上女主播 假扮女主播闺蜜教其他男粉丝刷单
- 广西三市警方联手破获毒品案 全链条摧毁跨境贩毒团伙
- 广东东莞发现2例无症状感染者,部分镇今起全员筛查
- 从百二秦关到闻道凯旋 一个殉职医生最后的朋友圈
- 浙江发补充说明:三地铁路出行政策随风险等级同步调整
- 内蒙古新增本土确诊病例5例 均在呼伦贝尔满洲里市
- 陕西新增本土确诊病例1例 系隔离酒店工作人员
- 31省份新增新冠肺炎确诊病例76例 其中本土51例
- 浙江新增新冠肺炎确诊病例45例 其中本土44例
- 技能就是财富 技工也是人才
- 黑龙江新增本土确诊病例1例、本土无症状感染者4例
- 冷空气“调休”!我国大部陆续迎回暖 中东部雨雪稀少
- 华北黄淮等地大气扩散条件转差 冷空气将影响中东部
- 别误读了野猪或将不再是“三有”动物
- 您的ETC已到期?当心这个诈骗短信!
- 对回家的“宝贝”少一些关注,也是一种帮助
- 升温!北京今日阳光在线 最高气温将升至8℃
- 那年今日 | 一张漫画涨知识之12月14日
- 40岁男子一觉醒来突然听不见了 原因是……
- 本年度星空压轴大赏上演 双子座流星雨观赏地图来了
- 广东东莞大朗镇报告2例新冠肺炎无症状感染者
- 商丘4885份被盗出生证去哪了?10年“悬案”引关注
- 浙江海宁警方通报国家公祭日女子穿和服逛街
- 厨艺不精调料凑?懒人调料:年轻人的“下厨神器”
- “您的ETC已到期?”警方提醒:当心这个诈骗短信
- “网红”局长的热度 自述:走红后我就没有周末了
- 寻回被拐10年的儿子后又送走 儿子:害我没家了
- 小城里的三张面孔和警号301137
- 倡导“就地过年”,需因地制宜科学防疫
- 别用“入乡随俗”为星巴克找借口
- 北京地铁14号线年底全线贯通运营
- 天津市从入境人员中检出奥密克戎变异株
- “外滩活地图”黄俊:一个不想出圈的段子手交警
- 寻找一双儿女的25年
- 无锡市场监管部门责成星巴克涉事门店停业整改
- 海岛警事:为了一座岛和2900平方公里的海
- 北京民警宏福苑抗疫26天:“今夜我和雪花一起出发”
- 星巴克的“金标准”缘何败给了“潜规则”
- 患者被低价药“惊呆”的场面应该更多些
- 影视剧“超前点评”不止是“低级错误”
- “南昌鹦鹉案”下发不起诉决定书 网店上架费氏牡丹鹦鹉被拒
- 河南商丘4885份出生医学证明被盗始末追踪
- 绍兴市病例62-109活动轨迹公布
- 12月7日以来,杭州累计报告新冠肺炎确诊病例19例
- 浙江绍兴新增确诊病例37例 上虞区占36例
- 河南高院对张成功案作出死刑判决
- 四川一滑雪场停电游客被困索道 官方回应
- 浙江绍兴越城区新增1例新冠肺炎确诊病例 当地对防控区域划分进行调整
- 中国内地首次检出新冠病毒奥密克戎变异株
- 知网除了涉及著作权纠纷,是否涉嫌违反《反垄断法》?
- 浙江绍兴越城区新增1例新冠肺炎确诊病例
- 四川眉山千箱柑橘送往呼和浩特市抗疫一线
- 两名青年男女探险三亚落笔洞遗址被困沼泽 消防成功救援
- 中国地理学大会在福州发布《中国地理学界碳中和科技行动福州宣言》
- 天津从入境人员中检出新冠病毒奥密克戎变异株
- 江苏规定学科类校外培训机构一次性收费不超3个月
- 上海数字化转型提升教育质量 智慧教育助力“双减”
- 湖北荆门警方“团圆行动”助失散31年家庭团聚
- 成都大熊猫繁育研究基地大、小熊猫陆续搬入扩建区“新家”
- 隔离不隔爱 封控小区的内外“双向奔赴”
- 重庆摧毁为境外赌博网站提供资金支付结算特大犯罪团伙
- 追忆消防烈士张晓杰:逆火前行留忠魂
- 北京永定河以西地区高质量发展五年行动计划发布
- 打造北方“高颜值”大都市 沈阳再建2000个口袋公园
- 重庆抓获并对3516名跨境赌博犯罪嫌疑人采取强制措施
- 青海茫崖采油工人原创音乐作品获全国陶笛音乐作曲大赛二等奖
- 青海湖国家公园:推进流域生态保护 明确生态旅游发展空间
- 青海2020年水土保持成绩单:治理面积超2000平方公里
- 浙江金华依法查处多起涉疫违法案件 警方提醒民众不信谣
- “上头电子烟”竟涉毒 湖南首例涉新型毒品合成大麻素案告破
- 无视疫情防控要求 浙江舟山普陀一麻将房店主被拘9日
- 首批295个“司机之家”服务点上线地图应用
- “一场必须跑赢的战役” 沈阳民警争分夺秒跑赢骗子
- 湖北一自然保护区发现一批野生动物
- 扰乱核酸检测点秩序 男子被行政拘留8日
- 安徽“铁拳”查办4万余民生案件 案值1.27亿
- 贵阳警方推出利民户政新举措“三最”解民忧
- 内蒙古满洲里新增3例本土确诊病例 治愈出院32例
- 安徽大别山:林长制让绿水青山变幸福山
广告
广告
- 黑龙江讷河新增1例确诊4例无症状 病例详情公布
- 浙江宁波余姚奉化宁海三地开展核酸检测 结果均为阴性
- 浙江湖州南浔三处棋牌室经营者被行拘
- 那年今日 | 一张漫画涨知识之12月13日
- 在宁波乘火车跨省出行须持48小时内核酸阴性证明
- 浙江温州一地发现核酸弱阳性?复采复检结果均为阴性
- 浙江三门发现一名密接者:二次核酸检测结果均为阴性
- 贱卖的发电机 新买的制茶机——安徽水电供区改革两周年回访见闻
- 浙江杭州新增1例新冠肺炎确诊病例 为集中隔离人员
- 2022年研考在即,学硕缩招,专硕时代真的来了?
- 探访杭州核酸检测点:排队高峰多在夜间 医院24小时运转
- 浙江发挥零售药店“哨点”作用 织就疫情防控监测网
- 哈尔滨市本轮疫情首批1名确诊患者出院
- 宁波镇海第三轮全员核酸检测574181人 结果均为阴性
- 陕西新增本土确诊病例1例、境外输入无症状感染者2例
- 齐齐哈尔讷河一地调整为中风险地区
- 浙江新增新冠肺炎确诊病例75例 其中本土74例
- 内蒙古新增本土确诊病例5例 均在呼伦贝尔满洲里市
- 黑龙江无新增确诊病例 新增本土核酸检测初筛阳性人员5例
- 冷空气影响今起暂歇 雾和霾明后天“见缝插针”