ai的进步不能拿互联网生态当牺牲品

就在2024年的时候,网络上掀起了一阵关于AI数据抓取的大讨论,这事直接把互联网里原本的那种平衡局面给打破了。毕竟现在的AI技术发展得这么猛,大家都想靠它去训练模型,所以大规模的数据收集就变成了行业里的必需品。可这一招本来是给AI用的,结果慢慢就改变了互联网一直以来的规则。以前大家写文章发内容,都是互相给个链接,你帮我,我帮你,这叫“引用即回馈”。这种模式让原创的东西有地方去传播,整个网络信息环境才安稳下来。 现在的情况可不一样了。以Anthropic和OpenAI为代表的AI平台,开始用自动化程序到处乱爬网。它们收集数据的数量和频率那是相当大,都把网络给弄乱套了。你看Cloudflare这个网络服务提供商,他们从2025年开始搞监测发现,AI平台在网站上采集的信息和实际带来的访问量根本不成正比。他们还发明了个叫“抓取与回流比”的指标来看这事儿,结果数据显示,不少企业给网站的回馈比例都严重偏了。比如Anthropic就是个典型例子,它每抓100次内容,给原网站带来的访问量也就那么几个人。OpenAI这些平台也差不多。 这种奇怪的现象早在2024年底就有点苗头了。国际媒体报道说有些爬虫的访问频率高得吓人,直接把不少网站的运营成本给拉高了。有开发者甚至说,他租的服务器费用因为爬虫猛冲上去几个月就涨了一倍多。 更严重的是大家现在都不去看原版网站了。因为用户在AI平台上就能找到摘要和答案,谁还愿意费劲去点原链接呢?这就把创作者的流量来源给切断了,搞不好他们以后都不愿意写了。 服务商觉得现在的AI平台有点“只拿不送”。它们在网上拿走大量价值却只给一点回馈,这种单向的吸血模式要是继续下去,估计整个互联网生产内容的动力就没了。 为了应对这个挑战,技术上的解决办法正在找呢。像Cloudflare这种基础设施服务商就给网站出了个防爬工具,让大家能自主屏蔽那些讨厌的爬虫。这就给内容提供方留了余地。 不过专家还是说了句话挺中肯的:AI的进步不能拿互联网生态当牺牲品。现在出现的问题其实是技术跑得太快、规矩没跟上导致的。 想要建立一套适合数字时代的公平交易规矩,就得靠技术公司、创作者、平台方大家一起想办法。只有在创新和保护之间找到那个平衡点,AI才能健康发展下去。 未来怎么在发展技术和保护环境之间搞出个新的互联网契约,这可是全世界数字治理都得盯着的大事儿啊。