Haber Kuruluşları, Yapay Zeka Eğitiminde Kullanılan Internet Archive İçeriklerini Engelliyor
245 haber kuruluşu, yapay zekada kullanılan Internet Archive içeriklerine erişimi engelliyor. Bu durum, büyük haber arşivlerinin yapay zeka eğitiminde izinsiz kullanılması endişesinden kaynaklanıyor.

Dünyanın dokuz farklı ülkesinden yaklaşık 245 haber kuruluşu, Internet Archive tarafından kullanılan tarayıcıların erişimini engellemek için harekete geçti. Internet Archive’ın kamuya açık olan Wayback Machine platformu, otomatik botlar aracılığıyla web sayfalarını yakalayıp arşivleyerek 1996 yılından itibaren bir trilyondan fazla sayfa saklıyor. Bu da platformu, dünya genelinde en büyük ortak kamusal bilgi kaynaklarından biri haline getiriyor.
Arşivde, CNN, The New York Times, The Guardian ve USA Today gibi büyük haber kuruluşlarının geçmişte yayımlanan makaleleri de yer alıyor. Bu içerikler; tarihçiler tarafından birincil kaynak olarak, ayrıca yayımlandıktan sonraki değişikliklerin kanıtı olarak çeşitli amaçlarla kullanılıyor.
Haber Kuruluşlarının Endişeleri
Birçok haber kuruluşu, yapay zeka şirketlerinin bu arşivdeki içerikleri, izin almadan veya adil bir ödeme yapmadan Büyükl Dil Modelleri (LLM) eğitmek için kullandığını öne sürüyor. Yapay zeka tespiti alanında faaliyet gösteren Originality AI şirketinin analizine göre, 20’den fazla büyük haber kuruluşu, Internet Archive’in Wayback Machine için kullandığı ana web tarayıcısı olan ia_archiverbot’u engellemiş durumda. Bunun yanı sıra, dört farklı tarama botundan en az biri dünya genelinde 241 haber sitesi tarafından engelleniyor. Bu engellenen sitelerin önemli bir bölümü, ABD’nin en büyük gazete yayınevi USA Today Co’ya ait. Bu durum, yüzlerce yerel yayının neredeyse tarihsel kayıtlardan silinmesi anlamına geliyor.
Yapay Zeka Eğitimi İçin Arşiv Verilerinin Önemi ve Riskleri
Arşivlenmiş haber içerikleri, büyük ölçekli yapay zeka modellerini daha insansı yazım diliyle eğitmek için yüksek kaliteli metin ve görsel sağlıyor. Bu içeriklere, farklı yazılımların veri talebinde bulunmasını sağlayan URL ve API arayüzleri üzerinden erişilebiliyor. Böylece yapay zeka şirketleri, arşivlenmiş verilere kolayca ulaşarak modellerini eğitebiliyor. Bu bağlamda, İpsala'da düzenlenen yapay zeka eğitimi programları da yapay zeka alanındaki gelişmelerin önemini gösteriyor.
Internet Archive’deki içeriklerin büyük çoğunluğu, halihazırda başlıca yapay zeka eğitim veri setlerinde tespit edilmiş durumda. Ancak bu durum, Perplexity ve OpenAI gibi şirketlere telif hakkı ihlali iddialarıyla açılan davalar nedeniyle haber kuruluşları için ciddi bir zafiyet oluşturuyor. The New York Times sözcüsü Graham James, The Next Web’e yaptığı açıklamada, "Sorun şu ki, Internet Archive’deki Times içerikleri, yapay zeka şirketleri tarafından telif hakkı yasalarını ihlal edecek şekilde alınarak bizimle doğrudan rekabet etmek için kullanılıyor" dedi. James, "Times, özgün gazetecilik üretmek için büyük kaynaklar harcıyor ve bu emeğin iznimiz olmadan kullanılmaması gerekir" ifadelerini kullandı.
Öte yandan The Guardian gibi bazı kuruluşlar, erişimi tamamen kesmek yerine sınırlı tutarak daha temkinli bir yaklaşım benimsedi.
Internet Archive’in Görüşü ve Alınan Önlemler
Wayback Machine direktörü Mark Graham, Internet Archive’in bu durumdaki rolünü "yan hasar" olarak nitelendirirken, esas sorumlunun geçmiş içeriklere erişim sağlayan yapay zeka şirketleri olduğunu savunuyor. Yine de, Internet Archive kendi önlemlerini de aldı. Bu önlemler arasında bazı sitelerdeki materyallerin toplu indirilmesini engellemek ve belirli durumlarda otomatik veri çekimini sınırlamak bulunuyor.
Graham, Internet Archive’in temel bir koruma aracı işlevi gördüğünü vurguluyor. Bu koruma olmasaydı, arşivlenmeyen haberler yetkisiz şekilde değiştirilebilir ve alıntılarda hatalar, iddiaların farklı yorumlanması veya resmi açıklamaların yönlendirilmesi gibi olumsuz sonuçlar doğurabilirdi. Şu anda bu tür değişiklikler Wayback Machine tarafından takip ediliyor.
Bu nedenle bazı haber kuruluşları, erişimi tamamen engellemek yerine sınırlandırarak her iki taraf için kabul edilebilir çözümler bulmak amacıyla Internet Archive ile iş birliği yapmaya başladı. Benzer şekilde, kar amacı gütmeyen dijital haklar savunucusu Fight for the Future, engellemelere karşı çıkmak için, aralarında 100 aktif gazetecinin imzasının bulunduğu bir kampanya başlattı.
Bu gelişmeler, kamusal kayıtların ve tarihin giderek daha fazla tartışıldığı bir dönemde yaşanıyor. Yapay zeka teknolojilerinin medya sektöründe yarattığı etkiler, Hollywood'daki yapay zeka destekli film sahneleri ve telif hakkı endişeleri gibi farklı alanlarda da kendini gösteriyor.
Ufuk Tekin
Haber Editörü
Deneyimli haber editörü ve yazar.