Web scraping güçlü bir araç. Ama her güçlü araç gibi sorumlu kullanılmadığında zarar verebilir. Bu yazıda profesyonel scraper'ların uyduğu etik prensipleri özetliyoruz.
1. robots.txt'ye Saygı
Her sitenin /robots.txt dosyası, hangi botların hangi sayfaları ziyaret edebileceğini belirtir. Yasal olarak bağlayıcı değildir ama endüstri standardıdır. Disallow edilen path'lere girmemek, hem etik hem de pratik olarak akıllıcadır (site sahibi orayı zaten korumaya alıyor).
2. Rate Limiting
Hedef sunucunun yükünü düşünün. Saniyede 100 istek atmak, sitenin meşru kullanıcılarına da zarar verir. Saniyede 1-3 istek/IP makul bir başlangıçtır. Site küçükse daha yavaş çalışın.
3. Off-Peak Tarama
Mümkünse sitenin yoğun saatlerinin dışında tarayın. Türk e-ticaret siteleri için sabahın erken saatleri ideal. Global siteler için hedef pazarın gece saati uygundur.
4. Caching
Aynı sayfayı tekrar tekrar indirmek hem yavaş hem de kaba. Kazıdığınız sayfayı yerelde önbelleğe alın; değişen kısımları takip için ETag/Last-Modified header'larını okuyun.
5. Kişisel Veriden Kaçınma
Site tasarımı bir bilgiyi ortaya çıkarıyor diye "yasaldır" demek doğru değildir. İsim, telefon, e-posta gibi kişisel veriler KVKK kapsamındadır. Veri sorumlusu olarak yükümlülüklere girersiniz. Anonim agregat veri toplayın.
6. User-Agent Şeffaflığı
Bazı projelerde kendinizi açıkça bot olarak tanıtmak yararlıdır. MyCompanyBot/1.0 (+https://example.com/bot) formatı, site yöneticisinin sizi tanımasını ve sorun olursa iletişime geçmesini sağlar. Affenligini bot olduğunu gizlemekten daha kolaydır.
7. Kullanım Şartları
Her hedef sitenin ToS'una bakın. Açıkça "no automated access" diyorsa veya kazımayı kısıtlıyorsa, hukuki risk vardır. Haksız rekabet davaları Türkiye'de açılmış ve kazanılmış örnekleri vardır.
"Yapabilirim" ile "yapmalıyım" arasındaki fark, profesyonel scraper'ı amatörden ayırır. Teknik kapasiteniz olabilir ama yasal ve etik sınırları her zaman gözetin.
8. Veriyi Sorumlu Kullanma
Topladığınız veriyi yeniden dağıtırken kaynak gösterin. Verilerin lisansını kontrol edin (CC, public domain, vs.). Üçüncü tarafa satarken alıcının kullanım amacını sorgulayın.
9. Sunucu Maliyetini Düşünme
Küçük bir blog'u günde milyonlarca istekle çekerseniz hosting faturasını siz yükseltirsiniz. Bu kişiyle gerçekten oturup konuşmak isteyeceğiniz bir tablo değil. Saygılı tarama hem ahlaki hem de uzun vadeli kazımanın sürdürülebilirliği için kritiktir.
10. Sözleşmeli API'leri Tercih Edin
Hedef site resmi API sunuyorsa öncelik verin. Kazıma her zaman "son çare"dir. API olduğu halde kazımak hem yasal hem ahlaki olarak kötüdür.
Etik scraping mimarisi danışmanlığı için WhatsApp üzerinden ulaşın.