Yazarlar:
(1) TIMNIT GEBRU, AI'da Siyah;
(2) JAMIE MORGENSTERN, Washington Üniversitesi;
(3) BRIANA VECCHIONE, Cornell Üniversitesi;
(4) JENNIFER WORTMAN VAUGHAN, Microsoft Araştırma;
(5) HANNA WALLACH, Microsoft Araştırma;
(6) HAL DAUMÉ III, Microsoft Araştırma; Maryland Üniversitesi;
(7) KATE CRAWFORD, Microsoft Araştırma.
3.4 Ön işleme/temizleme/etiketleme
Veri kümelerine yönelik veri sayfaları, iki temel paydaş grubunun ihtiyaçlarını karşılamayı amaçlamaktadır: veri kümesi oluşturucuları ve veri kümesi tüketicileri. Veri kümesi yaratıcıları için temel amaç, temel varsayımlar, olası riskler veya zararlar ve kullanımın sonuçları da dahil olmak üzere bir veri kümesi oluşturma, dağıtma ve sürdürme süreci üzerinde dikkatli düşünmeyi teşvik etmektir. Veri kümesi tüketicileri için birincil amaç, bir veri kümesini kullanma konusunda bilinçli kararlar vermek için ihtiyaç duydukları bilgilere sahip olmalarını sağlamaktır. Veri kümesi oluşturucularının şeffaflığı, veri kümesi tüketicilerinin, seçtikleri görevler için uygun veri kümelerini seçebilecekleri ve kasıtsız suiistimalleri önleyebilecekleri konusunda yeterince bilgi sahibi olmaları için gereklidir.[1]
Bu iki temel paydaş grubunun ötesinde, veri kümelerine yönelik veri sayfaları, politika yapıcılar, tüketici savunucuları, araştırmacı gazeteciler, verileri veri kümelerinde yer alan kişiler ve veri kümeleri kullanılarak eğitilen veya değerlendirilen modellerden etkilenebilecek kişiler için değerli olabilir. Ayrıca makine öğrenimi sonuçlarının daha fazla tekrarlanabilirliğini kolaylaştırmak gibi ikincil bir amaca da hizmet ederler: Bir veri kümesine erişimi olmayan araştırmacılar ve uygulayıcılar, benzer özelliklere sahip alternatif veri kümeleri oluşturmak için veri sayfasındaki bilgileri kullanabilirler.
Bir veri kümesinin veri sayfasının içerebileceği bilgileri ortaya çıkarmak için tasarlanmış bir dizi soru sunsak da, bu soruların kuralcı olması amaçlanmamıştır. Aslında veri sayfalarının alan adı veya mevcut kurumsal altyapı ve iş akışları gibi faktörlere bağlı olarak mutlaka farklılık göstermesini bekliyoruz. Örneğin, bazı sorular gelecekteki araştırmalara olanak sağlamak amacıyla veri kümelerini halka açık olarak yayınlayan akademik araştırmacılar için uygundur, ancak özel modellerin eğitimi için dahili veri kümeleri oluşturan ürün ekipleri için daha az alakalıdır. Başka bir örnek olarak Bender ve Friedman [2], özellikle dil tabanlı veri kümeleri için tasarlanan veri kümeleri için veri sayfalarına benzer bir önerinin ana hatlarını çiziyor. Soruları, uygun olduğu şekilde, dil tabanlı bir veri kümesi için bir veri sayfasına doğal olarak entegre edilebilir.
Veri sayfası oluşturma sürecinin otomatikleştirilmesinin amaçlanmadığını vurguluyoruz. Otomatik belgeleme süreçleri uygun olsa da, veri kümesi oluşturucularını veri kümesi oluşturma, dağıtma ve sürdürme süreci üzerinde dikkatli bir şekilde düşünmeye teşvik etme hedefimize aykırıdır.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .
[1] Bazı durumlarda, geliştirme sürecimizin bir parçası olarak oluşturduğumuz örnek veri sayfalarında olduğu gibi, bir veri kümesi için veri sayfası oluşturan kişilerin veri kümesini oluşturan kişiler olmayabileceğini belirtiyoruz.