Önceki   Tor Tarayıcı ile çalışan ve masaüstü ortamına VNC istemcisi ile bağlanan bir Kali Linux konteynerini göstermeyi başarmıştım. Bir tarama oturumu sırasında Tor Tarayıcının Tor Ağına bağlandığını doğruladım. Bu kurulum, bir web sitesini hedef alan bir saldırgandan gelebilecek trafik türünü simüle etmeme olanak tanıyacak. yazımda  Bu deneyde, tarayıcının WebDriver arayüzü aracılığıyla tuş vuruşlarını ve gezinme olaylarını sentezlemek üzere Tor Tarayıcıyı otomatikleştirmek için Selenium'u kullanacağım. Her tarayıcı, tespitten kaçınmak için yerleşik Tor Proxy'si tarafından sağlanan rastgele bir IP adresine sahip olacaktır. Sonuçları yerel dosya sisteminde JSON nesneleri olarak kaydettikten sonra bunları tek bir CSV dosyasına işlemek için Python'u kullanacağım. Son olarak, Bot etkinliğini tespit etmek, sınırlamak ve engellemek için Veri Merkezinde ve İstemci Tarafında hangi karşı önlemlerin uygulanabileceğini tartışacağım.  Tüm dosyalar ve geçerli lisanslar bu açık kaynak deposunda mevcuttur:  tor-driver-python  Tamamlanan Tarayıcı Komut Dosyasını Çalıştıran Ekran Yakalama:   https://youtu.be/5YN1DI6wnnw?embedable=true  Test otomasyonu konusunda geçmişim var ve testleri tasarlamak için saatler harcadım. Ayrıca Selenium'la çalışmak için de çok zaman harcadım ve test amacıyla web tarayıcılarını otomatikleştirmek için bunu birçok farklı programlama dilinde ve ayarında kullandım. Bir web uygulamasını yalnızca gerçek bir tarayıcıyla test etmenin mümkün olduğu senaryolar vardır ve Selenium bunun için harika bir araçtır.  Senaryo  Bir DevOps Mühendisi olarak işimde, sorumlu olduğum web uygulamalarına saldıran ve bazen doğrudan saldıran web tarayıcılarıyla ne yapacağımı düşünerek çok az zaman harcadım. Bir kez olsun bu konunun diğer tarafını keşfetmenin ilginç bir deney olacağını düşündüm.  Eğitim amaçlı bir botnet saldırısını simüle etmeye ne kadar yaklaşabileceğimi görmek ve modern bir Veri Merkezinde şüpheli Tor ağı trafiği gibi şeylere karşı koyma yöntemlerini tartışmak istiyorum. Bot ağları genellikle Kimlik Bilgisi Doldurma saldırılarını gerçekleştirmek için kullanılır. Sorguları aramak ve web'den bilgi toplamak için benzer bir teknik kullanacağım.  Kimlik bilgisi doldurma, kullanıcı hesaplarına sahtekarlıkla erişim sağlamak amacıyla çalınan kullanıcı adı ve şifre çiftlerinin ("kimlik bilgileri") web sitesi giriş formlarına otomatik olarak eklenmesidir.  1  Etik Hususlar  Etik sorunlardan kaçınmak için bir yandan da göreve sadık kalmaya çalışıyoruz. Senaryoda aşağıdaki değişiklikleri yapıyorum:  Kişisel Olarak Tanımlanabilir Bilgileri (PII) toplamayacağım ve hiçbir kimlik bilgisi kullanılmayacaktır. Bunun yerine, bir dosyadan arama terimlerini okuyacağım ve halka açık bilgiler toplayacağım.  Botnet yerine rastgele bir IP adresi atlama davranışını simüle etmek için Tor Ağını kullanacağım.  Bu adımlar kasıtlı olarak izin verilen   dosyalarına sahip siteleri hedef alır ve taramayı dışlamayacak şekilde Şartlar ve Koşullar bu yazının yazıldığı sırada kontrol edildi. Örneğin IMDB'nin   yazılı izin olmadan taramayı açıkça yasaklamaktadır. robots.txt Hüküm ve Koşulları,  Toplanan bilgiler yalnızca kamuya açık bilgilerle sınırlı olacaktır. Hedef sitede kamuya açık olmayan bilgilere erişim sağlamak için herhangi bir açıktan yararlanma veya başka yöntem kullanmayacağım.  Son olarak, engellenmeyi veya diğer kullanıcılar için üretim sorunlarına yol açmayı önlemek için hedef siteye yapılan hız isteklerini sınırlayacağım.  robots.txt  Robot Hariç Tutma Protokolü, Web Yöneticilerinin tarayıcılara nerede olduklarını ve nereden bilgi toplamalarına izin verilmediğini söylemelerinin bir yoludur. Daha fazla bilgi ve örnekleri   web sitesinde bulabilirsiniz. Bir makale buldum: Arama sonuçları sayfasında web kazımasına izin veren bir tane bulmaya çalışırken   . Aşağıda bu araştırmanın bir özetini bulacaksınız.  robotstxt.org alternatif arama motorlarının listesi  Arama motoru  robots.txt URL'si  Taramaya izin veriliyor mu?   Google   robots.txt  Hayır ama bir API'si var   Bing   robots.txt  Hayır ama bir API'si var   yahoo   robots.txt  HAYIR   ÖrdekDuckGo   robots.txt  Hayır ama bir API'si var   Açık Ayet   robots.txt  Evet ama tam olarak aradığım şey bu değil   SearX   robots.txt  Evet  Ek kaynaklar  Bu konuyu araştırırken faydalı bulduğum diğer bazı kaynaklar:    SSS'ye dayalı olarak bazı iyileştirme fırsatları bulunmaktadır. Gerçek bir Tor Tarayıcı Firefox profilini daha doğru bir şekilde simüle etmem gerekiyor. Tor Projesi SSS  Karşılaştığım ilk web kazıma kaynaklarından biri:  The Bastards Book of Ruby  Güncel bilgiler içeren yeni makale, ancak ben avukat değilim:  Web Scraping ile ilgili 10 Efsane  Selenyum ve WebDriver ile Bir Web Sayfasını Düzenleme  Bu örnek için Selenyum dışındaki kütüphaneleri kullanmaktan kaçınacağım. Göstermek istediğim bazı temel kalıplar var ve neler olup bittiğini anlamayı zorlaştırabilecek belirli bir Etki Alanına Özel Dil (DSL) ile çıkmaza girmek istemiyorum.  Ancak, test çalıştırma çerçevesi kullanmanın bu tür kodları düzenlemenin harika bir yolu olduğunu düşünüyorum. Bir çerçeve eklemek, genel kod yapısı, yeniden deneme mantığı ve hatta raporlamayla ilgili birçok sorunu çözebilir.  Temel Desen  WebDriver oturumunda bir sayfayı nasıl değiştireceğime dair temel bir model var. Ayrıca gerçekleştirilen her eylemden sonra bir duraklama ekliyorum. Tarayıcı otomasyonu kesintili olabilir. Zaman aşımları, taramaya büyük oranda istikrar katar ve hızın sınırlandırılması ve engellenmesi olasılığını büyük ölçüde sınırlar. Gerektiğinde, diğer Arama Motorlarına veya bilgi kaynaklarına yapılan API çağrılarıyla da taramayı artırıyorum.  Bir URL'ye gidin.  Sayfanın yüklenmesinin bitmesini bekleyin.  Etkileşim kurmak istediğim öğeyi bulun, onun için seçici geliştirin.  Öğenin mevcut olmasını bekleyin.  Öğeyi görünüme kaydırın.  Öğeyle etkileşime geçin.  Tekrarlamak  Kurallara Genel Bakış  Seçicilere gerçekten basit bir yaklaşım sergiledim. Tarayıcıda bulunan   ve   seçicilerini kullanıyorum. Tarama sırasında sayfalar arasında gezinmek için esas olarak bağlantı etiketlerine ve URL parçalarına odaklanmak. xpath css  Öğelere tıklamayı denemeden önce öğelerin mevcut olmasını beklemek için   kullanıyorum. Selenium projesinin çok sayıda dokümantasyonu var, ancak   örnek kullanımlarla bekleme koşulları hakkındaki tartışmanın da paha biçilmez bir kaynak olduğunu gördüm. beklenen koşulları Stack Overflow'taki  TorDriver Modülü  Benzer bir işleve sahip   adında mevcut bir PyPi projesi var. Bu deneme için Firefox profil kurulumuna başvurdum ancak tbselenium'un içerdiği diğer özelliklerin hiçbirine ihtiyacım yoktu. Kök erişimine sahip olmayan kapsayıcıların ek karmaşıklığı, hata ayıklamanın daha da zorlaşmasına katkıda bulunuyordu. Bu, bağımlılıkları sınırlama ve önceden var olan basit çözümleri deneme motivasyonunu artırdı. Örneğin, saf python çözümlerini doğrudan uygulamak yerine linux araçlarını ve alt kabukları kullandığım birçok yer var. tbselenium  Biten sınıf yaklaşık 150 satırlık Python'dur. Daha az incelemeyle olup biteni derinlemesine analiz etmenin daha kolay olacağını düşünüyorum. Tor Tarayıcı Başlatıcısının nasıl çalıştığı ve Firefox profillerinin nasıl yapılandırılacağı hakkında çok şey öğrendim. Bu profil çevrimiçi olarak birden fazla kaynaktan toplanmıştır ve kaynak kodunda ve bu belgede bunlardan bahsedilmektedir.  Başlatma, sökme ve çok yaygın bir gezinme mantığı parçasını   adlı bir sınıfa soyutladım. Tor Tarayıcı Başlatıcısı ile Firefox profili kuran oldukça basit bir sınıftır. Sayfada bir öğenin görünür olup olmadığını kontrol etmek için bir yöntemi ve proxy soketinin çalışır durumda olduğunu doğrulayan başka bir yöntemi vardır. Firefox profil kurulumu ve hata ayıklama büyük ölçüde Stack Overflow tartışmasıyla sağlandı:   . TorDriver Tor Tarayıcıyı Selenium ile açın  Tamamlanan dosyayı burada bulabilirsiniz:  tor-driver-python/torDriver.py  İthalat  Kurulum ve WebDriver bileşenleri için selenyum, pprint, alt işlem ve soketin içe aktarılması.   Bir Öğenin Görünür olup olmadığını kontrol edin  Aşağıdaki yöntem, bir öğenin kontrolünü soyutlar ve bir zaman aşımı içinde görünürse   veya   döndürür.  True False  Tor Proxy'nin Başlatılıp Başlatılmadığını Kontrol Etme  Proxy bağlantı noktasının kendisine sinyal göndermeden önce etkin olması gerekir. Yığın Taşması'ndaki   ilişkin bazı örnekleri takip ederek şunu buldum:  Python'da Soket Bağlantılarını Test Etmeye  Sınıf  Modülün büyük bir kısmı, Firefox profilini kontrol eden, gekodriver'ı indiren ve torbrowser-launcher'ı başlatan bir sınıftır.  TorDriver Tanımı ve Başlatma  Burada temel bir konfigürasyona ve bazı şeyleri geçersiz kılmanın bazı yollarına sahibim, ancak bunu çoğunlukla mümkün olduğunca basit tutuyorum:   Firefox Profil Kurulumu  Proxy bağlantı noktasına bağlanmak için Firefox profilinin en azından yapılandırılması gerekiyor, onunla birlikte javascript'i de devre dışı bırakmıştım.   WebDriver'ı Kur  Bu, bir sürücüyü başlatmak için TorDriver'ın profilini ve ikili dosyasını kullanır   Geckodriver'ı indirin  Bir alt süreçte gekodriver'ı indirmek ve çıkarmak için bir yöntem ekleme. Bir şekilde kapsayıcıda çalıştırıldığında   dosyasının artık sıkıştırılmadığını ve yalnızca arşivden çıkarılması gerektiğini belirtmekte fayda var. Hata hakkında daha fazla bilgiyi burada bulabilirsiniz:    tar.gz stdin: gzip biçiminde değil hatası  Tor Ağını Kurun ve Bekleyin  Soket yanıt verene kadar proxy bağlantı noktasına bağlanmayı yeniden deneyin:   crawler.py  Bu örnekte aşağıdaki yaklaşımı iki aşamalı yaklaşımı aldım. İlk aşama bilgi toplama, sonraki aşama ise bilginin işlenmesidir. Bu şekilde tüm süreç boyunca ağ bağlantısına bağlı kalmıyorum ve kaynak malzemeye geri dönmeden sonuçları gerektiği kadar ayrıştırmayı yeniden deneyebiliyorum.  Dosyanın tamamını burada bulabilirsiniz:  tor-driver-python/crawler.py  Modül İçe Aktarmaları   Ana Tarayıcı İşlevselliği  Tarayıcı bir metin dosyasını okur ve bu bilgiyi WebDriver oturumunda sorguları doldurmak için kullanır. Taramanın durumu, sorgu başına bir tane olmak üzere json dosyalarından oluşan bir klasörde tutulur. Bilgileri bir kez dışa aktarmak için kesinlikle gerekli olan minimum işlemi yapmaya çalışıyorum ve daha sonraki işlemler, sitelere geri dönmek yerine mevcut verilerde gerçekleşebilir.   aramalar.txt  Aramaları depolamak için bir metin dosyası kullanıyorum. Yeniden yapılandırılması çok kolay olduğu için bir metin dosyası seçtim. Metni düzenlemek, yeni bilgilerle tarama başlatmak veya kısmen başarısız olan bir taramayı sürdürmek için düşük bir engeldir. Bu tarayıcının daha karmaşık veri gereksinimleri olsaydı bunun yerine Veritabanı kullanmayı düşünürdüm. Bu, raporlama amacıyla taramaları özel bir kullanıcı arayüzüyle kontrol etmek için bir API uygulanmasına olanak tanıyacak.   JSON Sonuç Formatı  Örnek dosyalar depodaki sonuçlar klasöründe zaten bulunmaktadır:  tor-driver-python/results  Daha sağlam bir tarayıcıda gerçek bir veritabanı teknolojisinin kullanılmasını öneririm. Bu, veri toplamanın nerede durduğunu kolayca anlamak ve yeniden başlatmayı kolaylaştırmak için yeterlidir.   Tarayıcıyı Konteynerden Çalıştırma  Tarayıcı, aşağıdaki komutlarla kapsayıcıdan çalıştırılabilir. Rapor oluşturucu, JSON dosyalarının mevcut olmasını gerektirir; örnek dışa aktarma CSV dosyasını burada bulabilirsiniz:  Konteyneri başlatın:   docker run -it --rm -p 5901:5901 -v "${HOME}/src":/src excitingtheory/kalilinux-xvfb:torbrowser  Kapta bir VNC Sunucusu başlatın, oturum şifrelerini isteyecektir:     /opt/start-vnc-server-once.sh  Taramayı VNC oturumunun içinden başlatın:   python3 crawler.py  Tarayıcı Tor Tarayıcının başlatılmasını bekleyecektir ve ne yazık ki bu manuel bir adımdır. Onay kutusunu tıklamanız ve bağlan'ı tıklamanız yeterlidir. Örnek için video demosuna bakın.   rapor.py  Rapor komut dosyası, Virgülle Ayrılmış Değer (CSV) dosyası oluşturacaktır.  Tarayıcının tarama boyunca kaydettiği JavaScript Nesne Gösterimi (JSON) sonuç dosyaları. CSV formatını seçtim çünkü bu, iş arkadaşlarıyla paylaşmak için daha yaygın bir format olmasına rağmen daha fazla analiz için diğer araçlara aktarılması yine de kolaydır.  Dosyanın tamamı burada bulunabilir:  tor-driver-python/report.py  Modül İçe Aktarmaları  Bu, JSON'u okumak, CSV yazmak ve biçimlendirme ve veri sunumu için URL'leri ayrıştırmak için yerleşik Python kitaplıklarını kullanır. Daha sonra sonuçlar arasında geçiş yapar ve veri işlemeye başlamak için bunları yükler.   Ana Rapor Oluşturucu  Bu, rapor oluşturucunun temel işlevidir. Bu, sonuç nesnelerinde yakalanan verilerin son sunumunu ve sıralamasını yapar. Tipik olarak URL'ler, tarayıcıların bir sitedeki işlevsel hareketleri için faydalıdır ve son veri yakalama olarak kullanılmaz, ancak daha fazla veri çıkarımını özelleştirmek için iyi bir başlangıçtır.   Raporu Çalıştır  Taramanın sonuçları   dizinine JSON dosyaları olarak kaydedilir. Verilerden bir rapor oluşturmak için aşağıdaki betiği kullanacağım. ./results   python3 report.py  Örnek Rapor  Örnek bir CSV çıktı dosyasını burada bulabilirsiniz:    tor-driver-python/output.csv  Saldırıları Tespit Etme ve Azaltma  Bot etkinliğini tespit etmenin ve azaltmanın birkaç farklı yolu vardır. Öncelikle işin Veri Merkezi tarafına odaklanacağım, ancak aynı zamanda bazı müşteri tarafı tespit yöntemlerini de tartışacağım. İstemci tarafı sinyalleri her an değişebileceğinden ve yanıltılabileceğinden, istemciye hiçbir zaman gerçekten güvenilemez. Bir tespit sistemi tasarlarken bunu akılda tutmanın önemli olduğunu düşünüyorum. Veri Merkezinde tartışacağım iki koruma biçimi vardır: hız sınırlama ve itibar engelleme.  İstemci Tarafı Tespiti  İstemci tarafında aktif bir WebDriver oturumunu yalnızca javascript ile tespit etmenin birkaç yolu vardır:   . Temel olarak, WebDriver protokolü belgeyi ve pencere nesnelerini değiştirdiğinden, istemci tarafı kodunda tespit edilebilir.  Github'daki ilgili bir sorun daha ayrıntılı olarak ele alınacaktır  Veri Merkezindeki Bot Trafiğinin Tespit Edilmesi ve Engellenmesi  En çok deneyime sahip olduğum çözümlere, Fastly, AWS WAF ve Nginx'e odaklanacağım. CloudFlare tam bir sürprizdi, bu yüzden onların tekliflerinden de bahsedeceğim.  AWS Web Uygulaması Güvenlik Duvarı (WAF)   Hizmet Reddi etkinlik düzeylerini engellemek için de kullanılabilir ve Tor ağ trafiğini tespit etmek için de kullanılabilecek varsayılan kurallar vardır; daha fazla bilgi için   bakın. Diğer bir yaygın yaklaşım ise diğer veri merkezlerinden gelen tüm trafiği engellemektir; hedef kitle Tüketiciler ise bu güvenlidir. Ancak İşletmeler, bunu meşru trafiğe zararlı hale getirebilecek bulut VPN ve diğer teknolojileri kullanıyor olabilir. Hızına Dayalı Kurallar, IP İtibar Kuralı Belgelerine  Çok popüler bir çözüm olan Fastly'nin Signal Science'ı, özellikle Tor trafiğini tespit etmek için kullanılabilir. Öncelikle DDOS saldırılarına karşı koruma sağlayabilirler; daha fazla bilgi için   sayfalarına bakın. İkincisi, Tor trafiğini tespit edip engelleyebilirler. İşte bunu kapsayan   belgeleri. DDOS Azaltma Sistem Sinyallerini Kullanma    için de bunu yapmaya ilişkin bazı makaleler vardır:   ? Temel olarak, Tor çıkış düğümleri hakkında bilgi almak için API'lere çağrı yapılarak, IP engelleme kuralları belirli bir programa göre oluşturulabilir ve Nginx'e uygulanabilir. Nginx Nginx ile veya web uygulamanızın içinde anonim trafik nasıl engellenir  Yukarıdaki bulut sağlayıcılarının aksine şaşırtıcı bir şekilde CloudFlare, Tor istemcileri için destek sunuyor.   burada ağdan Tor kullanıcılarına içerik sunma yeteneğini tartışıyorlar. Bunun gerçekten ilginç bir yaklaşım olduğunu düşünüyorum ve gelecekte bunu daha fazla keşfetmeye can atıyorum. Tor Destek Belgelerine rastladım!?  Çözüm  WebDriver test için güçlü bir araçtır ve aynı zamanda bir API'ye erişimin mümkün olmadığı yerlerde bilgi toplamak için de kullanılabilir. Örneğin: erişim başka şekilde kısıtlanmıştır, sansürlenmiştir, çok pahalıdır veya genel olarak rekabete aykırı uygulamaların arkasında kilitlenmiştir. Daha da iyisi, web taramasından toplanan verileri API'lerden toplanan bilgilerle birleştirmektir.  Bu önemli bir uygulamadır çünkü Botlardan gelen kötü amaçlı trafiği önlemek giderek daha zor hale gelmektedir ve bunun nasıl azaltılacağını düşünmek için bir saldırının gerçekleşmesini beklemek iyi bir güvenlik uygulaması değildir. Bilginin çevrimiçi ortama aktarılmasından sorumlu olan herkesin, ihlal edilen bilgilerin sorumlu oldukları sistemlere karşı nasıl kullanılacağını bilmesi gerektiğine inanıyorum. Basitleştirilmiş bir senaryoda, etik kısıtlamalarla bunu aşağıdakileri yaparak gösterdim:  Rastgele bir IP Adresi kullanarak Tor Tarayıcı oturumunu otomatikleştirmek için Selenyum kullanma.  Python ve WebDriver protokollerini kullanarak bir web sitesinden bilgi toplamak.  Bilgileri bir dizi JSON dosyasına kaydettik.  Çevrimdışı sonuçlardan bir CSV raporu oluşturmak için bir python betiği kullanıldı.  Bir Veri Merkezindeki Hizmet Reddi ve Tor Ağı etkinliğini tespit etmenin ve azaltmanın çeşitli yollarını tartıştık.

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Come code with me!

"Use Kali Linux Docker Containers to Support Covert Web Scraping"

Read My Stories

DevOps Engineer

Bu ses hikayenin orijinal dilinde üretilmiştir!

Anonim Web Scraping için Kali Linux Konteynerlerini, WebDriver'ı ve Tor'u kullanın

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Kripto Büyümesi: Etkili Kullanıcı Kişilikleri Oluşturma

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

İş Akışınızı 10 Kat Nasıl İyileştirirsiniz: 17 Temel Uygulama

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Kripto Büyümesi: Etkili Kullanıcı Kişilikleri Oluşturma

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

İş Akışınızı 10 Kat Nasıl İyileştirirsiniz: 17 Temel Uygulama

Kazanmak için Dokun: Telegram, Solana'dan Önce Sonraki 10 Milyar Kripto Kullanıcısına Katılabilir

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps