Posts List

Scrapy - środowisko do tworzenia web scraperów

Scrapy to najlepsze i najbardziej elastyczne narzędzie do web scrapingu z jakim się do tej pory spotkałem. Szybkość tworzenia skryptów w dużej mierze zależy od struktury analizowanej strony, zastosowanych zabezpieczeń przeciw botom oraz ilości pobieranych danych. W standardowych przypadkach stworzenie i wdrożenie web scrapera może zająć dosłownie 15 minut. Wpis ten jest krótkim tutorialem wprowadzającym do narzędzia. Pokażę jak stworzyć prosty web scraper (na przykładzie popularnego serwisu ogłoszeniowego) oraz jak za pomocą serwisu Scrapinghub wdrożyć skrypt tak aby wykonywał się cyklicznie.

Web scraping - studium przypadku - OCR

Pobieraniem treści ze stron internetowych (web scrapingiem) zajmuję się komercyjnie od kilku lat. Wykorzystuję do tego m.in. Bash, VBA, Google Sheets, R oraz Python. W ostatnim czasie, podczas konferencji WhyR? 2017 oraz DATA SCIENCE? AGHree! 2018, miałem przyjemność prowadzić warsztaty z web scrapingu w R. W trakcie przygotowywania warsztatów natrafiłem na ciekawe zabezpieczenie przed automatycznym pobieraniem danych. W “serii” wpisów dotyczących web scrapingu chciałbym podzielić się wybranymi problemami z którymi przyszło mi się zmierzyć.