Posts List

Śledzenie produktów za pomocą Google Sheets

Jakiś czas temu pracowałem dla zagranicznego sklepu internetowego, którego jednym z benefitów była dożywotnia zniżka 20% na wybrane produkty. Pomyślałem sobie, dlaczego nie sprzedawać tych produktów na lokalnym rynku z odpowiednią marżą? Niestety mój budżet na biznes był bliski zero. Zakupienie produktów na zapas i oczekiwanie na to, aż ktoś to ode mnie odkupi, nie wchodziło w grę. Postanowiłem wystawić produkty na sprzedaż pomimo tego, że ich fizycznie nie posiadałem.

Scrapy - środowisko do tworzenia web scraperów

Scrapy to najlepsze i najbardziej elastyczne narzędzie do web scrapingu z jakim się do tej pory spotkałem. Szybkość tworzenia skryptów w dużej mierze zależy od struktury analizowanej strony, zastosowanych zabezpieczeń przeciw botom oraz ilości pobieranych danych. W standardowych przypadkach stworzenie i wdrożenie web scrapera może zająć dosłownie 15 minut. Wpis ten jest krótkim tutorialem wprowadzającym do narzędzia. Pokażę jak stworzyć prosty web scraper (na przykładzie popularnego serwisu ogłoszeniowego) oraz jak za pomocą serwisu Scrapinghub wdrożyć skrypt tak aby wykonywał się cyklicznie.

Web scraping - studium przypadku - OCR

Pobieraniem treści ze stron internetowych (web scrapingiem) zajmuję się komercyjnie od kilku lat. Wykorzystuję do tego m.in. Bash, VBA, Google Sheets, R oraz Python. W ostatnim czasie, podczas konferencji WhyR? 2017 oraz DATA SCIENCE? AGHree! 2018, miałem przyjemność prowadzić warsztaty z web scrapingu w R. W trakcie przygotowywania warsztatów natrafiłem na ciekawe zabezpieczenie przed automatycznym pobieraniem danych. W “serii” wpisów dotyczących web scrapingu chciałbym podzielić się wybranymi problemami z którymi przyszło mi się zmierzyć.