All Posts

Klasyfikacja nazw produktów w oparciu o ich krótkie opisy

W ostatnim czasie miałem okazję zastanowić nad problemem klasyfikacji produktów w oparciu o ich jednozdaniowe opisy. Moim głównym celem było wykrycie nazw kolekcji lub serii produktów (np. dla butów marki Adidas są to m.in. copa, superstar). Podczas małego researchu udało mi się znaleźć kilka gotowych rozwiązań. Niestety jak w przypadku nazw produktów radziły sobie całkiem dobrze, tak w przypadku nazw kolekcji było przeciętnie. W dzisiejszym wpisie chciałem podzielić się własną koncepcją rozwiązania tego problemu, która nie wykorzystuje uczenia maszynowego.

Scrapy - środowisko do tworzenia web scraperów

Scrapy to najlepsze i najbardziej elastyczne narzędzie do web scrapingu z jakim się do tej pory spotkałem. Szybkość tworzenia skryptów w dużej mierze zależy od struktury analizowanej strony, zastosowanych zabezpieczeń przeciw botom oraz ilości pobieranych danych. W standardowych przypadkach stworzenie i wdrożenie web scrapera może zająć dosłownie 15 minut. Wpis ten jest krótkim tutorialem wprowadzającym do narzędzia. Pokażę jak stworzyć prosty web scraper (na przykładzie popularnego serwisu ogłoszeniowego) oraz jak za pomocą serwisu Scrapinghub wdrożyć skrypt tak aby wykonywał się cyklicznie.

Automatyzacja pracy w R

W “serii” wpisów dotyczącej automatyzacji pracy, chciałbym skupić się na omówieniu przykładów dotyczących usprawniania powtarzających się zadań. Postaram się zaprezentować rozwiązania tych samych problemów za pomocą różnych narzędzi (m.in. R, Python, VBA). Dzisiejszy wpis dotyczy automatyzacji prostego procesu za pomocą R. Jeżeli często masz do czynienia z cyklicznymi zadaniami typu: pobierz dane > policz > wklej do Worda > wyślij maila i nie robisz tego w sposób zautomatyzowany, to ten wpis jest dla Ciebie!

Web scraping - studium przypadku - OCR

Pobieraniem treści ze stron internetowych (web scrapingiem) zajmuję się komercyjnie od kilku lat. Wykorzystuję do tego m.in. Bash, VBA, Google Sheets, R oraz Python. W ostatnim czasie, podczas konferencji WhyR? 2017 oraz DATA SCIENCE? AGHree! 2018, miałem przyjemność prowadzić warsztaty z web scrapingu w R. W trakcie przygotowywania warsztatów natrafiłem na ciekawe zabezpieczenie przed automatycznym pobieraniem danych. W “serii” wpisów dotyczących web scrapingu chciałbym podzielić się wybranymi problemami z którymi przyszło mi się zmierzyć.