Posts List

Klasyfikacja nazw produktów w oparciu o ich krótkie opisy

W ostatnim czasie miałem okazję zastanowić nad problemem klasyfikacji produktów w oparciu o ich jednozdaniowe opisy. Moim głównym celem było wykrycie nazw kolekcji lub serii produktów (np. dla butów marki Adidas są to m.in. copa, superstar). Podczas małego researchu udało mi się znaleźć kilka gotowych rozwiązań. Niestety jak w przypadku nazw produktów radziły sobie całkiem dobrze, tak w przypadku nazw kolekcji było przeciętnie. W dzisiejszym wpisie chciałem podzielić się własną koncepcją rozwiązania tego problemu, która nie wykorzystuje uczenia maszynowego.

Scrapy - środowisko do tworzenia web scraperów

Scrapy to najlepsze i najbardziej elastyczne narzędzie do web scrapingu z jakim się do tej pory spotkałem. Szybkość tworzenia skryptów w dużej mierze zależy od struktury analizowanej strony, zastosowanych zabezpieczeń przeciw botom oraz ilości pobieranych danych. W standardowych przypadkach stworzenie i wdrożenie web scrapera może zająć dosłownie 15 minut. Wpis ten jest krótkim tutorialem wprowadzającym do narzędzia. Pokażę jak stworzyć prosty web scraper (na przykładzie popularnego serwisu ogłoszeniowego) oraz jak za pomocą serwisu Scrapinghub wdrożyć skrypt tak aby wykonywał się cyklicznie.