Centrum wiedzy o technologiach i pracy w IT
web scraping

Web scraping – na czym polega?

Web scraping jest metodą pobierania interesujących nas informacji ze stron internetowych, której zadaniem jest zautomatyzowanie tego, co moglibyśmy robić ręcznie – kopiować i wklejać do innego dokumentu. Jak konkretnie działa web scraping? Czy tego typu działania są legalne?

Sprawdź: Negocjacja

Na czym polega web scraping?

Aby móc pobierać dane ze stron, potrzebny jest scraper, czyli program do „skrobania” danych. Działanie programu opiera się o wysyłanie żądań do serwera, na którym działa dana strona internetowa, a z jakiej informacje chcemy pozyskać. Scraper przeszukuje kod źródłowy strony i zwraca informacje z HTML-a, które zostały wskazane do wydobycia.

W bardziej zaawansowanych formach, scraper może pomagać w szybkim podejmowaniu czynności, np. w reakcji na obniżkę cen może dokonać zakupu.

Web scraping a indeksowanie

Aby wyjaśnić różnicę pomiędzy web scrapingiem a indeksowaniem stron, warto przytoczyć jeszcze dwa pojęcia. Przeszukiwanie stron internetowych może dotyczyć różnych elementów oraz celów.

Web parsing, czyli parsowanie, to przetwarzanie tekstu w taki sposób, aby utworzyć z niego mniejsze elementy, które łatwiej można analizować. Parsowanie może dotyczyć formatów HTML, XML lub po prostu zwykłych tekstów.

Web crawling odnosi się do crawlerów, czyli robotów odwiedzających strony i indeksujących linki.

Web scraping łączy się w pewnych momentach z web crawlingiem i web parsingiem. Sprawne wyodrębnianie interesujących informacji możliwe jest dzięki analizowaniu fragmentów oraz automatycznym odwiedzaniu zaindeksowanych linków.

Zobacz: Internet rzeczy

Zastosowania

Do czego potrzebne jest szybkie pobieranie informacji ze stron internetowych? Może się przydać w przypadku prowadzenia serwisów agregujących oferty z różnych miejsc, np. serwisów z ogłoszeniami o nieruchomościach lub stron gromadzących oferty z różnych sklepów internetowych. Z web scrapingu korzystają też wszelkie porównywarki cen.

Jak korzystać z web scrapingu?

Wysyłanie zbyt dużej liczby żądań może obciążyć serwer, co wpłynie negatywnie na wyświetlanie strony. Aby nie naruszać web scrapingiem funkcjonowania witryny, warto zadbać o kilka rzeczy.

1. Przede wszystkim sprawdź, czy strona udostępnia API – wtedy w łatwy sposób możesz pozyskać potrzebne dane.

2. Sprawdź plik robots.txt – znajdują się w nim oznaczenia miejsc na stronie, które nie powinny być przetwarzane.

3. Sprawdź warunki korzystania z witryny. Możliwe, że znajdzie się w nich informacja, że jednym z zabronionych działań jest pobieranie zbiorczych plików treści.

4. Zachowaj bezpieczeństwo danych, nie naruszaj poufności i nie działaj na szkodę strony.

Total
0
Shares
_podobne artykuły