Web scraping – na czym polega?
Ostatnia aktualizacja 18 lutego, 2022
Web scraping jest metodą pobierania interesujących nas informacji ze stron internetowych, której zadaniem jest zautomatyzowanie tego, co moglibyśmy robić ręcznie – kopiować i wklejać do innego dokumentu. Jak konkretnie działa web scraping? Czy tego typu działania są legalne?
Sprawdź: Negocjacja
Na czym polega web scraping?
Aby móc pobierać dane ze stron, potrzebny jest scraper, czyli program do „skrobania” danych. Działanie programu opiera się o wysyłanie żądań do serwera, na którym działa dana strona internetowa, a z jakiej informacje chcemy pozyskać. Scraper przeszukuje kod źródłowy strony i zwraca informacje z HTML-a, które zostały wskazane do wydobycia.
W bardziej zaawansowanych formach, scraper może pomagać w szybkim podejmowaniu czynności, np. w reakcji na obniżkę cen może dokonać zakupu.
Web scraping a indeksowanie
Aby wyjaśnić różnicę pomiędzy web scrapingiem a indeksowaniem stron, warto przytoczyć jeszcze dwa pojęcia. Przeszukiwanie stron internetowych może dotyczyć różnych elementów oraz celów.
Web parsing, czyli parsowanie, to przetwarzanie tekstu w taki sposób, aby utworzyć z niego mniejsze elementy, które łatwiej można analizować. Parsowanie może dotyczyć formatów HTML, XML lub po prostu zwykłych tekstów.
Web crawling odnosi się do crawlerów, czyli robotów odwiedzających strony i indeksujących linki.
Web scraping łączy się w pewnych momentach z web crawlingiem i web parsingiem. Sprawne wyodrębnianie interesujących informacji możliwe jest dzięki analizowaniu fragmentów oraz automatycznym odwiedzaniu zaindeksowanych linków.
Zobacz: Internet rzeczy
Zastosowania
Do czego potrzebne jest szybkie pobieranie informacji ze stron internetowych? Może się przydać w przypadku prowadzenia serwisów agregujących oferty z różnych miejsc, np. serwisów z ogłoszeniami o nieruchomościach lub stron gromadzących oferty z różnych sklepów internetowych. Z web scrapingu korzystają też wszelkie porównywarki cen.
Jak korzystać z web scrapingu?
Wysyłanie zbyt dużej liczby żądań może obciążyć serwer, co wpłynie negatywnie na wyświetlanie strony. Aby nie naruszać web scrapingiem funkcjonowania witryny, warto zadbać o kilka rzeczy.
1. Przede wszystkim sprawdź, czy strona udostępnia API – wtedy w łatwy sposób możesz pozyskać potrzebne dane.
2. Sprawdź plik robots.txt – znajdują się w nim oznaczenia miejsc na stronie, które nie powinny być przetwarzane.
3. Sprawdź warunki korzystania z witryny. Możliwe, że znajdzie się w nich informacja, że jednym z zabronionych działań jest pobieranie zbiorczych plików treści.
4. Zachowaj bezpieczeństwo danych, nie naruszaj poufności i nie działaj na szkodę strony.