Semalt zapewnia wyniki testów narzędzi do skrobania stron internetowych

Każdy użytkownik ma dwie opcje, gdy chce skorzystać z narzędzi do skrobania stron internetowych. Używają albo gotowego skrobaka sieciowego, albo skrobaka niestandardowego. Podczas gdy skrobak na zamówienie jest lepszą opcją, wiele osób unika go z powodu jego wysokich kosztów. Narzędzie musi zostać opracowane w celu dopasowania do Twojej firmy i preferencji, więc wymaga dużo pracy.

Z drugiej strony gotowe zgarniacze wstęgi są zbyt ogólne, ponieważ są przeznaczone do ogólnych zadań zgarniania wstęgi. Zazwyczaj są lepsi w niektórych projektach skrobania stron internetowych i wykonują tandetne prace w innych. Aby pomóc Ci dokonać właściwego wyboru, niektóre skrobaki zostały poddane dokładnym testom skrobania, a wyniki zostały wyświetlone poniżej.

Kryteria testowe

Skrobaczki zostały przetestowane w następujących typowych zadaniach ekstrakcji danych. Zostały przetestowane pod kątem zdolności do zgarniania raportów tabelarycznych, list tekstowych i formularzy logowania. Ponadto skrobaczki zostały przetestowane pod kątem ich zdolności do wyodrębniania danych z dynamicznych stron internetowych zbudowanych na AJAX. Jest to zwykle jedno z najtrudniejszych zadań dla wielu skrobaków internetowych. Ich zdolność do posługiwania się Captcha została również przetestowana. Na koniec przetestowano ich zdolność do obsługi układu bloków.

Wyniki testów

Testowane narzędzia do skrobania stron to Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor i Easy Web Extractor.

Wyniki pokazały, że Content Grabber jest najlepszy, ponieważ działał doskonale we wszystkich testowanych obszarach. Tym samym uzyskał najwyższą średnią ocenę. Zaobserwowano również, że wszystkie narzędzia do skrobania sieci były w stanie zeskrobać formularze logowania, a także zeskrobać dane ze stron internetowych zbudowanych za pomocą AJAX. Więc jeśli są to dwa powody, dla których potrzebujesz skrobaka internetowego, możesz wybrać dowolny z nich. Wszyscy wypadli bardzo dobrze w obu obszarach.

Kolejnym działającym narzędziem Content Grabber jest Visual Web Ripper. Działał dobrze we wszystkich obszarach, ale nie tak dobrze, jak Content Grabber, więc uzyskał średnią ocenę 4,5. Kolejnym narzędziem sieciowym jest skrobak helowy. Jego wydajność jest prawie tak dobra jak Visual Web Ripper. Jedynym problemem związanym ze zgarniaczem helu jest jego niska wydajność w obsłudze układu bloku.

Zgodnie z wynikami testu, narzędzia do skrobania stron wykonywane w następującej kolejności: Grabber zawartości, Visual Web Ripper, Hel scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor i Easy Web Extractor, które zapewniają najgorszą wydajność .

Wniosek

Biorąc pod uwagę wyniki testów przeanalizowane powyżej, Content Grabber uzyskał ocenę 5 we wszystkich kategoriach testów. Tak więc jest oczywiście najlepszy. Być może będziesz musiał to wypróbować. Niestety, dwa zgarniacze wstąpiły z testu z różnych powodów. Twórcy Web Data Extractor i WebHarvy wycofali swoje produkty z testu.

Pomimo nieuczestniczenia w teście, o obu z nich dowiedzieliśmy się kilku rzeczy. WebHarvy jest przeznaczony do zeskrobywania danych z dobrze sformatowanych stronicowanych list, podczas gdy Web Data Extractor służy wyłącznie do zbierania wiadomości e-mail, adresów URL itp.