Το Semalt παρέχει τα αποτελέσματα της δοκιμής των εργαλείων ξύσιμο Ιστού

Κάθε χρήστης αντιμετωπίζει δύο επιλογές όταν θέλει να χρησιμοποιήσει εργαλεία απόξεσης ιστού. Χρησιμοποιούν είτε μια ξύστρα εκτός του ράφι είτε μια προσαρμοσμένη ξύστρα. Ενώ μια προσαρμοσμένη ξύστρα είναι μια καλύτερη επιλογή, πολλοί άνθρωποι αποφεύγουν λόγω αυτού του υψηλού κόστους. Το εργαλείο πρέπει να αναπτυχθεί για να ταιριάζει στην επιχείρηση και τις προτιμήσεις σας, επομένως απαιτεί πολλή δουλειά.

Από την άλλη πλευρά, οι ξύστρες ιστού εκτός γραφείου είναι πολύ γενικές, δεδομένου ότι έχουν σχεδιαστεί για γενικές εργασίες απόξεσης ιστού. Συνήθως είναι καλύτερα σε ορισμένα έργα απόξεσης ιστού και κάνουν κακές δουλειές σε άλλους. Για να σας βοηθήσουν να κάνετε τη σωστή επιλογή, ορισμένοι ξυστές ιστού υποβλήθηκαν σε διεξοδικές δοκιμές ξύσματος ιστού και τα αποτελέσματα έχουν εμφανιστεί παρακάτω.

Κριτήρια δοκιμής

Οι διαδικτυακές ξύστρες δοκιμάστηκαν στις ακόλουθες κοινές εργασίες εξαγωγής δεδομένων. Δοκιμάστηκαν για την ικανότητά τους να αποκόψουν αναφορές σε πίνακες, λίστες κειμένων και φόρμες σύνδεσης. Επιπλέον, οι διαδικτυακές ξύστρες δοκιμάστηκαν επίσης για την ικανότητά τους να εξάγουν δεδομένα από δυναμικές ιστοσελίδες που έχουν δημιουργηθεί στο AJAX. Αυτό είναι συνήθως ένα από τα πιο δύσκολα καθήκοντα για πολλές ξύστρες Ιστού. Δοκιμάστηκε επίσης η ικανότητά τους να χειρίζονται το Captcha. Τέλος, δοκιμάστηκαν για την ικανότητά τους να χειρίζονται τη διάταξη μπλοκ.

Αποτελέσματα δοκιμών

Τα εργαλεία απόξεσης ιστού που δοκιμάστηκαν είναι Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor και Easy Web Extractor.

Τα αποτελέσματα έδειξαν ότι το Content Grabber είναι το καλύτερο, καθώς είχε εξαιρετική απόδοση σε όλες τις δοκιμασμένες περιοχές. Ως εκ τούτου, κέρδισε την υψηλότερη μέση βαθμολογία. Παρατηρήθηκε επίσης ότι όλα τα εργαλεία απόξεσης ιστού ήταν σε θέση να αποκόψουν φόρμες σύνδεσης και επίσης να αποκόψουν δεδομένα από ιστοσελίδες που έχουν δημιουργηθεί με AJAX. Επομένως, εάν αυτοί είναι οι δύο λόγοι για τους οποίους χρειάζεστε μια ξύστρα ιστού, μπορείτε να επιλέξετε οποιαδήποτε από αυτές. Όλοι τα πήγαν πολύ καλά και στους δύο τομείς.

Το επόμενο στο Content Grabber σε απόδοση είναι το Visual Web Ripper. Έχει καλή απόδοση σε όλους τους τομείς, αλλά όχι στο Content Grabber, οπότε κέρδισε μια μέση βαθμολογία 4,5. Το επόμενο διαδικτυακό εργαλείο είναι το Helium Scraper. Η απόδοσή του είναι σχεδόν τόσο καλή όσο αυτή του Visual Web Ripper. Το μόνο πρόβλημα με το Helium Scraper είναι η κακή του απόδοση στο χειρισμό της διάταξης μπλοκ.

Σύμφωνα με τα αποτελέσματα των δοκιμών, τα εργαλεία απόξεσης ιστού εκτελέστηκαν με αυτήν τη σειρά: Περιεχόμενο Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor και Easy Web Extractor που δημιουργούν τη χειρότερη απόδοση .

συμπέρασμα

Λαμβάνοντας υπόψη τα αποτελέσματα των δοκιμών που αναλύθηκαν παραπάνω, το Content Grabber έλαβε βαθμολογία 5 σε όλες τις κατηγορίες δοκιμών. Άρα, είναι προφανώς το καλύτερο. Ίσως χρειαστεί να το δοκιμάσετε επίσης. Δυστυχώς, δύο ξύστρες ιστού αποσύρθηκαν από τη δοκιμή για διαφορετικούς λόγους. Οι προγραμματιστές του Web Data Extractor και του WebHarvy απέσυραν τα προϊόντα τους από το τεστ.

Παρά το γεγονός ότι δεν συμμετείχε στη δοκιμή, μάθαμε μερικά πράγματα για τα δύο. Το WebHarvy έχει σχεδιαστεί για την απόσυρση δεδομένων από σωστά μορφοποιημένες λίστες σελιδοποίησης, ενώ το Web Data Extractor προορίζεται αποκλειστικά για τη συλλογή email, διευθύνσεων URL κ.λπ.