Μηχανή αναζήτησης

Μια μηχανή αναζήτησης είναι μια εφαρμογή που επιτρέπει την αναζήτηση κειμένων και αρχείων στο Διαδίκτυο. Αποτελείται από ένα πρόγραμμα υπολογιστή που βρίσκεται σε έναν ή περισσότερους υπολογιστές στους οποίους δημιουργεί μια βάση δεδομένων με τις πληροφορίες που συλλέγει από το διαδίκτυο, και το διαδραστικό περιβάλλον που εμφανίζεται στον τελικό χρήστη ο οποίος χρησιμοποιεί την εφαρμογή από άλλον υπολογιστή συνδεδεμένο στο διαδίκτυο. Οι μηχανές αναζήτησης αποτελούνται από 3 είδη λογισμικού, το λογισμικό αναζήτησης (spider software), το λογισμικό ευρετηριασμού (index software) και το λογισμικό ερωτημάτων (query software).

Ιστορικό

Στα τέλη της δεκαετίας του ΄80 ο κόσμος μόλις είχε αρχίσει να συνειδητοποιεί την επίδραση των προσωπικών υπολογιστών και να ακούει για ένα νέο δίκτυο υπολογιστών χωρίς όμως να μπορεί να φανταστεί το μέγεθος που θα έχει αυτό σήμερα και τις επιπτώσεις του στον ίδιο τον άνθρωπο.

Στις 10 Σεμπτεμβρίου του 1990 έγινε γνωστή η έννοια των μηχανών αναζήτησης στο διαδίκτυο. Οι φοιτητές Peter Deutsch, Alan Emtage και Bill Heelan του πανεπιστημίου McGill ανήγγειλαν στο Usenet τη λειτουργία του Archie. Το Archie ήταν ένα σύστημα καταγραφής των περισσοτέρων διακομιστών FTP που λειτουργούσαν, καθώς και των αρχείων που αυτοί περιλάμβαναν.

Η Veronica, μια μηχανή αναζήτησης που δημιουργήθηκε το 1992 στο πανεπιστήμιο της Νεβάδα, όπως και το Jughead (1993), χρησίμευε για την αναζήτηση των περιεχομένων τίτλων σε διακομιστές που πρόσφεραν αρχεία υπό το πρωτόκολλο Gopher.

Το 1995 έκανε την εμφάνιση του το Excite το οποίο είναι δημιούργημα έξι φοιτητών του πανεπιστημίου του Στάνφορντ. Επόμενοι σταθμοί εξέλιξης αποτελούν οι μηχανές Lykos και Altavista (1996). Η Altavista έμεινε γνωστή για τις αμείωτες επιδόσεις της στην καταλογογράφηση. Επίσης το 1998 οι φοιτητές Larry Page και Sergey Brin του πανεπιστημίου Στάνφορντ εφάρμοσαν ένα προηγμένο σύστημα αξιολόγησης των δικτυακών τόπων. Η μηχανή αναζήτησης που ανέπτυξαν είχε το όνομα Google και άλλαξε τη δικτυακή ζωή των χρηστών του ίντερνετ. Από το 2005 άρχισε να διαδίδεται και η έννοια της κάθετης μηχανής αναζήτησης, μιας μηχανής δηλαδή που αναζητά πληροφορίες και από άλλες μηχανές αναζήτησης και επιστρέφει αποτελέσματα ανά εννοιολογική σημασία και θεωρούνται περισσότερο προσαρμοσμένα στην έννοια που έχει προαποφασίσει ο χρήστης ^[1]^[2]. Υπό αυτή την έννοια οι παραδοσιακές μηχανές αναζήτησης ορίζονται και ως οριζόντιες μηχανές αναζήτησης^[2]

Λειτουργία

Όλες οι μηχανές αναζήτησης παρόλο τη διαφορετικότητα τους έχουν κάποιες κοινές λειτουργίες.

Οι μηχανές αναζήτησης δεν ερευνούν σε πραγματικό χρόνο τον παγκόσμιο ιστό αλλά μία βάση δεδομένων που περιέχει κάποια αντίγραφα ιστοσελίδων. Οι ιστοσελίδες αυτές επιλέγονται ανάμεσα σε δισεκατομμύρια σελίδες στο ίντερνετ. Για την έρευνα αυτή χρησιμοποιούνται κάποια προγράμματα που ονομάζονται «ρομπότ» ή «αράχνες» (spider, crawler ή webcrawler). Τα προγράμματα αυτά «σερφάρουν» στο Διαδίκτυο σε διάφορες ιστοσελίδες με σκοπό τη συλλογή πληροφοριών με βάση κάποια κριτήρια. Η λειτουργία αυτή πρέπει να γίνεται συνεχώς διότι οι ιστοσελίδες αλλάζουν και η βάση της μηχανής θα πρέπει να ανανεώνονται με νέες πληροφορίες. Μια μηχανή αναζήτησης μπορεί να διαθέτει περισσότερα από ένα «ρομπότ».
Αφού τα «ρομπότ» βρουν τις ιστοσελίδες τις περνούν σε ένα άλλο πρόγραμμα για τοποθέτηση δεικτών. Με το πρόγραμμα αυτό αναγνωρίζεται το κείμενο, οι σύνδεσμοι, και το υπόλοιπο περιεχόμενο της ιστοσελίδας και αποθηκεύεται στα αρχεία της βάσης δεδομένων. Αφού γίνει αυτή η αποθήκευση θα μπορεί να πραγματοποιηθεί αναζήτηση πάνω στη βάση της μηχανής αναζήτησης.
Μία ακόμα λειτουργία των μηχανών αναζήτησης είναι ότι επιτρέπουν στους χρήστες να «ψάχνουν» στη βάση δεδομένων τους μέσα από περιβάλλον που παρέχει πολλαπλές δυνατότητες αναζήτησης. Η λειτουργία αυτή έχει σχέση με αυτό που αντιμετωπίζουν οι χρήστες μέσα από το περιβάλλον της μηχανής αναζήτησης.

Σύμφωνα με την παραπάνω περιγραφή, οι μηχανές αναζήτησης αποτελούνται από τρία μέρη:

Τον spider: Ένα πρόγραμμα το οποίο διατρέχει όλο το web και βρίσκει και διαβάζει όλες τις ιστοσελίδες.
Το ευρετήριο: Είναι μία βάση δεδομένων η οποία περιλαμβάνει αντίγραφα των σελίδων που επισκέφτηκε ο spider.
Τον μηχανισμό αναζήτησης: Ένα λογισμικό που επιτρέπει στους χρήστες να κάνουν έρευνα στο ευρετήριο.

Εμπορική εφαρμογή

Οι μηχανές αναζήτησης χρησιμοποιούνται πολύ από το αγοραστικό κοινό παγκοσμίως με αποτέλεσμα να αποτελούν ένα σημαντικό μέρος στην κατανάλωση και την διαφήμιση. Στις Ηνωμένες Πολιτείες και στην Βρετανία το συνολικό κόστος διαφήμισης στο διαδίκτυο ξεπέρασε το συνολικό κόστος διαφήμισης στο ραδιόφωνο το 1872.

Οι καταναλωτές ψάχνουν με 'λέξεις κλειδιά' για προϊόντα μέσω των μηχανών αναζήτησης. Οι εταιρίες που θέλουν να προβληθούν στις μηχανές αναζήτησης, πληθαίνουν, με μεγάλο ανταγωνισμό για τις πρώτες θέσεις στις ιστοσελίδες αποτελεσμάτων αναζήτησης, κάτι που οδήγησε στην ανάπτυξη ενός άλλου κλάδου, του search engine optimization (Βελτιστοποίηση για τις μηχανές αναζήτησης) που περιλαμβάνει τεχνικές κατασκευής και δικτύωσης ιστοσελίδων που να προσφέρουν καλύτερες θέσεις στα αποτελέσματα.

Κυριότερες μηχανές αναζήτησης

Οριζόντιες (παραδοσιακές) Γενικού ενδιαφέροντος

Υπάρχουν πολλές μηχανές αναζήτησης, με αυτές της εταιρίας Google (Google), της Yahoo (Yahoo! Search) και της Microsoft (Bing Search)

Το μερίδιο αγοράς της Google κορυφώθηκε στο 86.3% τον Απρίλιο 2010.^[3] Οι Yahoo!, Bing και άλλες είναι περισσότερο δημοφιλείς στις ΗΠΑ παρά στην Ευρώπη. Τέλος μετά την αναστάτωση που προκλήθηκε στην αίσθηση ασφάλειας των πολιτών περί των πολιτικών της NSA και την παρακολούθηση και υποκλοπή των κινήσεων των χρηστών στο internet, μια νέα μηχανή αναζήτησης, η DuckDuckGo ήρθε στο προσκήνιο ^[4]

Κάθετες Ειδικού ενδιαφέροντος

Υπάρχουν διάφορες αναφορές ^[5] για πολλές κατηγορίες κάθετων μηχανών αναζήτησης ανά εννοιολογική σημασία όπως πτήσεων & ταξιδιωτικού ενδιαφέροντος, Blogs, ανθρώπων, εικονιδίων κ.α.

Αποτελεσματικότητα μηχανών αναζήτησης

Οι μηχανές αναζήτησης δεν καλύπτουν το σύνολο του web. Ακόμα και αν η έρευνα γίνεται διαδοχικά με τις μεγαλύτερες και πιο δημοφιλείς μηχανές αναζήτησης δεν θα ανακτηθούν όλες οι σελίδες που υπάρχουν στο web. Πολλές ιστοσελίδες ευρετηριάζονται από πολλές μηχανές αναζήτησης ενώ άλλες από μία ή και καμία μηχανή. Επιπλέον κάποιες μηχανές δεν μπορούν να βρουν ιστοσελίδες που είναι σε άλλη γλώσσα εκτός από την αγγλική. Σύμφωνα με κάποιες μελέτες η μεγαλύτερη μηχανή αναζήτησης καλύπτει το 25 % του συνόλου του web ενώ συνολικά όλες οι μηχανές το 90% περίπου.^{[εκκρεμεί παραπομπή]}

Επιπρόσθετα οι μηχανές αναζήτησης δεν ευρετηριάζουν όλα τα τεκμήρια που διατίθενται στο web. Για παράδειγμα δεν μπορούν να ευρετηριάσουν αρχεία που είναι προστατευμένα με κωδικούς και επίσης πολλά αρχεία μπορεί να αποκλειστούν λόγω της χρήσης ειδικού λογισμικού από το server που τα φιλοξενεί. Ακόμα, κάποιες από τις μηχανές συνήθως δεν περιλαμβάνουν τα πιο πρόσφατα αναρτημένα στο ιντερνέτ τεκμήρια.

Λόγω της μικρής αποτελεσματικότητας των μηχανών αναζήτησης σε εξειδικευμένα λήμματα καθώς την διαφορετική σημαντική έννοια που μπορεί να έχουν ορισμένα λήμματα (π.χ. Jaguar που αναφέρεται στην Μάρκα του αυτοκινήτου και Jaguar που αναφέρεται στο αιλουροειδές) ^[6] σε αρκετές περιπτώσεις οι χρήστες απευθύνονται σε κάθετες μηχανές αναζήτησης για να αντλήσουν δεδομένα συγκεκριμένης έννοιας.

Υποσημειώσεις

↑ «Αρχειοθετημένο αντίγραφο». Αρχειοθετήθηκε από το πρωτότυπο στις 8 Μαΐου 2005. Ανακτήθηκε στις 4 Απριλίου 2014.
↑ ^2,0 ^2,1 http://www.pcmag.com/encyclopedia/term/57892/vertical-search-engine
↑ «Net Market share - Google». Marketshare.hitslink.com. Ανακτήθηκε στις 14 Μαΐου 2012.
↑ «Αρχειοθετημένο αντίγραφο». Αρχειοθετήθηκε από το πρωτότυπο στις 17 Μαρτίου 2011. Ανακτήθηκε στις 4 Απριλίου 2014.
↑ http://thenextweb.com/lifehacks/2012/04/29/30-specialist-and-super-smart-search-engines/
↑ http://www.cs.nyu.edu/~mohri/pub/wea.pdf

Δείτε επίσης

[1] «Αρχειοθετημένο αντίγραφο». Αρχειοθετήθηκε από το πρωτότυπο στις 8 Μαΐου 2005. Ανακτήθηκε στις 4 Απριλίου 2014.

[pcmag.com-2] 2,0 ^2,1 http://www.pcmag.com/encyclopedia/term/57892/vertical-search-engine

[3] «Net Market share - Google». Marketshare.hitslink.com. Ανακτήθηκε στις 14 Μαΐου 2012.

[4] «Αρχειοθετημένο αντίγραφο». Αρχειοθετήθηκε από το πρωτότυπο στις 17 Μαρτίου 2011. Ανακτήθηκε στις 4 Απριλίου 2014.

[5] ttp://thenextweb.com/lifehacks/2012/04/29/30-specialist-and-super-smart-search-engines/

[6] ttp://www.cs.nyu.edu/~mohri/pub/wea.pdf

[1]

[2]

[3]

[4]

[5]

[6]