Χρήστης:Papyrus/Οδηγός Δημιουργίας ψηφιακού ευρετηρίου βιβλιοθήκης

Δημιουργία ψηφιακού ευρετηρίου βιβλιοθήκης
Ένας πρακτικός οδηγός για εύκολη και γρήγορη αναζήτηση στα βιβλία μας

Ο σύντομος αυτός οδηγός παρουσιάζει μια εκδοχή για την καλύτερη εκμετάλευση των δυνατοτήτων της ψηφιακής εποχής σε σχέση με την αναζήτηση λέξεων, ονομάτων, όρων κ.λπ. σε βιβλία που έχουμε στην κατοχή μας ή σε βιβλία που δανειζόμαστε. Το όφελος είναι μεγάλο, και δεν είναι άλλο από την ταχύτητα και την ακρίβεια της αναζήτησης.

Σκεπτικό[Επεξεργασία | επεξεργασία κώδικα]

Ακόμα και στην περίπτωση μιας μικρής προσωπικής βιβλιοθήκης που διαθέτει από 200 έως 500 βιβλία, από κάποιο σημείο και μετά η αναζήτηση των πληροφοριών γίνεται δύσκολη. Έχοντας διαβάσει το κάθε βιβλίο, τη στιγμή που αναζητούμε μια πληροφορία θυμόμαστε ότι "κάπου" την είχαμε δει, αλλά όσο ο αριθμός των βιβλίων μεγαλώνει, τόσο πιο δύσκολο είναι να θυμηθούμε το "πού ακριβώς".

Θα ήταν λοιπόν χρήσιμο να δημιουργηθεί μια γενική άποψη του περιεχομένου του κάθε βιβλίου, γρήγορα και εύκολα προσβάσιμη. Θα ονομάσω αυτή την "γενική άποψη" ως "Γνωστικό περίγραμμα" του βιβλίου.

Στην εργασία αυτή καλούμαστε να δείξουμε την υπομονή και επιμονή, να πραγματοποιήσουμε για κάθε βιβλίο περίπου 10-20 σαρώσεις με το scanner μας, ώστε να αποθηκεύσουμε στον Η/Υ μας τα καίρια στοιχεία αναζήτησης που περιέχει το κάθε βιβλίο και αποτελούνται από:

Το εξώφυλλο
Το εσώφυλλο
Τα "Περιεχόμενα"
Το "Ευρετήριο"
και (προαιρετικά) τη "Βιβλιογραφία"

Αυτά τα λίγα αλλά απαραίτητα στοιχεία του κάθε βιβλίου, θα πρέπει να αποθηκευτούν ως εικόνες στον Η/Υ μας και μετά να περαστούν (εκτός από το εξώφυλλο) από ένα πρόγραμμα OCR, ώστε να μετατραπούν, από απλές εικόνες, σε επεξεργάσιμο κείμενο. Αυτά τα μικρά αρχεία κειμένου σε μορφή .doc ή .rtf ή .txt (για ταχύτερα αποτελέσματα), θα είναι πλέον άμεσα προσβάσιμα για αναζήτηση από τον Η/Υ μας, χρησιμοποιώντας την ήδη υπάρχουσα δυνατότητα των Windows, "Εύρεση κειμένου μέσα σε αρχείο" (Έναρξη > Αναζήτηση > Αρχεία ή Φάκελοι). Με τον τρόπο αυτό, η "Εύρεση" θα μας δώσει σε δευτερόλεπτα, σε ποιων βιβλίων τα Περιεχόμενα, ή το Ευρετήριο βρέθηκε η λέξη ή η φράση που ψάχνουμε.

Είναι κατανοητό ότι, εφόσον κατέχουμε ένα μεγάλο αριθμό βιβλίων, η δυνατότητα αυτή μας γλυτώνει από τον πολύτιμο χρόνο που θα δαπανούσαμε κατεβάζοντας βιβλία από τη βιβλιοθήκη και ξεφυλλίζοντάς τα. Η εργασία αποθήκευσης των παραπάνω στοιχείων είναι σίγουρα κουραστική, αλλά πρέπει να θυμόμαστε ότι θα γίνει μία φορά για το σύνολο των βιβλίων, ενώ από κει και πέρα, η εργασία θα γίνεται κάθε φορά, μόνο στα 1-2 καινούργια βιβλία που αγοράζουμε ή δανειζόμαστε.

Για να είναι πιο χρηστική η λειτουργία αυτή, είναι απαραίτητο να έχουμε φτιάξει από πριν, μία ταξινόμηση "φακέλων" στον σκληρό μας δίσκο, με υποκαταλόγους και ονόματα. Τα ονόματα των φακέλων θα αφορούν γνωστικά αντικείμενα, χρονικές περιόδους κ.λπ.

π.χ.

ΙΣΤΟΡΙΑ (αρχικός φάκελος)

Νεώτερη Ελληνική Ιστορία (υποφάκελος)

Τουρκοκρατία - Λατινοκρατία (υποφάκελος-αντικείμενο 1)

1821 (υποφάκελος-αντικείμενο 2)

Σχέσεις Ανατολής-Δύσης, Διαφωτισμός (υποφάκελος-αντικείμενο 3)

κ.ο.κ.

Επισημαίνω ότι ο οδηγός αυτός είναι σύντομος. Απορίες για την χρήση π.χ. του σαρωτή, μπορούν να λυθούν μετά από αναζήτηση στο διαδίκτυο ή από την επιλογή "Βοήθεια" του λογισμικού ή από τον πωλητή του υλικού. Εδώ δίνεται μόνο ένα κίνητρο για αναζήτηση μεθόδων που ταιριάζουν καλύτερα στον καθένα.

Τι χρειαζόμαστε[Επεξεργασία | επεξεργασία κώδικα]

1. Έναν σαρωτή (scanner)

2. Λογισμικό για την ψηφιοποίηση κειμένου (δηλ. για αναγνώριση χαρακτήρων ή αλλιώς OCR)

Ένα τέτοιο πρόγραμμα, μπορεί να αναγνωρίσει μέσα σε μια εικόνα, τυπωμένους χαρακτήρες όπως γράμματα, σημεία στίξης κ.λπ. και να τα μετατρέψει σε επεξεργάσιμο κείμενο, σαν να το είχαμε γράψει στον επεξεργαστή κειμένου. Η τεχνολογία αυτή, στην περίπτωσή μας, προσφέρει την εξαιρετική δυνατότητα της εύρεσης λέξεων ή φράσεων μέσα στο κείμενο που έχει περάσει από OCR. Προγράμματα που να αναγνωρίζουν χαρακτήρες υπάρχουν αρκετά. Όμως, κατά την προσωπική μου άποψη η επιλογή ειδικά για αναγνώριση μονοτονικού κειμένου είναι μόνο μία και λέγεται Finereader. Επίσης, αν και δεν υποστηρίζει αναγνώριση πολυτονικού, δίνει πολύ καλά αποτελέσματα, επιστρέφοντας βέβαια κάποια γνωστά προβλήματα. Π.χ. (πολυτ.) όταν = δταν, (πολυτ.) είναι = έ'ιναι κ.ά. Οι διορθώσεις όμως που απαιτούνται μετά την αναγνώριση ενός καλοτυπωμένου κειμένου είναι λίγες. Για την αναγνώριση πολυτονικού κειμένου υπάρχει μια λύση ελληνικής μάλιστα κατασκευής, το πρόγραμμα Αναγνώστης. Έχει πολύ καλά αποτελέσματα, όμως η τιμή του είναι αρκετά υψηλή. Προκειμένου για το Finereader, αν και η έκδοση 9.0 είναι η νεώτερη, εντούτοις αν κάποιος δεν χρειάζεται τα επιπλέον χαρακτηριστικά, θα μπορούσε να προτιμήσει την έκδοση 8.0 καθώς είναι αρκετά πιο "ελαφριά" σε απαιτήσεις πόρων του συστήματος. Η έκδοση 9.0 είναι αρκετά βελτιωμένη σε OCR από εικόνες ψηφιακής φωτογραφικής μηχανής καθώς αυτόματα αμβλύνει τα χρωματικά και άλλα προβλήματα που εμφανίζονται, ενώ έχει βελτιωμένη απόδοση σε εξαιρετικά κακοτυπωμένο κείμενο (κακές φωτοτυπίες, κακοτυπωμένα βιβλία). Βεβαίως η ταχύτητα του προγράμματος υστερεί σημαντικά. Σε όλες τις άλλες περιπτώσεις κειμένου, οι διαφορές ανάμεσα στα αποτελέσματα των εκδόσεων 8.0 και 9.0 είναι σχεδόν ανύπαρκτες ενώ η ταχύτητα της έκδοσης 8.0 είναι σημαντικά υψηλότερη. Η έκδοση 9.0 είναι επίσης βελτιωμένη και στην ανατύπωση πολύπλοκης φόρμας (π.χ. μια φόρμα τιμολογίου ή μια διαφημιστική μπροσούρα).

Δημιουργία ψηφιακού ευρετηρίου βιβλιοθήκης[Επεξεργασία | επεξεργασία κώδικα]

Η προσωπική μου άποψη είναι ότι για να αποκτηθεί το Γνωστικό περίγραμμα ενός βιβλίου ώστε να δημιουργήσουμε ένα ψηφιακό ευρετήριο για την βιβλιοθήκη μας, χρειάζεται, από τα παρακάτω στοιχεία, να αποθηκευτούν οπωσδήποτε στον Η/Υ μας, τα 1., 2., 3., και 4.. Προαιρετικά, και το 5. το οποίο προσφέρει άλλου είδους σημαντικές υπηρεσίες:

1. Το Εξώφυλλο[Επεξεργασία | επεξεργασία κώδικα]

Σκοπός: αποθήκευση ως έγχρωμη εικόνα

Σάρωση του εξωφύλλου του βιβλίου με:

Χρώμα 24bit
Ανάλυση στα 72 ή 96 ή 100 dpi το πολύ
Αποθήκευση ως εικόνα jpg. Το όνομα που θα δώσουμε στην εικόνα μπορεί να περιέχει και την πλήρη βιβλιογραφική του καταχώρηση: Όνομα συγγραφέα, Τίτλος, Έκδοση, Εκδότης, Τόπος, Χρόνος κ.λπ..

Ο ρόλος του εξωφύλλου είναι για σημαντικός, αφού μπορεί κατά την αναζήτησή μας, να θυμηθούμε μόνο από το εξώφυλλο, το που βρίσκεται αυτό που ψάχνουμε.

2. Η εισαγωγική/ές σελίδα/ες[Επεξεργασία | επεξεργασία κώδικα]

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Αναφέρομαι στις σελίδες που περιέχουν τα εξής στοιχεία:

Έτος πρώτης έκδοσης,
Έτη επόμενων εκδόσεων,
Τον τίτλο και τον συγγραφέα,
Το όνομα του μεταφραστή και τον τίτλο του πρωτοτύπου (αν είναι μετάφραση),
Τον εκδοτικό οίκο

κ.λπ.

Οι σελίδες αυτές σαρώνονται με ρύθμιση:

Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
Ανάλυση στα 300 dpi

Κατόπιν, οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt

3. Τα Περιεχόμενα[Επεξεργασία | επεξεργασία κώδικα]

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Συνήθως οι σελίδες αυτές έχουν επάνω τον τίτλο "Περιεχόμενα" και ο αριθμός τους κυμαίνεται. Συνήθως αποτελούνται από 2 έως 5 σελίδες, αλλά μπορεί να είναι και περισσότερες. Οι σελίδες αυτές συνήθως περιέχουν τους τίτλους των κεφαλαίων και των ενοτήτων και δίπλα ακριβώς, τον αριθμό της σελίδας που θα τα βρούμε.

Οι σελίδες αυτές σαρώνονται επίσης με ρύθμιση:

Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
Ανάλυση στα 300 dpi

Κατόπιν, και οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt

4. Το Ευρετήριο[Επεξεργασία | επεξεργασία κώδικα]

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Είναι οι σελίδες που βλέπουμε συνήθως προς το τέλος του βιβλίου και περιέχουν λίστες με σημαντικές λέξεις, ονόματα, χωρία κειμένων κ.ά. και δίπλα τον αριθμό (ή τους αριθμούς) σελίδας που τα βρίσκουμε. Σχεδόν πάντα έχουν επάνω τον τίτλο Ευρετήριο.

Ομοίως, οι σελίδες αυτές σαρώνονται με ρύθμιση:

Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
Ανάλυση στα 300 dpi

Οι σελίδες αυτές, και πάλι, θα πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt

5. Η Βιβλιογραφία[Επεξεργασία | επεξεργασία κώδικα]

Σκοπός: αποθήκευση ως ασπρόμαυρη εικόνα & πέρασμα από OCR

Η βιβλιογραφία που βρίσκουμε συνήθως προς το τέλος του κάθε βιβλίου, αποτελεί ένα βοηθητικό στοιχείο που εξυπηρετεί πολλαπλούς σκοπούς:

Προσφέρει αναγνωστικές επιλογές για περαιτέρω διερεύνηση του θέματος του βιβλίου.
Δίνει κύρος και αξιοπιστία στο βιβλίο που διαβάζουμε καθώς μας κάνει γνωστές τις πηγές του, τις οποίες μπορούμε να κρίνουμε.
Ανάλογα με τον εκδοτικό οίκο και τον συγγραφέα, είναι δυνατόν να γίνεται και το αντίστροφο: Η αναφερόμενη βιβλιογραφία δηλ. να θεωρηθεί τουλάχιστον ενδιαφέρουσα, έως και αξιόπιστη, επειδή τη χρησιμοποίησε ο συγκεκριμένος συγγραφέας.
Μας δίνει την δυνατότητα μιας πρόχειρης αξιολόγησης ενός έργου ή ενός συγγραφέα. Για παράδειγμα: όταν η αναζήτησή μας για το όνομα Ostrogorsky, μέσα στη βιβλιογραφία των έργων με θέμα το Βυζάντιο, μας επιστρέψει ως αποτέλεσμα την παρουσία του μέσα σε αυτά σε ποσοστό 99%, τότε αυτό έχει μια σημασία για την αξία του συγγραφέα και την αναγνώριση του έργου του από την ακαδημαϊκή κοινότητα.

Όπως και παραπάνω, οι σελίδες αυτές σαρώνονται με ρύθμιση:

Άσπρο-Μαύρο (αγγλ. Black & White ή B&W)
Ανάλυση στα 300 dpi

Ξανά, οι σελίδες αυτές πρέπει να "διαβαστούν" με το πρόγραμμα OCR και να αποθηκευτούν ως αρχείο .doc ή .rtf ή .txt

Βεβαίως, πέρα από το ψηφιακό ευρετήριο, η μελέτη του κάθε βιβλίου που έρχεται στην κατοχή μας είναι αναντικατάστατη. Για τον λόγο αυτό αναφέρω παρακάτω μια άποψη για να αποκομίσουμε όσο το δυνατόν περισσότερα από την ανάγνωση ενός βιβλίου.

Παραγωγική μελέτη του βιβλίου: ανάγνωση & σημειώσεις[Επεξεργασία | επεξεργασία κώδικα]

Χρειαζόμαστε λογισμικό φύλλου εργασίας ή βάσης δεδομένων (Ms Excel)

Για να αποκτήσουμε γνώση της θεματολογίας ενός βιβλίου, του ύφους του, των επιχειρημάτων του και τελικά της χρησιμότητάς του, θα πρέπει να το διαβάσουμε με προσοχή. Ένας τρόπος για να μπορέσουμε να αξιοποιήσουμε τη γνώση που μας προσφέρει, είναι να διαβάσουμε έστω και μία φορά ολόκληρο το βιβλίο, εστιάζοντας σε ένα βασικό σκοπό: να κρατήσουμε λεπτομερείς σημειώσεις σε μια ηλεκτρονική βάση δεδομένων στον Η/Υ. Έτσι, αφού ξεκινήσουμε την προσεκτική μελέτη του κειμένου, των σημειώσεων, του κριτικού υπομνήματος κ.λπ., σε αυτή τη βάση δεδομένων (που μπορεί να είναι και ένα λογιστικό φύλλο), όπου θα έχουμε φτιάξει από πριν τις απαραίτητες στήλες και τους τίτλους που εμείς χρειαζόμαστε, θα γράφουμε κάθε τι που θεωρούμε σημαντικό και άξιο να σημειωθεί.

Η ταξινόμηση και αυτά που θα γράψουμε είναι καθαρά δική μας επιλογή και εξαρτάται από τους λόγους για τους οποίους αποκτήσαμε ένα βιβλίο. Κάποιος, διαβάζοντας το ίδιο κείμενο μπορεί να ενδιαφερθεί για ήθη και έθιμα ενώ άλλος να αναζητά στρατηγική και τεχνικές πολέμου.

Γενικά, όσο πιο λεπτομερής είναι η καταγραφή και κωδικοποίηση των πληροφοριών, τόσο πιο πολύτιμες γίνονται οι πληροφορίες μας. Η εργασία αυτή είναι κουραστική αλλά αξίζει τον κόπο να γίνει με προσοχή και λεπτομέρεια. Άλλωστε, μετά από μια τέτοια εργασία, το βιβλίο θα το αισθανόμαστε κτήμα μας περισσότερο από κάθε άλλη φορά.

Papyrus 07:12, 2 Φεβρουαρίου 2008 (UTC)