Συζήτηση χρήστη:Papyrus/Οδηγός Δημιουργίας ψηφιακού ευρετηρίου βιβλιοθήκης/Αρχείο 1
Μπράβο Papyrus! Άψογες ιδέ—Geraki ✉2006-01-5 T 12:49 Zες και προτάσεις! Μου έβαλες ιδέες... -- pvasiliadis 11:09, 5 Ιανουαρίου 2006 (UTC)
Τσίφτικο. Λέω να φτιάξω ένα λογισμικό σε PHP επί του θέματος να γίνονται οι καταχωρήσεις σε βάση δεδομένων. Ωραία ιδέα--ΗΠΣΤΓ 11:56, 5 Ιανουαρίου 2006 (UTC)
Πολύ ενθαρρυντικά λόγια παιδιά! Να' στε καλά.
Τι εννοείς: λογισμικό σε PHP;
δηλ. να φτιάξεις κάτι εξαρχής για οικιακή χρήση αντί για λογιστικό φύλλο;
μάλλον εννοεί και δικτυακή χρήση. —Geraki ✉2006-01-5 T 12:49 Z
Συγχαρητήρια κι από εμένα. Παλιότερα είχα ψηφιοποιήσει άρθρα περιοδικών για να μην μπλέκω με κομμένες σελίδες. Μια ερώτηση: Ούτε η τελευταία έκδοση του Finereader αναγνωρίζει πολυτονικό κείμενο (κοινώς τα κάνει κουλουβάχατα). Γνωρίζεις κάποιο τρόπο ώστε να γίνει αναγνώριση πολυτονικού κειμένου; (Θα βοηθούσε ιδιαίτερα και την Βικιθήκη).΄—Geraki ✉2006-01-5 T 12:49 Z
Ευχαριστώ πολύ Geraki.
Δυστυχώς, η μόνη λύση, είναι η σκληρή δουλειά των User Patterns (από μενού Tools => Options => Train user pattern κ.λπ.).
Περιττό να πω ότι κάθε pattern δουλεύει μόνο στη γραμματοσειρά που το εκπαιδεύσαμε και κάθε βιβλίο σχεδόν, θέλει ξεχωριστή εκπαίδευση.
Η εμπειρία μου λέει ότι, μετά από Training 4 ωρών! για 2 σελίδες!, τα αποτελέσματα ήταν χειρότερα από την default αναγνώριση!
Αυτό συμβαίνει διότι με το μάτι οι διαφορές είναι ανύπαρκτες, όμως, ανάλογα με την ποιότητα του χαρτιού, της εκτύπωσης, του scanner κ.λπ., αν μεγεθυνθούν οι σκαναρισμένες σελίδες θα δούμε ότι έχουν μικροδιαφορές από γράμμα σε γράμμα.
- Προσωπικά θεωρώ καλύτερη λύση να γίνει το OCR με το Finereader με default αναγνώριση και μετά με κάποιο εργαλείο ειδικό για search & replace να εντοπίσουμε τα βασικότερα λάθη αναγνώρισης και να τα κάνουμε μαζικά replace. (π.χ. το ύ που θα το βρούμε συχνά ϋ ή και ΰ)
Συμπληρώνω (διορθώνω) ότι το Finereader ΔΕΝ δημιουργεί καθόλου πολυτονικό κείμενο. Τα παραπάνω που έγραψα αναφέρονται στον τρόπο να μετατρέψουμε το πολυτονικό, σε ένα ευπαρουσιάστο μονοτονικό.
Έτσι, σε περίπτωση που το κείμενό μας θέλουμε να μείνει πολυτονικό, τότε μετά την αναγνώριση και τα replace, η λύση είναι ο Πολυτονιστής της Magenta που θα μετατρέψει το διορθωμένο κείμενο και πάλι σε πολυτονικό.
Πολυτονικό OCR[επεξεργασία κώδικα]
Έχει κανείς υπόψη του το πρόγραμμα Αναγνώστης? --Dada 13:22, 5 Ιανουαρίου 2006 (UTC)
Το θυμάμαι από μια παλιά κριτική του RAM όπου δεν του έδινε και ιδιαίτερα υψηλή βαθμολογία και κόστιζε 4 φορές περισσότερο από κάθε άλλο.
Έχεις ακούσει ότι διάβαζε και πολυτονικά;
- Εδώ λένε ότι αναγνωρίζει πολυτονικό και με μεγάλη επιτυχία. Δεν το έχω χρησιμοποιήσει ποτέ πάντως και δεν ξέρω περισσότερα. --Dada 16:57, 5 Ιανουαρίου 2006 (UTC)
Αν και πέρασε καιρός, θεωρώ πως είναι χρήσιμο να αναφέρω ότι η δοκιμαστική έκδοση του Αναγνώστη, έδωσε πολύ καλά αποτελέσματα (τουλάχιστο 85%)και μάλιστα σε παλιά εκτύπωση με γραμματοσειρά αρκετά "δύσκολη". Θεωρώ ότι με "καθαρότερο" κείμενο, μπορεί να φτάσει και πάνω από 95-97% επιτυχία.
Βέβαια, όπως και να το δει κανείς, είναι ΠΑΝΑΚΡΙΒΟ. Τα 585 € είναι πολλά χρήματα αν και είμαι σίγουρος ότι η εταιρεία θα τα δικαιολογεί λόγω της μικρής ελληνικής αγοράς.
Επίσης να επισημάνω ότι είδα μεν επιλογή "Ελληνοαγγλικά", όμως δεν είδα επιλογή "Πολυτονικά & Αγγλικά". Υπάρχει επιλογή μόνο για "Πολυτονικά", το οποίο δεσμεύει περιπτώσεις όπου υπάρχει πολυτονικό κείμενο, αλλά με εκτεταμένο όμως κριτικό υπόμνημα που μπορεί να περιέχει, σε ίση έκταση τουλάχιστον, με το πολυτονικό, λατινικούς χαρακτήρες (ορολογίες, τίτλους βιβλίων, παραθέσεις αποσπασμάτων κ.λπ.)
Papyrus 21:40, 9 Μαρτίου 2006 (UTC)
Όλα τα στοιχεία που κατεβάζεις μαζεμένα στην πρόσφατη συζήτηση π.χ. γίνονται μέσω αναζήτησης στο ψηφιακό σου ευρετήριο. Αν είναι έτσι, τα συγχαρίκια μου μάστορα--ΗΠΣΤΓ 23:13, 10 Μαρτίου 2006 (UTC)
Ωπ! Sorry για την καθυστέρηση. Μόλις τώρα είδα αυτό που έγραψες.
Ευχαριστώ πολύ.
Ναι, έτσι είναι. Έχει προϋπάρξει η εργασία που αναφέρω στον οδηγό, αλλιώς, προσωπικά εγώ, δεν θα μπορούσα να το κάνω αυτό. Μόνο για να ψάξω στα βιβλία, θα ήθελα μέρες. Ενώ τώρα, σε δευτερόλεπτα βρίσκω θέμα, βιβλίο και σελίδα, παίρνω τα βιβλία που τα έχω γύρω μου αφού ζω ανάμεσα σε βιβλιοθήκες :-), βάζω το βιβλίο στο scanner και voila.
Αν πάλι πρόκειται για ένα θέμα που το έχω ήδη επισημάνει όταν κρατούσα σημειώσεις για το βιβλίο, τα αποτελέσματα είναι ακόμα πιο γρήγορα αφού έχω ήδη βρει από καιρό το απόσπασμα και το έχω στο excel.
Τι να κάνουμε. Αναγκαστήκαμε να προσαρμοστούμε στην εποχή της ταχύτητας :-)
Papyrus 09:06, 19 Μαρτίου 2006 (UTC)
Καντέντσα[επεξεργασία κώδικα]
Συγγνώμη που το ύφος μου στην επισήμανση ήταν απότομο (για να μην πω τίποτα χειρότερο), είχα λίγα νεύρα παραπάνω για άσχετους λόγους και όταν κατάλαβα ότι το είχα διατυπώσει μάλλον άκομψα, ήταν αργα!Elena153 11:35, 6 Ιουλίου 2006 (UTC)
Δημοσκόπηση[επεξεργασία κώδικα]
Δες τις αλλαγές που έκανα στο Βικιπαίδεια:Σήμανση χρονολόγησης/Δημοσκόπηση μήπως θέλεις να αλλάξεις τις υπογραφές σου ή μήπως δεν συμφωνείς με τις αλλαγές. --Philologus 15:36, 30 Ιουλίου 2006 (UTC)