Επιστήμη δεδομένων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Μετάβαση σε: πλοήγηση, αναζήτηση
Διάγραμμα Venn των δεξιοτήτων του επιστήμονα δεδομένων
Εικόνα 1: Διάγραμμα Venn των δεξιοτήτων του επιστήμονα δεδομένων

Η επιστήμη των Δεδομένων είναι ένα διεπιστημονικό πεδίο του οποίου αντικείμενο είναι η εξαγωγή της γνώσης από αδόμητα ή δομημένα δεδομένα[1][2]. Αποτελεί τη συνέχεια επιστημών όπως η στατιστική, η ανάλυση προγνωστικών (predictive analytics), η μηχανική μάθηση (machine learning) και η εξόρυξη δεδομένων (data mining). Με τις τεχνολογικές προόδους τις δύο τελευταίες δεκαετίες, σε συνδυασμό, εν μέρη με την έκρηξη του διαδικτύου, έχει προκύψει μια νέα μορφή ανάλυσης δεδομένων.

Ο ορισμός του ακριβή ρόλου ενός επιστήμονα δεδομένων περιλαμβάνει ένα συγκεκριμένο υπόβαθρο σε κάποιους επιστημονικούς τομείς αλλά και ένα σύνολο ικανοτήτων που δεν έχουν προσδιοριστεί απολύτως καθώς η συγκεκριμένη επιστήμη αποτελεί το συνδυασμό περισσότερων από τους συνήθεις τομείς έρευνας. Εν γένει, ένας επιστήμονας δεδομένων χρησιμοποιεί τις τρέχουσες υπολογιστικές τεχνικές για την ανάλυση δεδομένων. Οι εκάστοτε ερευνητές, όπως οι στατιστικοί, οι φυσικοί, οι βιολόγοι και οι οικονομολόγοι από πάντα αναζητούσαν τη πληροφορία στους αντίστοιχους τομείς έρευνάς τους, πλέον, όμως, η σφαίρα της πληροφορίας έχει αλλάξει, ως εκ τούτου, απαιτείται ένα νέο σύνολο δεξιοτήτων για την αποδοτικότερη ανάλυση των δεδομένων που λαμβάνονται. Παράλληλα, παρατηρείται εκθετική αύξηση της υπολογιστικής ισχύος η οποία παρέχει νέες μεθόδους για να επεξεργαστούν οι συνεχώς αυξανόμενες ποσότητες δεδομένων που συλλέγονται κάθε δευτερόλεπτο της ημέρας.

Συνεπώς, κάθε επιστήμονας δεδομένων θα πρέπει να επενδύσει χρόνο να εξοικειωθεί με υπολογιστικές τεχνικές οι οποίες διαχειρίζονται τον όγκο δεδομένων και τη πολυπλοκότητα των δεδομένων σήμερα. Πέρα από τις μαθηματικές και τις στατιστικές γνώσεις, οι υπόλοιπες δεξιότητες ενός επιστήμονα δεδομένων δεν αφορούν έναν μόνο συγκεκριμένο τομέα.

Ορισμός[Επεξεργασία | επεξεργασία κώδικα]

Ορισμός 1[Επεξεργασία | επεξεργασία κώδικα]

Η επιστήμη των δεδομένων κάνει εκτεταμένη χρήση τεχνικών και θεωριών από διάφορους τομείς όπως τα μαθηματικά, η έρευνα, η επιστήμη της πληροφορίας και η επιστήμη των υπολογιστών. Στην πρακτική προσέγγιση περιλαμβάνει την ανάλυση σημάτων, τα προγνωστικά μοντέλα, τη μηχανική μάθηση, τη στατιστική, την εξόρυξη δεδομένων, τις βάσεις δεδομένων, τον προγραμματισμό αλλά, και τέλος, την τεχνητή νοημοσύνη. Οι μέθοδοι διαχείρισης των μεγάλων δεδομένων (big data) έχουν πιθανώς το μεγαλύτερο ενδιαφέρον της συγκεκριμένης επιστήμης, παρόλο που οι μέθοδοι που χρησιμοποιούνται στην επιστήμη δεδομένων δεν αφορούν αποκλειστικά μεγάλους όγκους δεδομένων.

Ορισμός 2[Επεξεργασία | επεξεργασία κώδικα]

Η επιστήμη δεδομένων είναι ένας επιστημονικός κλάδος που σχετίζεται με τις διαδικασίες και τα συστήματα μέσω των οποίων εξάγεται η γνώση ή επεξεργάζονται τα ίδια τα στοιχεία που προέκυψαν από τα δεδομένα σε διάφορες μορφές (είτε δομημένα είτε αδόμητα) και αποτελεί συνέχεια επιστημονικών κλάδων όπως η ανάλυση δεδομένων η στατιστική, η εξόρυξη δεδομένων και η ανάλυση των προβλέψεων.

Σχέση με άλλους επιστημονικούς Τομείς[Επεξεργασία | επεξεργασία κώδικα]

Ειδικότερα, η επιστήμη δεδομένων προέκυψε από το συνδυασμό σημαντικών εξελίξεων σε δυο υπο-περιοχές της πληροφορικής κατά τελευταία 15 χρόνια. Πρώτον τη σημαντική πρόοδο που σημειώθηκε σε αλγορίθμους και τεχνικές μηχανικής μάθησης και γενικότερα τεχνικές τεχνητής νοημοσύνης βασισμένες σε στατιστικές αρχές. Δεύτερον, στην περιοχή της διαχείρισης δεδομένων, που οδήγησαν μέσω νέων αλγορίθμων, αρχιτεκτονικών και συστημάτων σε τάξεις μεγέθους βελτίωση της ταχύτητας επεξεργασίας τεράστιων, ετερογενών, συνεχών μεταβαλλόμενων όγκων δεδομένων. Οι σύγχρονες επεξεργαστικές δυνατότητες συνδυασμένες με τον όγκο των δεδομένων δημιούργησαν ένα ενάρετο κύκλο ανάπτυξης υπολογιστικών τεχνικών που στηρίζονται στην επαναληπτική βελτίωση,τη προβλέψεων και, τέλος, τη λήψη αποφάσεων.

Δεξιότητες του επιστήμονα δεδομένων[Επεξεργασία | επεξεργασία κώδικα]

Οι δεξιότητες ενός επιστήμονα δεδομένων είναι οι παρακάτω όπως αυτές έχουν αναλυθεί από τον Drew Conway [3] και φαίνονται στην εικόνα 1.

  • Η στατιστική, επιτρέπει στον επιστήμονα να «ποσοτικοποιεί» τα φαινόμενα που παρατηρήθηκαν στα δεδομένα. Ενώ παράλληλα ο συνδυασμός της στατιστικής με τον προγραμματισμός και την αγορά εργασίας μπορούν να αποτελέσουν τα κυριότερα γνωρίσματα ενός επιστήμονα δεδομένων.
  • Οι πληροφορίες που προκύπτουν από τον προγραμματισμό, τη στατιστική και την εμπειρογνωμοσύνη των επιχειρήσεων δεν κάνουν τη διαφορά εκτός αν μπορείς να μεταδόσεις και να εξηγήσεις τα αποτελέσματα και στους υπόλοιπους οι οποίοι μπορεί να μην έχουν το ίδιο βάθος στη γνώση. Είναι, λοιπόν, αναγκαίο ο επιστήμονας δεδομένων να έχει και κοινωνικές δεξιότητες. Μπορεί, παραδείγματος χάρη, να χρειαστεί να εξηγηθούν τα αποτελέσματα μιας έρευνας σε έναν διευθυντή ώστε αυτός τελικά να αυξήσει τη χρηματοδότηση ή σε έναν προγραμματιστή ο οποίος δεν σκέφτεται τη παράμετρο της στατιστικής.

Ο Stephen Few είπε «Οι αριθμοί έχουν πάντα μια σημαντική ιστορία να διηγηθούν, απλά βασίζονται στο πόσο πειστικά εσύ θα τα παρουσιάσεις». Γεννάται, λοιπόν, και η ανάγκη για την κατάλληλη ικανότητα της αποδοτικής οπτικοποίησης των αποτελεσμάτων της έρευνας των δεδομένων, η οποία παρουσιάστηκε από το Forbes στο άρθρο με τίτλο "Data Storytelling: The Essential Data Science Skill Everyone Needs" [4] . Όπως φαίνεται και στην Εικόνα 2

Εικόνα 2 : Δεξιότητες "αφήγησης" των στατιστικών δεδομένων

για τη αποδοτικότερη, από άποψη της τελικής επιρροής των ακροατών, παρουσίαση των στατιστικών απαιτείται η κατάλληλη αφήγηση (narrative) η οπτικοποίηση των αποτελεσμάτων(visuals) και τα ίδια τα δεδομένα(data). Όταν τελικά συνδυαστούν αυτά τα τρία στοιχεία τότε μπορεί να παρουσιαστεί μια «ιστορία» η οποία θα επηρεάσει όπως ο αφηγητής θέλει τους ακροατές του και θα οδηγήσει στην επιθυμητή αλλαγή.

Κριτικές[Επεξεργασία | επεξεργασία κώδικα]

  • Παρόλο που η χρήση της έννοιας «επιστήμη δεδομένων» έχει κορεστεί, πλέον, στο εργασιακό περιβάλλον εταιριών παγκοσμίως, αρκετά ακαδημαϊκά ιδρύματα και ερευνητές δεν μπορούν να διακρίνουν τη διαφορά μεταξύ της επιστήμης δεδομένων και της στατιστικής. Ο Gil Press, έγραψε χαρακτηριστικά στο Forbes ότι ο τομέας της επιστήμης δεδομένων δεν έχει έναν ξεκάθαρο ορισμό και απλά ήρθε για να αντικαταστήσει τον τομέα των «business analytics», σε επίπεδο πτυχίου [5].

Παραπομπές[Επεξεργασία | επεξεργασία κώδικα]