Μετάβαση στο περιεχόμενο

Σύνολο δεδομένων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Διάφορα διαγράμματα του συνόλου πολυμεταβλητών δεδομένων Iris flower data set που εισήγαγε ο Ρόναλντ Φίσερ.[1]

Ένα σύνολο δεδομένων (αγγλικά: data set ή dataset ) είναι μια συλλογή δεδομένων. Στην περίπτωση των δεδομένων σε πίνακες, ένα σύνολο δεδομένων αντιστοιχεί σε έναν ή περισσότερους πίνακες βάσης δεδομένων, όπου κάθε στήλη ενός πίνακα αντιπροσωπεύει μια συγκεκριμένη μεταβλητή και κάθε γραμμή αντιστοιχεί σε μια δεδομένη εγγραφή του εν λόγω συνόλου δεδομένων. Το σύνολο δεδομένων παραθέτει τιμές για κάθε μία από τις μεταβλητές, όπως για παράδειγμα το ύψος και το βάρος ενός αντικειμένου, για κάθε μέλος του συνόλου δεδομένων. Τα σύνολα δεδομένων μπορούν επίσης να αποτελούνται από μια συλλογή εγγράφων ή αρχείων[2].

Στον κλάδο των ανοικτών δεδομένων, το σύνολο δεδομένων είναι η μονάδα μέτρησης των πληροφοριών που δημοσιεύονται σε ένα δημόσιο αποθετήριο ανοικτών δεδομένων. Η ευρωπαϊκή πύλη data.europa.eu συγκεντρώνει περισσότερα από ένα εκατομμύριο σύνολα δεδομένων[3].

Διάφορα χαρακτηριστικά καθορίζουν τη δομή και τις ιδιότητες ενός συνόλου δεδομένων. Αυτά περιλαμβάνουν τον αριθμό και τους τύπους των χαρακτηριστικών ή των μεταβλητών και διάφορα στατιστικά μέτρα που εφαρμόζονται σε αυτά, όπως η τυπική απόκλιση και η κύρτωση[4].

Οι τιμές μπορεί να είναι αριθμοί, όπως πραγματικοί αριθμοί ή ακέραιοι αριθμοί, όπως επί παραδείγματι η αναπαράσταση του ύψους ενός ατόμου σε εκατοστά, αλλά μπορεί επίσης να είναι ονομαστικά δεδομένα (δηλαδή να μην αποτελούνται από αριθμητικές τιμές), όπως η αναπαράσταση της εθνικότητας ενός ατόμου. Γενικότερα, οι τιμές μπορεί να είναι οποιουδήποτε από τα είδη που περιγράφονται ως επίπεδο μέτρησης. Για κάθε μεταβλητή, οι τιμές είναι συνήθως όλες του ίδιου είδους. Μπορεί να υπάρχουν ελλείπουσες τιμές, οι οποίες πρέπει να δηλώνονται με κάποιο τρόπο.

Στη στατιστική, τα σύνολα δεδομένων προέρχονται συνήθως από πραγματικές παρατηρήσεις που λαμβάνονται με δειγματοληψία ενός στατιστικού πληθυσμού, και κάθε γραμμή αντιστοιχεί στις παρατηρήσεις ενός στοιχείου αυτού του πληθυσμού. Τα σύνολα δεδομένων μπορεί επίσης να δημιουργούνται από αλγορίθμους με σκοπό τη δοκιμή ορισμένων ειδών λογισμικού. Ορισμένα σύγχρονα λογισμικά στατιστικής ανάλυσης, όπως το SPSS, εξακολουθούν να παρουσιάζουν τα δεδομένα τους με τον κλασικό τρόπο δημιουργίας συνόλων δεδομένων. Εάν τα δεδομένα λείπουν ή είναι ύποπτα, μπορεί να χρησιμοποιηθεί μια μέθοδος υπολογισμού για τη συμπλήρωση ενός συνόλου δεδομένων[5].

Στη στατιστική και την οικονομετρία, γίνεται διάκριση μεταξύ χρονοσειρών (ή χρονολογικές σειρές), στις οποίες μια ενιαία στατιστική μονάδα παρατηρείται σε διαφορετικές περιόδους, διατομεακών δεδομένων, στις οποίες παρατηρούνται πολλές στατιστικές μονάδες σε μια δεδομένη περίοδο, και δεδομένων πάνελ, στις οποίες παρατηρούνται πολλές στατιστικές μονάδες σε διαφορετικές περιόδους[6].

Στη μηχανική μάθηση, γίνεται διάκριση μεταξύ του συνόλου δεδομένων εκπαίδευσης, του συνόλου δεδομένων επικύρωσης και του συνόλου δεδομένων δοκιμής.

Αρκετά κλασικά σύνολα δεδομένων έχουν χρησιμοποιηθεί ευρέως στη στατιστική βιβλιογραφία:

  • Σύνολο δεδομένων ίριδας[7] - Πολυμεταβλητό σύνολο δεδομένων που εισήγαγε ο Ρόναλντ Φίσερ (1936)[1] Παρέχεται online από το αρχείο μηχανικής μάθησης του Πανεπιστημίου της Καλιφόρνια-Ιρβιν.
  • Βάση δεδομένων MNIST[8] - Εικόνες χειρόγραφων ψηφίων που χρησιμοποιούνται συνήθως για τη δοκιμή αλγορίθμων ταξινόμησης, ομαδοποίησης και επεξεργασίας εικόνας.
  • Ανάλυση κατηγορικών δεδομένων - Σύνολα δεδομένων που χρησιμοποιούνται στο βιβλίο Εισαγωγή στην ανάλυση κατηγορικών δεδομένων, το οποίο παρέχεται online από το τμήμα UCLA Advanced Research Computing[9].
  • Ανθεκτική στατιστική - σύνολα δεδομένων που χρησιμοποιούνται στην ανθεκτική παλινδρόμηση και την ανίχνευση ακραίων τιμών (Rousseeuw and Leroy, 1968). Παρέχεται στο διαδίκτυο από το Πανεπιστήμιο της Κολωνίας.[10].
  • Χρονοσειρές - Τα δεδομένα που χρησιμοποιούνται στο βιβλίο του Τσάτφιλντ, Η ανάλυση χρονοσειρών, παρέχονται online από το StatLib[11].
  • Ακραίες τιμές - Τα δεδομένα που χρησιμοποιούνται στο βιβλίο «Εισαγωγή στη στατιστική μοντελοποίηση των ακραίων τιμών» είναι ένα στιγμιότυπο των δεδομένων, όπως παρέχονται online από τον Στιούαρτ Κόουλς, τον συγγραφέα του βιβλίου.
  • Ανάλυση δεδομένων κατά Bayes - Τα δεδομένα που χρησιμοποιούνται στο βιβλίο παρέχονται στο διαδίκτυο (σύνδεσμος αρχείου) από τον Άντριου Γκέλμαν, έναν από τους συγγραφείς του βιβλίου.
  • Δεδομένα για το ήπαρ της Bupa[12] - Χρησιμοποιήθηκαν σε διάφορες εργασίες στη βιβλιογραφία της μηχανικής μάθησης (εξόρυξη δεδομένων).
  • Κουαρτέτο του Άνσκομπ[13] - Μικρό σύνολο δεδομένων που απεικονίζει τη σημασία της γραφικής απεικόνισης των δεδομένων για την αποφυγή στατιστικών σφαλμάτων.

Φόρτωση συνόλων δεδομένων με χρήση Python:

pip install datasets
from datasets import load_dataset
dataset = load_dataset(NAME OF DATASET)

Εξωτερικοί σύνδεσμοι

[Επεξεργασία | επεξεργασία κώδικα]
  1. 1,0 1,1 Fisher, R.A. (1963). «The Use of Multiple Measurements in Taxonomic Problems». en:Annals of Eugenics 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf. Ανακτήθηκε στις 2007-05-22. 
  2. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1–5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html. Ανακτήθηκε στις 2017-02-10. 
  3. «European open data portal». European open data portal. European Commission. Ανακτήθηκε στις 23 Σεπτεμβρίου 2016. 
  4. Jan M. Żytkow, Jan Rauch (2000). Principles of data mining and knowledge discovery. Springer. ISBN 978-3-540-66490-1. 
  5. United Nations Statistical Commission· United Nations Economic Commission for Europe (2007). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies (PDF). United Nations Publications. σελ. 20. ISBN 978-9211169522. 
  6. Cameron, A. Colin· Trivedi, Pravin K. (9 Μαΐου 2005). Microeconometrics: Methods and Applications. Cambridge University Press. ISBN 978-0-521-84805-3. 
  7. «UCI Machine Learning Repository». archive.ics.uci.edu (στα Αγγλικά). Ανακτήθηκε στις 2 Μαρτίου 2025. 
  8. «The EMNIST Dataset» (στα αγγλικά). NIST. 2017-04-04. https://www.nist.gov/itl/products-and-services/emnist-dataset. 
  9. «Textbook Examples An Introduction to Categorical Data Analysis by Alan Agresti». Αρχειοθετήθηκε από το πρωτότυπο στις 31 Ιανουαρίου 2023. Ανακτήθηκε στις 2 Μαΐου 2023. 
  10. «The ROUSSEEUW datasets». Αρχειοθετήθηκε από το πρωτότυπο στις 7 Φεβρουαρίου 2005. 
  11. «StatLib :: Data, Software and News from the Statistics Community». Αρχειοθετήθηκε από το πρωτότυπο στις 2 Ιανουαρίου 2011. 
  12. «Index of /pub/machine-learning-databases/liver-disorders». web.archive.org. 23 Οκτωβρίου 2017. Ανακτήθηκε στις 2 Μαρτίου 2025. 
  13. u/michael+borcherds. «Anscombe's Quartet». GeoGebra (στα Αγγλικά). Ανακτήθηκε στις 2 Μαρτίου 2025.