Σύνολο δεδομένων

Ένα σύνολο δεδομένων (αγγλικά: data set ή dataset ) είναι μια συλλογή δεδομένων. Στην περίπτωση των δεδομένων σε πίνακες, ένα σύνολο δεδομένων αντιστοιχεί σε έναν ή περισσότερους πίνακες βάσης δεδομένων, όπου κάθε στήλη ενός πίνακα αντιπροσωπεύει μια συγκεκριμένη μεταβλητή και κάθε γραμμή αντιστοιχεί σε μια δεδομένη εγγραφή του εν λόγω συνόλου δεδομένων. Το σύνολο δεδομένων παραθέτει τιμές για κάθε μία από τις μεταβλητές, όπως για παράδειγμα το ύψος και το βάρος ενός αντικειμένου, για κάθε μέλος του συνόλου δεδομένων. Τα σύνολα δεδομένων μπορούν επίσης να αποτελούνται από μια συλλογή εγγράφων ή αρχείων[2].
Στον κλάδο των ανοικτών δεδομένων, το σύνολο δεδομένων είναι η μονάδα μέτρησης των πληροφοριών που δημοσιεύονται σε ένα δημόσιο αποθετήριο ανοικτών δεδομένων. Η ευρωπαϊκή πύλη data.europa.eu συγκεντρώνει περισσότερα από ένα εκατομμύριο σύνολα δεδομένων[3].
Ιδιότητες
[Επεξεργασία | επεξεργασία κώδικα]Διάφορα χαρακτηριστικά καθορίζουν τη δομή και τις ιδιότητες ενός συνόλου δεδομένων. Αυτά περιλαμβάνουν τον αριθμό και τους τύπους των χαρακτηριστικών ή των μεταβλητών και διάφορα στατιστικά μέτρα που εφαρμόζονται σε αυτά, όπως η τυπική απόκλιση και η κύρτωση[4].
Οι τιμές μπορεί να είναι αριθμοί, όπως πραγματικοί αριθμοί ή ακέραιοι αριθμοί, όπως επί παραδείγματι η αναπαράσταση του ύψους ενός ατόμου σε εκατοστά, αλλά μπορεί επίσης να είναι ονομαστικά δεδομένα (δηλαδή να μην αποτελούνται από αριθμητικές τιμές), όπως η αναπαράσταση της εθνικότητας ενός ατόμου. Γενικότερα, οι τιμές μπορεί να είναι οποιουδήποτε από τα είδη που περιγράφονται ως επίπεδο μέτρησης. Για κάθε μεταβλητή, οι τιμές είναι συνήθως όλες του ίδιου είδους. Μπορεί να υπάρχουν ελλείπουσες τιμές, οι οποίες πρέπει να δηλώνονται με κάποιο τρόπο.
Στη στατιστική, τα σύνολα δεδομένων προέρχονται συνήθως από πραγματικές παρατηρήσεις που λαμβάνονται με δειγματοληψία ενός στατιστικού πληθυσμού, και κάθε γραμμή αντιστοιχεί στις παρατηρήσεις ενός στοιχείου αυτού του πληθυσμού. Τα σύνολα δεδομένων μπορεί επίσης να δημιουργούνται από αλγορίθμους με σκοπό τη δοκιμή ορισμένων ειδών λογισμικού. Ορισμένα σύγχρονα λογισμικά στατιστικής ανάλυσης, όπως το SPSS, εξακολουθούν να παρουσιάζουν τα δεδομένα τους με τον κλασικό τρόπο δημιουργίας συνόλων δεδομένων. Εάν τα δεδομένα λείπουν ή είναι ύποπτα, μπορεί να χρησιμοποιηθεί μια μέθοδος υπολογισμού για τη συμπλήρωση ενός συνόλου δεδομένων[5].
Τυπολογία
[Επεξεργασία | επεξεργασία κώδικα]Στη στατιστική και την οικονομετρία, γίνεται διάκριση μεταξύ χρονοσειρών (ή χρονολογικές σειρές), στις οποίες μια ενιαία στατιστική μονάδα παρατηρείται σε διαφορετικές περιόδους, διατομεακών δεδομένων, στις οποίες παρατηρούνται πολλές στατιστικές μονάδες σε μια δεδομένη περίοδο, και δεδομένων πάνελ, στις οποίες παρατηρούνται πολλές στατιστικές μονάδες σε διαφορετικές περιόδους[6].
Στη μηχανική μάθηση, γίνεται διάκριση μεταξύ του συνόλου δεδομένων εκπαίδευσης, του συνόλου δεδομένων επικύρωσης και του συνόλου δεδομένων δοκιμής.
Κλασικά
[Επεξεργασία | επεξεργασία κώδικα]Αρκετά κλασικά σύνολα δεδομένων έχουν χρησιμοποιηθεί ευρέως στη στατιστική βιβλιογραφία:
- Σύνολο δεδομένων ίριδας[7] - Πολυμεταβλητό σύνολο δεδομένων που εισήγαγε ο Ρόναλντ Φίσερ (1936)[1] Παρέχεται online από το αρχείο μηχανικής μάθησης του Πανεπιστημίου της Καλιφόρνια-Ιρβιν.
- Βάση δεδομένων MNIST[8] - Εικόνες χειρόγραφων ψηφίων που χρησιμοποιούνται συνήθως για τη δοκιμή αλγορίθμων ταξινόμησης, ομαδοποίησης και επεξεργασίας εικόνας.
- Ανάλυση κατηγορικών δεδομένων - Σύνολα δεδομένων που χρησιμοποιούνται στο βιβλίο Εισαγωγή στην ανάλυση κατηγορικών δεδομένων, το οποίο παρέχεται online από το τμήμα UCLA Advanced Research Computing[9].
- Ανθεκτική στατιστική - σύνολα δεδομένων που χρησιμοποιούνται στην ανθεκτική παλινδρόμηση και την ανίχνευση ακραίων τιμών (Rousseeuw and Leroy, 1968). Παρέχεται στο διαδίκτυο από το Πανεπιστήμιο της Κολωνίας.[10].
- Χρονοσειρές - Τα δεδομένα που χρησιμοποιούνται στο βιβλίο του Τσάτφιλντ, Η ανάλυση χρονοσειρών, παρέχονται online από το StatLib[11].
- Ακραίες τιμές - Τα δεδομένα που χρησιμοποιούνται στο βιβλίο «Εισαγωγή στη στατιστική μοντελοποίηση των ακραίων τιμών» είναι ένα στιγμιότυπο των δεδομένων, όπως παρέχονται online από τον Στιούαρτ Κόουλς, τον συγγραφέα του βιβλίου.
- Ανάλυση δεδομένων κατά Bayes - Τα δεδομένα που χρησιμοποιούνται στο βιβλίο παρέχονται στο διαδίκτυο (σύνδεσμος αρχείου) από τον Άντριου Γκέλμαν, έναν από τους συγγραφείς του βιβλίου.
- Δεδομένα για το ήπαρ της Bupa[12] - Χρησιμοποιήθηκαν σε διάφορες εργασίες στη βιβλιογραφία της μηχανικής μάθησης (εξόρυξη δεδομένων).
- Κουαρτέτο του Άνσκομπ[13] - Μικρό σύνολο δεδομένων που απεικονίζει τη σημασία της γραφικής απεικόνισης των δεδομένων για την αποφυγή στατιστικών σφαλμάτων.
Παράδειγμα
[Επεξεργασία | επεξεργασία κώδικα]Φόρτωση συνόλων δεδομένων με χρήση Python:
pip install datasets
from datasets import load_dataset
dataset = load_dataset(NAME OF DATASET)
Εξωτερικοί σύνδεσμοι
[Επεξεργασία | επεξεργασία κώδικα]- English - Greek Dictionary of Pure and Applied Mathematics Εθνικό Μετσόβιο Πολυτεχνείο
- Αγγλοελληνικό Λεξικό Μαθηματικής Ορολογίας - Πανεπιστήμιο Κύπρου
- Ευκλείδεια Γεωμετρία - Πανελλήνιο Σχολικό Δίκτυο
- Θεωρία ομάδων και Λι αλγεβρών -Εθνικό Αρχείο Διδακτορικών Διατριβών
- Θεωρία Αριθμών και Εφαρμογές
- Υπολογιστική Θεωρία Αριθμών
- Καμπυλότητες και γεωμετρία του Riemann σε διαφορίσιμες πολλαπλότητες Εθνικό Αρχείο Διδακτορικών Διατριβών
- Μέθοδοι μηχανικής μάθησης βασισμένες σε έλεγχο μονοτροπικότητας Εθνικό Αρχείο Διδακτορικών Διατριβών
- Παράμετροι και Στατιστικά. Διωνυμική και Κανονική Κατανομή
Δείτε επίσης
[Επεξεργασία | επεξεργασία κώδικα]- Απαγορευτική αρχή του Πάουλι
- Κατανομή t-Student
- Κανονική κατανομή
- Αλγεβρική θεωρία αριθμών
- Διαφορική γεωμετρία
- Άρθουρ Στάνλεϋ Έντινγκτον
- Θεωρία αναπαραστάσεων
- Σουμπραμανιάν Τσαντρασεκάρ
- Ευκλείδειος χώρος
- Ένα προς ένα
- Σουμπραμανιάν Τσαντρασεκάρ
- Εφαρμοσμένα μαθηματικά
- Προβολικός χώρος
- Διακριτός μετασχηματισμός Φουριέ
- Θεμελιώδες θεώρημα αριθμητικής
- Αλγεβρική γεωμετρία
- Μιγαδικός αριθμός
- Άρθουρ Στάνλεϋ Έντινγκτον
- Τυπική απόκλιση
Βιβλιογραφία
[Επεξεργασία | επεξεργασία κώδικα]- Thomsen, Carsten (5 Απριλίου 2002). Database Programming with C#. Apress. ISBN 978-1-4302-1098-6.
- Freund, Rudolf· Littell, Ramon (29 Δεκεμβρίου 2000). SAS System for Regression. John Wiley & Sons. ISBN 978-0-471-41664-7.
- Weinberg, Sharon Lawner· Abramowitz, Sarah Knapp (3 Μαρτίου 2008). Statistics Using SPSS: An Integrative Approach. Cambridge University Press. ISBN 978-0-521-89922-2.
- Wang, Lipo· Jiao, Licheng (19 Σεπτεμβρίου 2006). Fuzzy Systems and Knowledge Discovery: Third International Conference, FSKD 2006, Xi'an, China, September 24-28, 2006, Proceedings. Springer Science & Business Media. ISBN 978-3-540-45916-3.
- Ebbers, Mike· Lovelace, Mary (23 Σεπτεμβρίου 2012). z/OS V1.13 DFSMS Technical Update. IBM Redbooks. ISBN 978-0-7384-3695-1.
- Coello, Carlos Coello· Albornoz, Alvaro de (27 Μαρτίου 2002). MICAI 2002: Advances in Artificial Intelligence: Second Mexican International Conference on Artificial Intelligence Merida, Yucatan, Mexico, April 22-26, 2002 Proceedings. Springer Science & Business Media. ISBN 978-3-540-43475-7.
- Wicklin, Rick (1 Οκτωβρίου 2010). Statistical Programming with SAS/IML Software. SAS Institute. ISBN 978-1-60764-770-6.
- Federal Register. Office of the Federal Register, National Archives and Records Service, General Services Administration. 2012.
- Buecker, Axel· Chakrabarty, Boudhayan (22 Μαρτίου 2016). Reduce Risk and Improve Security on IBM Mainframes: Volume 1 Architecture and Platform Security. IBM Redbooks. ISBN 978-0-7384-4010-1.
- Bailer, A. John (28 Ιανουαρίου 2020). Statistical Programming in SAS. CRC Press. ISBN 978-1-000-73542-0.
- Houser (2018). Nursing Research: Reading, Using and Creating Evidence. Jones & Bartlett Learning. ISBN 978-1-284-11004-3.
- Abell, Martha L.· Braselton, James P. (1999). Statistics with Mathematica. Academic Press. ISBN 978-0-12-041554-0.
Παραπομπές
[Επεξεργασία | επεξεργασία κώδικα]- ↑ 1,0 1,1 Fisher, R.A. (1963). «The Use of Multiple Measurements in Taxonomic Problems». en:Annals of Eugenics 7 (2): 179–188. doi:. http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf. Ανακτήθηκε στις 2007-05-22.
- ↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1–5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html. Ανακτήθηκε στις 2017-02-10.
- ↑ «European open data portal». European open data portal. European Commission. Ανακτήθηκε στις 23 Σεπτεμβρίου 2016.
- ↑ Jan M. Żytkow, Jan Rauch (2000). Principles of data mining and knowledge discovery. Springer. ISBN 978-3-540-66490-1.
- ↑ United Nations Statistical Commission· United Nations Economic Commission for Europe (2007). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies (PDF). United Nations Publications. σελ. 20. ISBN 978-9211169522.
- ↑ Cameron, A. Colin· Trivedi, Pravin K. (9 Μαΐου 2005). Microeconometrics: Methods and Applications. Cambridge University Press. ISBN 978-0-521-84805-3.
- ↑ «UCI Machine Learning Repository». archive.ics.uci.edu (στα Αγγλικά). Ανακτήθηκε στις 2 Μαρτίου 2025.
- ↑ «The EMNIST Dataset» (στα αγγλικά). NIST. 2017-04-04. https://www.nist.gov/itl/products-and-services/emnist-dataset.
- ↑ «Textbook Examples An Introduction to Categorical Data Analysis by Alan Agresti». Αρχειοθετήθηκε από το πρωτότυπο στις 31 Ιανουαρίου 2023. Ανακτήθηκε στις 2 Μαΐου 2023.
- ↑ «The ROUSSEEUW datasets». Αρχειοθετήθηκε από το πρωτότυπο στις 7 Φεβρουαρίου 2005.
- ↑ «StatLib :: Data, Software and News from the Statistics Community». Αρχειοθετήθηκε από το πρωτότυπο στις 2 Ιανουαρίου 2011.
- ↑ «Index of /pub/machine-learning-databases/liver-disorders». web.archive.org. 23 Οκτωβρίου 2017. Ανακτήθηκε στις 2 Μαρτίου 2025.
- ↑ u/michael+borcherds. «Anscombe's Quartet». GeoGebra (στα Αγγλικά). Ανακτήθηκε στις 2 Μαρτίου 2025.
- Bartle, Robert G. (1976). The Elements of Real Analysis (2nd έκδοση). Wiley. ISBN 978-0-471-05464-1.
- Cameron, A. C.· Trivedi, P. K. (1998). Regression analysis of count data
. Cambridge University Press. ISBN 978-0-521-63201-0.
- Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (Second έκδοση). New York: Springer-Verlag. ISBN 978-0-387-98247-2. MR 1633357.
- Gouriéroux, Christian (2000). «The Econometrics of Discrete Positive Variables: the Poisson Model». Econometrics of Qualitative Dependent Variables. New York: Cambridge University Press. σελίδες 270–83. ISBN 978-0-521-58985-7.
- Greene, William H. (2008). «Models for Event Counts and Duration». Econometric Analysis
(8th έκδοση). Upper Saddle River: Prentice Hall. σελίδες 906–944. ISBN 978-0-13-600383-0.[νεκρός σύνδεσμος]
- Hilbe, J. M. (2007). Negative Binomial Regression. Cambridge University Press. ISBN 978-0-521-85772-7.
- Jones, Andrew M.· και άλλοι. (2013). «Models for count data». Applied Health Economics. London: Routledge. σελίδες 295–341. ISBN 978-0-415-67682-3.
- Myers, Raymond H.· και άλλοι. (2010). «Logistic and Poisson Regression Models». Generalized Linear Models With Applications in Engineering and the Sciences (Second έκδοση). New Jersey: Wiley. σελίδες 176–183. ISBN 978-0-470-45463-3.
- «Redressing grievances with the treatment of dimensionless quantities in SI». Measurement (London, UK: Elsevier Ltd.) 109: 105–110. October 2017. doi: . NIHMS1633436. ISSN 0263-2241. PMID 33311828. Bibcode: 2017Meas..109..105F. [1] (15 pages)
- Narens, L. (1981b). «On the scales of measurement». Journal of Mathematical Psychology 24 (3): 249–275. doi: .
- Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research.
- Rozeboom, W. W. (1966). «Scaling theory and the nature of measurement». Synthese 16 (2): 170–233. doi: .
- Stevens, S. S. (June 7, 1946). «On the Theory of Scales of Measurement». Science 103 (2684): 677–680. doi: . PMID 17750512. Bibcode: 1946Sci...103..677S. http://www.academic.cmru.ac.th/phraisin/au/prasit/stevens/Stevens_Measurement.pdf. Ανακτήθηκε στις 16 September 2010.
- Stevens, S. S. (1951). Mathematics, measurement and psychophysics. In S. S. Stevens (Ed.), Handbook of experimental psychology (pp. 1–49). New York: Wiley.
- Erdélyi, T. (2009). «The Remez inequality for linear combinations of shifted Gaussians». Math. Proc. Camb. Phil. Soc. 146: 523–530. doi: .
- Trefethen, L.N. (2020). Approximation theory and approximation practice. SIAM. ISBN 978-1-61197-594-9. Ch. 1–6 of 2013 edition
Πηγές
[Επεξεργασία | επεξεργασία κώδικα]- Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
- NYC Open Data – free public data published by New York City agencies and other partners.
- Relational data set repository Αρχειοθετήθηκε 2018-03-07 στο Wayback Machine.
- Research Pipeline – a wiki/website with links to data sets on many different topics
- StatLib–JASA Data Archive
- UCI – a machine learning repository
- UK Government Public Data
- World Bank Open Data – Free and open access to global development data by World Bank
- Apostol, Tom M. (29 Ιουνίου 2013). Introduction to Analytic Number Theory. Springer Science & Business Media. ISBN 978-1-4757-5579-4.
- Miller, P. D. (2006), Applied Asymptotic Analysis, American Mathematical Society, ISBN 9780821840788, https://books.google.com/books?id=KQvqBwAAQBAJ
- Apostol, Thomas M. (1976), Introduction to Analytic Number Theory, New York: Springer, ISBN 0-387-90163-9, https://archive.org/details/introductiontoan00apos_0