2o μέρος εργασίας (Αρχείο cpu)

Σχετικά έγγραφα
E mail:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ & ΕΚΠΑΙΔΕΥΣΗ


Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Στατιστική Επιχειρήσεων Ι

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Τεχνικές Εξόρυξης Δεδομένων

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Ι. Preprocessing (Επεξεργασία train.arff):

ΚΕΦΑΛΑΙΟ 3 ο 3.1 ΑΝΑΛΥΣΗ ΒΑΘΜΟΛΟΓΙΑΣ Μαθήµατα γενικής παιδείας Ιστορία. Α. Σύνολο νοµού Αργολίδας

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΕΚΘΕΣΗ ΑΝΑΦΟΡΑΣ ΑΝΑΦΟΡΙΚΑ ME TA ΕΡΩΤΗΜΑΤΟΛΟΓΙΑ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΔΙΑΔΙΚΑΣΙΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Αναφορά μετρήσεων «ΥΠΕΡΙΩΝ» 2018 ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕΤΡΗΣΕΩΝ ΣΤΟ ΣΥΣΤΗΜΑ ΑΠΟΤΙΜΗΣΗΣ ΠΟΙΟΤΗΤΑΣ ΕΥΡΥΖΩΝΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ «ΥΠΕΡΙΩΝ»

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Αναγνώριση Προτύπων Εργασία 1η Classification

6.3 Αποτελέσματα Δοκιμαστικής Λειτουργίας, Αξιολόγηση και Προτάσεις Βελτίωσης και Έρευνας

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

DIP_04 Σημειακή επεξεργασία. ΤΕΙ Κρήτης

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Η ψηφιακή τεχνολογία στην ερευνητική δραστηριότητα Θέματα κουίζ. Υψηλάντης Γεώργιος, Βαβούρας Θεόδωρος Τμήμα Ιταλικής Γλώσσας & Φιλολογίας

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΘΕΣΣΑΛΙΑΣ - Τμήμα πολιτικών μηχανικών ΥΠΟΛΟΓΙΣΜΟΣ ΧΩΜΑΤΙΣΜΩΝ σύγκριση μεθόδων 17/11/2011. Πανεπιστήμιο Θεσσαλίας

Περιγραφική Στατιστική

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη01Εισαγωγή

Εφαρμοσμένη Στατιστική

ΚΕΦΑΛΑΙΟ 6 ΚΟΙΝΟΙ ΥΠΟΨΗΦΙΟΙ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Ερευνητικά Ερωτήματα

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στη Στατιστική

Εισαγωγή στην Εκτιμητική

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Εισαγωγή στην Κανονική Κατανομή. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Συστημάτων Προβλέψεων & Προοπτικής Forecasting System Unit

Ανάλυση της συµπεριφοράς των πεζών ως προς τη διάσχιση οδών σε αστικές περιοχές

Ενδεικτικές ασκήσεις ΔΙΠ 50

Το υπουργείο μας. Ατυχήματα - πρώτες βοήθειες στο σχολείο

Περιγραφική Στατιστική

13. ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

Privacy - k-anonymity. Πιλαλίδου Αλίκη

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Μαθηματικά: Αριθμητική και Άλγεβρα. Μάθημα 7 ο, Τμήμα Α

Βιοστατιστική ΒΙΟ-309

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

3 Τοποθετήσεις Διευθυντών/ντριών Διευθύνσεων και Προϊσταμένων Γραφείων για τα έτη 1982, 1983, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1995, 1997,

I2. Αριθμητικά περιγραφικά μέτρα

ΚΕΦΑΛΑΙΟ 2 ΔΙΕΥΘΥΝΣΗ ΔΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ ΝΟΜΟΥ ΧΑΝΙΩΝ ΣΧΟΛΙΚΟ ΕΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΚΑΙ ΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΥΣ

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΒΕΛΤΙΣΤΕΣ ΙΑ ΡΟΜΕΣ ΣΕ ΙΚΤΥΑ ΜΕΤΑΒΛΗΤΟΥ ΚΟΣΤΟΥΣ

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

κ. Μ. Φραγκουλόπουλος/ΕΙΜ Δρ. Ε. Σακελλαρίου/ΕΙΜ Καθ. Γ. Αυλωνίτης/ΕΛΑΜ Επ. Καθ. Π. Θεοδωρίδης/ΕΛΑΜ

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

DATA QUALITY & ANALYTICS DRIVING BUSINESS GROWTH AT YDROGIOS. Θάνος Αγγελόπουλος

Στατιστική Ι. Ενότητα 7: Κανονική Κατανομή. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Περιγραφική Στατιστική. Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Πίνακας κατανοµής συχνοτήτων και αθροιστικών συχνοτήτων. Σχετ.

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) Υπολογισμοί Παραμέτρων Πληθυσμού και Στατιστικών Δείγματος

Transcript:

2o μέρος εργασίας (Αρχείο cpu) Στο dataset cpu, υπάρχουν 209 instances που αντιστοιχούν σε διαφορετικά configurations ενός υπολογιστή. Εξετάζεται το κατά πόσο επηρεάζεται η απόδοση του υπολογιστή από τις διαφορετικές τιμές των 6 διαφορετικών attributesπαραγόντων. Τα attributes αυτά, είναι: ΜYCT, MMIN, MMAX, CACH, CHMIN, CHMAX και όλα είναι numeric. To ίδιο ισχύει και για το class-attribute Performance. Σκοπός της εργασίας είναι μέσω απλής οπτικής διερεύνησης των δεδομένων, να εξαχθούν κάποια συμπεράσματα όσον αφορά το συγκεκριμένο dataset. Έχουμε λοιπόν τα εξής: Α) MYCT Όσον αφορά το πρώτο attribute, βλέπουμε από τον πίνακα, ότι δεν υπάρχουν missing values, ότι έχει 60 distinct values (δηλαδή 60 διαφορετικές τιμές του attribute), και 19 unique values. Eπίσης αναφέρονται και κάποια σταστικά, συγκεκριμένα η μέση τιμή (mean), η τυπική απόκλιση (StdDev), η ελάχιστη και η μέγιστη τιμή (Minimum, Maximum).

Eπιπλέον, από το παραπάνω ιστόγραμμα, βλέπουμε πώς κατανέμεται το classattribute Performance συναρτήσει των διαφορετικών τιμών του MYCT. Παρατηρούμε ότι οι περισσότερες τιμές (137) ανήκουν στο διάστημα 17 έως 165,3, ενώ 34 ανήκουν στο διάστημα 165,3 έως 313,6. Όμοια συμπεράσματα προκύπτουν για όλο το εύρος των τιμών, ενώ ιδιαίτερο ενδιαφέρον παρουσιάζουν τα διαστήματα όπου υπάρχουν μόνο δύο καταγραφές, όπως στο διάστημα 1351,7 μέχρι 1500, διότι οι τιμές αυτές μπορούν να θεωρηθούν ως outliers, σε περίπτωση που γίνει περαιτέρω διερεύνηση και ανάλυση του dataset. Β)ΜΜΙΝ Όσον αφορά το δεύτερο attribute, βλέπουμε από τον αντίστοιχο πίνακα, ότι δεν υπάρχουν missing values, ότι έχει 25 distinct values και 11 unique values. Eπίσης αναφέρονται τα σταστικά: μέση τιμή (mean), τυπική απόκλιση (StdDev), ελάχιστη και μέγιστη τιμή (Minimum, Maximum). Από το αντίστοιχο ιστόγραμμα, βλέπουμε πώς κατανέμεται το class-attribute Performance συναρτήσει των διαφορετικών τιμών του MΜΙΝ. Βλέπουμε ότι η

πλειοψηφία των τιμών(151) ανήκει στο διάστημα 64 έως 2345,143, ενώ 27 τιμές ανήκουν στο διάστημα 2345,143 μέχρι 4626,286. Στο διάστημα 16032 έως 29718,857 δεν παρατηρούνται καταγραφές, ενώ στο διάστημα 29718,857 έως 32000 παρατηρείται μόνο μια καταγραφή η οποία πιθανόν να μπορεί να θεωρηθεί ως outlier σε μια δεύτερη ανάλυση του προβλήματος. C) MMAX Όσον αφορά το attribute ΜΜΑΧ, βλέπουμε από τον αντίστοιχο πίνακα, ότι δεν υπάρχουν missing values, ότι έχει 23 distinct values και 6 unique values. Eπίσης αναφέρονται τα σταστικά: μέση τιμή (mean), τυπική απόκλιση (StdDev), ελάχιστη και μέγιστη τιμή (Minimum, Maximum). Επίσης από το παραπάνω ιστόγραμμα, βλέπουμε πώς κατανέμεται το classattribute Performance συναρτήσει των διαφορετικών τιμών του MΜΑΧ. Στο διάστημα 64 έως 7168 παρατηρούνται 86 καταγραφές, ενώ στο 7168 έως 14272

παρατηρούνται 55 καταγραφές. Στο διάστημα 35584 έως 56896 παρατηρούνται μηδενικές καταγραφές. D) CACH Σχετικά με το attribute CACH, βλέπουμε από τον αντίστοιχο πίνακα, ότι δεν υπάρχουν missing values, ότι έχει 22 distinct values και 4 unique values. Eπίσης αναφέρονται τα σταστικά: μέση τιμή (mean), τυπική απόκλιση (StdDev), ελάχιστη και μέγιστη τιμή (Minimum, Maximum). Από το παραπάνω ιστόγραμμα, βλέπουμε πώς κατανέμεται το class-attribute Performance συναρτήσει των διαφορετικών τιμών του CACH. Οι περισσότερες καταγραφές εντοπίζονται στο διάστημα 0 μέχρι 23,73, ενώ μόλις δύο καταγραφές παρουσιάζονται στο διάστημα 232,725 έως 256.

E) CHMIN Σχετικά με το attribute CHMIN, βλέπουμε από τον αντίστοιχο πίνακα, ότι δεν υπάρχουν missing values, ότι έχει 15 distinct values και 4 unique values. Eπίσης αναφέρονται και εδώ τα σταστικά: μέση τιμή (mean), τυπική απόκλιση (StdDev), ελάχιστη και μέγιστη τιμή (Minimum, Maximum). Παρατηρούμε ότι η ελάχιστη τιμή εδώ είναι το μηδεν. Από το παραπάνω ιστόγραμμα, βλέπουμε πώς κατανέμεται το class-attribute Performance συναρτήσει των διαφορετικών τιμών του CHMIN. Στο ιστόγραμμα αυτού του attribute υπάρχουν πάρα πολλές μηδενικές τιμές, καθώς και τιμές αρκετά χαμηλές, π.χ. η τιμή 1 που ίσως να μπορεί να θεωρηθεί ως outlier. Η πλειοψηφία των καταγραφών (141) ανήκει στο διάστημα 0 έως 4 και ανάλογα συμπεράσματα μπορούμε να βγάλουμε για όλο το εύρος των τιμών.

F) CHMAX Σχετικά με το attribute CHMAX, βλέπουμε από τον αντίστοιχο πίνακα, ότι δεν υπάρχουν missing values, ότι έχει 31 distinct values και 9 unique values. Eπίσης αναφέρονται και εδώ τα σταστικά: μέση τιμή (mean), τυπική απόκλιση (StdDev), ελάχιστη και μέγιστη τιμή (Minimum, Maximum), με ελάχιστη τιμή το μηδεν. Από το παραπάνω ιστόγραμμα, βλέπουμε πώς κατανέμεται το class-attribute Performance συναρτήσει των διαφορετικών τιμών του CHMAX. Στο ιστόγραμμα αυτού του attribute η πλειοψηφία των τιμών (128) ανήκει στο διάστημα 0 έως 14667, ενώ υπάρχουν κάποιες μηδενικές τιμές, καθώς και τιμές αρκετά χαμηλές, π.χ. οι ράβδοι με τιμή 2.

G) Class (cpu performance) Στον παραπάνω πίνακα βλέπουμε ότι δεν υπάρχουν missing values,ότι υπάρχουν 104 distinct values και 60 unique values. Eπίσης αναφέρονται και εδώ τα σταστικά: μέση τιμή (mean), τυπική απόκλιση (StdDev), ελάχιστη και μέγιστη τιμή (Minimum, Maximum). Στο παραπάνω γράφημα, βλέπουμε πως είναι κατανεμημένο το class-attribute cpu performance στο σύνολο του πληθυσμού μας. Παρατηρούμε ότι οι επικρατέστερες τιμές είναι οι χαμηλές, με την πλειοψηφία (160) να ανήκει στο διάστημα 15 έως 109,077, ενώ στο υπόλοιπο εύρος τιμών παρατηρούμε πολύ λιγότερες τιμές. Λόγω του μεγάλου όγκου των δεδομένων για μια ασφαλή εξαγωγή association rules προτείνεται η χρήση αλγορίθμων, καθώς οπτικά μπορεί να γίνει μόνο μια απλή περιγραφή του dataset.