6. ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ



Σχετικά έγγραφα
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρο-μεσαίες Επιχειρήσεις»

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Ευφυής Προγραμματισμός

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Business Development, SAP Hellas 01/12/2007

Τεχνικές Εξόρυξης Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Άμεση Αναλυτική Επεξεργασία (OLAP)

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρομεσαίες Επιχειρήσεις»

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

Δέντρα Απόφασης (Decision(

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΧΡΟΝΟΣΕΙΡΕΣ. Διαχείριση Πληροφοριών

Κεφάλαιο 8 Πληροφοριακά συστήματα. Εφαρμογές Πληροφορικής Κεφ. 8 Καραμαούνας Πολύκαρπος

Υπερπροσαρμογή (Overfitting) (1)

Πολυδιάστατη Ανάλυση Δεδομένων

Συστήματα Πληροφοριών Διοίκησης

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Έρευνα Μάρκετινγκ Ενότητα 5

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΔΙΑΧΕΙΡΙΣΗ ΕΡΓΑΣΙΩΝ ΔΙ.ΑΠ. ΕΠΕΚΤΑΣΗ ΕΦΑΡΜΟΓΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΡΓΩΝ & ΠΛΗΡΩΜΩΝ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

CYPDIS BI Platform. ών Υπηρεσιών

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Πληροφοριακά Συστήματα Διοίκησης

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Γραμμικός Προγραμματισμός

Άμεση Αναλυτική Επεξεργασία (OLAP)

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Οικονομία - Επιχειρήσεις Μάρκετινγκ 1

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΟΛΟΚΛΗΡΩΜΕΝΟ ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΝΑΥΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΟΠΣ-ΝΕ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

Information Technology for Business

Ανάκτηση Πληροφορίας

Ηλεκτρονικό Επιχειρείν & Νέες Τεχνολογίες για Επιχειρηματικότητα ΔΕΟ45

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Πωλήσεις. Μπίτης Αθανάσιος 2017

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Μοντέλα Διαχείρισης Αποθεμάτων

Πληροφοριακά Συστήματα Διοίκησης

Χρηματοοικονομική Διοίκηση ΙΙ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

DO Y O Y U S PEAK K F U F TURE R?

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Τι είναι πληροφοριακό σύστημα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Η ΑΓΟΡΑ. Νικόλαος Καρανάσιος Επίκουρος Καθηγητής

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Επιχειρησιακός Σχεδιασμός & Επιχειρηματικότητα

2. ΣΥΓΚΕΝΤΡΩΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΠΑΡΑΓΩΓΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Στρατηγικό Σχεδιασµό Πληροφοριακών Συστηµάτων

ATHENS SCHOOL OF MANAGEMENT (THESSALONIKI) Η ΣΥΝΕΙΣΦΟΡΑ ΤΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΣΤΗΝ ΑΠΟΚΤΗΣΗ ΤΟΥ ΑΝΤΑΓΩΝΙΣΤΙΚΟΥ ΠΛΕΟΝΕΚΤΗΜΑΤΟΣ ΤΗΣ ΕΠΙΧΕΙΡΗΣΗΣ

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

ΕΠΙΔΡΩΝΤΕΣ ΠΑΡΑΓΟΝΤΕΣ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ ΜΑΡΚΕΤΙΝΓΚ

Βασικά σημεία διάλεξης. λογιστική. Χρηματοοικονομική λογιστική (ΧΛ) ιοικητική Λογιστική. Λογιστική και Χρηματοοικονομική (Π.Μ.Σ.)

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εξόρυξη Γνώσης από εδοµένα (data mining)

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management

Ζητήματα ηήμ με τα δεδομένα

Αναγνώριση Προτύπων Ι

ΕργαλείοΠληροφόρησης καιανάπτυξης

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Transcript:

Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Α Ι Γ Α Ι Ο Υ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Σ Υ Σ Τ Η Μ Α Τ Α Υ Π Ο Σ Τ Η Ρ Ι Ξ Η Σ Α Π Ο Φ Α Σ Ε Ω Ν Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Α Κ Ε Σ Π Α Ρ Α Δ Ο Σ Ε Ι Σ Τ Ε Υ Χ Ο Σ Ι Ι Ι Ευριπίδης Λουκής Επίκουρος Καθηγητής Επιμέλεια: Φραγκιαδάκης Ιωάννης Δρογκάρης Προκόπης

6. ΑΠΟΘΗΚΕΣ ΔΕΔΟΜΕΝΩΝ 6.. Εισαγωγή Ι. Δεδομένα On-Line Transaction Processing (OLTP) Συστημάτων Λεπτομερείς εγγραφές: λεπτομερή δεδομένα για κάθε στοιχειώδη πράξη συναλλαγή που η επιχείρηση πραγματοποιεί. Π.χ. Αρχείο Πωλήσεων α/α ΠΡΟΪΟΝ ΠΟΣΟΤΗΤΑ ΜΟΝ.ΤΙΜΗ ΠΕΛΑΤΗΣ ΠΕΡΙΟΧΗ ΗΜΕΡ/ΝΙΑ ΕΚΤΥΠΩΤΗΣ 0 00 ΕURO-BANK ΣΑΜΟΣ 5/5/004 Η/Υ 5 500 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΑ 0/6/004 ΑΙΓΑΙΟΥ.................. Οι λεπτομέρειες αυτές είναι απαραίτητες για την διεκπεραίωση της κάθε στοιχειώδους πράξης συναλλαγής. Όμως, για την υποστήριξη της λήξης αποφάσεων χρειαζόμαστε διαφορετικής μορφής δεδομένα π.χ. συνολικές πωλήσεις σε ανά προϊόν/πελάτη/περιοχή ΙΙ. Δεδομένα Υποστήριξης Αποφάσεων (OLAP On-Line Analytical Processing) Συγκεντρωτικά δεδομένα για κάποια σημαντικά μεγέθη που αποτελούν μέτρα επιτυχίας καλής λειτουργίας : Measures π.χ. πωλήσεις (έσοδα), προμήθειες (έξοδα), παραγωγή (αξία) Είτε συνολικά, είτε ως προς κάποια άλλα μεγέθη, που αποτελούν σημαντικές διαστάσεις των παραπάνω Measures, π.χ. ανά χρονική περίοδο, περιοχή, προϊόν, πελάτη : Dimensions Σε κάθε Dimension έχουμε διάφορα επίπεδα λεπτομέρειας (levels), ως προς τα οποία θέλουμε να υπολογίζονται συγκεντρωτικά στοιχεία των Measures,μέχρι ενός μέγιστου επιπέδου λεπτομέρειας

Συχνά κινούμεθα από υψηλότερα σε χαμηλότερα επίπεδα λεπτομέρειας των Measures (drill down), είτε και αντίστροφα από χαμηλότερα επίπεδα λεπτομέρειας των Measures σε υψηλότερα (drill (roll) up) Π.χ. Συνολικές πωλήσεις στην Ελλάδα για το έτος 004 :.000.000 Βόρεια Ελλάδα Νότια Ελλάδα Νησιά 00.000 00.000 700.000 Αιγαίου Ιονίου Κρήτη 50.000 550.000 00.000 Κέρκυρα Λευκάδα Κεφαλληνία 450.000 0.000 0.000 Σε κάθε Dimension: σε κάθε level έχουμε έναν αριθμό τιμών, για τις οποίες υπολογίζονται συγκεντρωτικά δεδομένα του Measure. Τα διάφορα level και οι αντίστοιχες τιμές καθενός συγκροτούν μια ιεραρχία (Hierarchy). Π.χ.

Ελλάς Β. Ελλάς Ν. Ελλάς Νησιά Αιγαίου Ιονίου Κρήτη Level: Υποπεριοχή Level : Χώρα Level: Μείζων Περιοχή Κέρκυρα Λευκάδα Κεφαλληνία Level: Νομός Συχνά για την υποστήριξη της λήψης αποφάσεων, χρειαζόμαστε συγκεντρωτικά δεδομένα των Measures ως προς πολλές Διαστάσεις ταυτόχρονα π.χ. πωλήσεις ανά περιοχή και ανά προϊόν. Περ. Α Περ. Β Περ. Γ Περ. Δ Πρ. Α Πρ. Β Πρ. Γ Διαφορετικά Επίπεδα Λεπτομέρειας σε κάθε Διάσταση Π.χ. πωλήσεις ανά περιοχή, ανά προϊόν, ανά τρίμηνο Γενικά χρειάζονατι συγκεντρωτικά δεδομένα που έχουν την μορφή διαφόρων Μονοδιάστατων, Διδιάστατων, Τρισδιάστατων,... Πολυδιάστατων Κύβων (Multidimensional Cubes), ως προς διάφορες Διαστάσεις, με συγκεντρωτικά στοιχεία των Measures 4

Q4 Q Q Q Πρ. Α Τρισδιάστατος Κύβος Πρ. Β Πρ. Γ Πρ. Δ ΠΑ ΠΒ ΠΓ ΠΔ 5

6.. Αρχεία Δεδομένων Συστήματος Υποστήριξης Αποφάσεων Μια πολύ σημαντική συνιστώσα ενός Συστήματος Υποστήριξης Αποφάσεων (ΣΥΑ) είναι τα ιδιαίτερα αρχεία δεδομένων του, δεδομένου ότι: Η λήψη αποφάσεων (και μάλιστα όλες οι φάσες της: Διάγνωση Προβλήματος Ευκαιρίας, Κατανόηση, Προσδιορισμός Εναλλακτικών Επιλογών, Αξιολόγησή τους, Επιλογή Βέλτιστης Απόφασης) βασίζεται σε μεγάλο βαθμό σε κάποια δεδομένα (τόσο εσωτερικά όσο και εξωτερικά ): Τα εσωτερικά δεδομένα αφορούν : πωλήσεις, προμήθειες, παραγωγή, χρήση πόρων, εισπράξεις, πληρωμές. Τα δεδομένα αυτά υπάρχουν διασκορπισμένα σε διάφορα εσωτερικά Π.Σ. διεκπεραίωσης εργασιών (OLTP): - διάφορες πλατφόρμες υλικού και λογισμικού - διάφορες μορφές αρχείων - διάφορες κωδικοποιήσεις - διάφορες σειρές πεδίων και σημασίες τους - τεχνολογική και σημασιακή ετερεγένεια Τα εξωτερικά δεδομένα υπάρχουν διεσπαρμένα σε CD-ROM s, στο ελεύθερο Internet, σε ειδικές ηλεκτρονικές Β.Δ. (περιορισμένης πρόσβασης επ αμοιβή), σε κρατικούς/ διεθνείς οργανισμούς, επαγγελματικούς συνδέσμους, τράπεζες, χρηματιστήρια, εφημερίδες & περιοδικά, στατιστικές υπηρεσίες (Eurostat). Αφορούν: - ζήτηση, προσφορά, τιμές, ανταγωνισμό κ.λ.π. σε διάφορες αγορές - επιτόκια κόστος χρήματος - διακυμάνσεις μετόχων, αξιών - ανταγωνιστές - αγορά εργασίας - μακρο-οικονομικά μεγέθη και δημογραφικά στοιχεία χωρών, περιοχών Αρχικά για την υποστήριξη της λήψης αποφάσεων χρησιμοποιούνται κυρίως οι τυποποιημένες αναφορές (Reports) και οθόνες πληροφόρησης των OLTP συστημάτων (παράγονται ανά τακτά χρονικά διαστήματα από Διεύθυνση Πληροφορικής και διανέμονται στους Χρήστες) 6

Στη συνέχεια ειδικές δημιουργούνται ειδικές αναφορές (Special Reports) με διάφορα Εργαλεία Ερωτήσεων & Αναφορών (Queries Report Tool), τα οποία παρέχουν τις εξής δυνατότητες: Άντληση ενός υποσυνόλου των δεδομένων των αρχείων μίας εφαρμογής (π.χ. μέσω μίας εντολής SQL Select) Επεξεργασία (αναλυτικά συγκεντρωτικά στοιχεία) Κατάλληλη παρουσίασή τους (στην οθόνη ή σε εκτύπωση) Τα εργαλεία αυτά είναι χρησιμοποιήσιμα τόσο από ειδικούς πληροφορικής όσο και από χρήστες ( μεγάλη ανακούφιση της Δ. Πληροφορικής). Όμως οι παραπάνω πολυάριθμες αναφορές απαιτούν μεγάλη υπολογιστική ισχύ π.χ. Συνολικές πωλήσεις προϊόντων ομάδος Α στην περιοχή Β κατά το χρονικό διάστημα Γ Απαιτείται η επεξεργασία χιλιάδων εγγραφών επιλογή υπολογισμός συγκεντρωτικών στοιχείων, και συχνά σύγκριση με τα αντίστοιχα του προηγούμενου έτους, Γραφικά, κλπ. πράγμα το οποίο προκαλεί υπερφόρτωση και προβλήματα λειτουργίας των OLTP συστημάτων ( καθυστερήσεις, μεγάλοι χρόνοι απόκρισης, παγώματα...) Το παραπάνω πρόβλημα επιδεινώνεται λόγω του ότι τα OLTP συστήματα είναι σχεδιασμένα (βελτιστοποιημένα) για επεξεργασία στοιχειωδών συναλλαγών (insert, delete, update μικρού αριθμού εγγραφών), αλλά όχι για τις παραπάνω επεξεργασίες μεγάλου αριθμού εγγραφών, που περιλαμβάνουν φιλτραρίσματα κάποιων από αυτές, υπολογισμό συγκεντρωτικών στοιχείων, κλπ. Για όλους αυτούς τους λόγους συχνά είναι απαραίτητο ένα ΣΥΑ να περιλαμβάνει ιδιαίτερα αρχεία (κατάλληλα σχεδιασμένα και βελτιστοποιημένα), τα οποία συνήθως αποθηκεύονται σε ιδιαίτερο υπολογιστή υψηλής υπολογιστικής ισχύος Τα ιδιαίτερα αυτά αρχεία ονομάζονται Αποθήκη Δεδομένων (Data Warehouse), η οποία ορίζεται ως: Αποθήκη με δεδομένα από πολλές ετερογενείς πηγές (εσωτερικές και εξωτερικές), οργανωμένα σε ένα ενιαίο σχήμα σε ένα υπολογιστικό σύστήμα, τα οποία υποβοηθούν τη λήψη αποφάσεων 7

Η αποθήκη δεδομένων τροφοδοτείται ανά τακτά χρονικά διαστήματα από τα λεπτομερή δεδομένα των αρχείων των διαφόρων OLTP συστημάτων της επιχείρησης Client Πηγή Δεδομένων στην Αθήνα Πηγή Δεδομένων στην Θεσ/κη Clean Transform Integrate Load Αποθήκη Δεδομένων Query and analysis tools Πηγή Δεδομένων στην Πάτρα Client Ορισμός Αποθήκης Δεδομένων κατά W.H.Inmon: Μία θεματοκεντρική ( subject oriented ) ενοποιημένη και ολοκληρωμένη ( integrated ) μεγάλου χρονικού ορίζοντα ( time variant ) και σταθερή ( non volatile) συλλογή δεδομένων, η οποία υποστηρίζει την λήψη διοικητικών αποφάσεων :. Οργανωμένη με βασικό άξονα όχι κάποιες συναλλαγές, αλλά κάποια βασικά θέματα- μεγέθη της επιχείρησης, π.χ. πωλήσεις πελάτες,προμηθευτές,προϊόντα.. Ενοποίηση και ολοκλήρωση (ως προς την τεχνολογία, την κωδικοποιήση και την σημασία) δεδομένων από διάφορες πηγές, αρχεία, κανάλια διανομής, κλπ.. Τροφοδότηση ενημέρωση ( load update ) ανά τακτά χρονικά διαστήματα Τα λεπτομερή δεδομένα των αρχείων των διαφόρων OLTP συστημάτων της επιχείρησης ονομάζονται διεκπεραιωτικά (operational) δεδομένα (ΔΔ), διότι χρησιμεύουν για την διεκπεραίωση των συναλλαγών και άλλων πρακτικών εργασιών της επιχείρησης, 8

ενώ αντίθετα τα (συγκεντρωτικά) δεδομένα των αρχείων της Αποθήκης Δεδομένων ονομάζονται αναλυτικά (analytical) δεδομένα (ΑΔ), διότι χρησιμεύουν για την πραγματοποίηση αναλύσεων με στόχο την υποστήριξη της λήψης αποφάσεων στην επιχείρηση. Μεταξύ των δυο αυτών μεγάλων κατηγοριών δεδομένων υπάρχουν σημαντικές διαφορές:. Τα ΔΔ έχουν υψηλή ακρίβεια και άμεση ενημέρωση (συνεχή αλλαγή), ενώ τα ΑΔ πρέπει να προφυλάσσονται από τις συνεχείς αλλαγές (η ανάλυση στις 0.00 πμ δεν μπορεί να να δίδει διαφορετικά αποτελέσματα από αυτήν των.00 πμ) τα ΑΔ ενημερώνονται από τα ΔΔ ανά τακτά χρονικά διαστήματα. Τα ΔΔ είναι πλήρως αναλυτικά ( βλέπουν τα δέντρα ), ενώ τα ΑΔ είναι γενικά πολύ συγκεντρωτικότερα ( βλέπουν το δάσος ). Οι χρήστες των ΔΔ είναι απλοί υπάλληλοι και εκτελούν συγκεκριμένες εργασίες (μικρές συναλλαγές: κάθε μία από αυτές insert, delete, update - εγγραφών) και πλήρως προβλέψιμες, ενώ οι χρήστες των AΔ είναι υψηλότερου επιπέδου στελέχη και εκτελούν μεγάλης υπολογιστικής ισχύος επεξεργασίες (κάθε μία από αυτές μπορεί να περιλαμβάνει την επεξεργασία εκατομμυρίων εγγραφών) που δεν είναι προβλέψιμες (ούτε καν από τους ίδιους: trial & error) 4. Τα ΔΔ είναι R/W, ενώ τα ΑΔ είναι κύρια Read Only 5. Tα τηρούμενα ΔΔ συνήθως καλύπτουν μικρό βάθος χρόνου (π.χ. τελευταίο έτος), ενώ τα παλαιότερα από HDD Tape, Optical Disk). Αντίθετα τα ΑΔ πρέπει να καλύπτουν μεγαλύτερο βάθος χρόνου (π.χ. τελευταία 5ετία): διαχρονικές συγκρίσεις 6. Τα ΑΔ πρέπει να κατανοούνται καλύτερα από τους χρήστες τους από ότι τα ΔΔ. 9

6.. Γενική Αρχιτεκτονική Αποθήκης Δεδομένων Ι ΙΙ ΙΙΙ Εργαλεία OLAP Λογισμικό Εξαγωγής Τροφοδοσίας Server Αποθήκης Δεδομένων Server for Cubes (OLAP) Εργαλεία Data Mining Εσωτερικές & Εξωτερικές Πηγές Αποθήκη Δεδομένων (Data Warehouse) Αποθήκη Προϋπολογισμένων Κύβων (Precalculated Aggregations Cubes) Μία Αποθήκη Δεδομένων στην γενική περίπτωση έχει μία αρχιτεκτονική επιπέδων: - στο επίπεδο Ι είναι η κυρίως Αποθήκη Δεδομένων (συγκεντρωτικά στοιχεία για όλους τους συνδυασμούς τιμών των διαστάσεων στην υψηλότερό τους επίπεδο λεπτομέρειας), - στο επίπεδο ΙΙ υπάρχουν έτοιμα-προυπολογισμένα συγκεντρωτικά στοιχεία για διάφορους συνδυασμούς τιμών των διαστάσεων χαμηλότερης λεπτομέρειας, - ενώ στο επίπεδο ΙΙ υπάρχουν διάφορα εργαλεία μέσω των οποίων ο χρήστης μπορεί να αντλεί τα συγκεντρωτικά στοιχεία που επιθυμεί (συνήθως σε μορφή γραφικών παραστάσεων) (εργαλεία On-Line Analytical Processing - OLAP), ή και να πραγματοποιεί αναλύσεις εξόρυξης γνώσης από δεδομένα (εργαλεία data mining) (βλ. επόμενο κεφάλαιο). Μπορεί όμως, σε κάποιές περιπτώσεις, να μην υπάρχει το επίπεδο ( Προϋπολογισμένοι Κύβοι χαμηλότερου επιπέδου λεπτομέρειας) : Αρχιτεκτονική επιπέδων ( πράγμα το οποίο βέβαια μπορεί σε κάποιες περιπτώσεις να προκαλεί καθυστερήσεις υψηλότερους χρόνους απόκρισης) 0

Στα OLΤP συστήματα μοντελοποιούμε και οργανώνουμε τα δεδομένα μας με βάση το μοντέλο Οντοτήτων Συσχετίσεων (Entities Relations Model), ως ένα σύνολο κανονικοποιημένων, συνδεδεμένων πινάκων : δεν έχουμε πολλαπλές αποθηκεύσεις των ίδιων δεδομένων άρα και τα προβλήματα που αυτή δημιουργεί η οργάνωση αυτή είναι κατάλληλη για τις επεξεργασίες που συνήθωςτα OLΤP συστήματα εκτελούν ( insert delete, update μικρού αριθμού εγγράφων ). Όμως αυτή η οργάνωση δεν είναι κατάλληλα για τις μεγάλες και πολύπλοκες επεξεργασίες ( τύπου OLAP) που απαιτούνται για την υποστήριξη της λήξης αποφάσεων : μεγάλες καθυστερήσεις λόγω πολλών πινάκων και συνδέσεων. Για αυτούς τους λόγους οι Αποθήκες Δεδομένων και τα εργαλεία OLAP ( On Line Analytical Processing) βασίζονται στο Πολυδιάστατο Μοντέλων Δεδομένων (Multidimensional Data Model ) : - δεν χαρακτηρίζεται από «κανονικοποίηση» : για κάποια δεδομένα έχουμε πολλαπλές αποθηκεύσεις τους αυτό όμως έχει ως αποτέλεσμα υψηλότερη ταχύτητα υλοποίησης των παραπάνω μεγάλων και πολύπλοκων επεξεργασιών. - το πλεονέκτημα αυτό ενισχύεται και μέσω προϋπολογισμού (precalculation) κάποιων συγκεντρωτικών στοιχείων χαμηλότερης λεπτομέρειας που ζητούνται συχνά.( π.χ. πωλήσεις ανά ομάδα προϊόντων και περιοχή). Στο μοντέλο αυτό βλέπουμε τα δεδομένα με την μορφή Κύβων Δεδομένων (Data Cubes ) - διδιάστατων, τριδιάστατων,..., n διαστατών : έχω κάποια σημαντικά μεγέθη μέτρα ( measures ), π.χ. πωλήσεις, κέρδη, έξοδα, κ.λ.π., τα οποία αποτελούν μέτρα ( measures ) της καλής λειτουργίας της επιχείρησης, τα οποία παρουσιάζονται ως προς κάποιες σημαντικές διαστάσεις ( dimensions) π.χ. χρόνο, περιοχή, προϊόντα, τμήματα αγοράς, κανάλια διανομής, προμηθευτές. Σε κάθε μία από τις διαστάσεις αυτές υπάρχουν διάφορα επίπεδα λεπτομέρειας, π.χ. χρόνος : Έτη Εξάμηνα Τρίμηνα λεπτομέρεια Μήνες Εβδομάδες

προχωρώντας μέχρι του μεγίστου επιπέδου λεπτομέρειας που αναμένουμε ότι οι χρήστες θα χρειασθούν για την υποστήριξη της λήψης των αποφάσεών τους (και όχι λεπτομερέστερα)

Κάθε τέτοιος «Κύβος» (μικρότερής ή μεγαλύτερης λεπτομέρείας, περισσότερων ή λιγότερων διαστάσεων) ονομάζεται και Κυβοειδές (Cuboid) ενώ τότε ως Κύβο Δεδομένων ονομάζεται το δίκτυο όλων των δυνατών κυβοειδών. Το Κυβοειδές με τον υψηλότερο βαθμό λεπτομέρειάς ονομάζεται Κυβοειδές Βάσης (Base Cuboid) (ουσιαστικά μπορεί αυτό μόνον να προϋπολογίζεται και να αποθηκεύεται, και από αυτό να υπολογίζονται όλα τα ζητούμενα κυβοειδή χαμηλότερης λεπτομέρειας, όμως είναι δυνατόν να προϋπολογίσθούν και να αποθηκευθούν και κάποια κυβοειδή χαμηλότερης λεπτομέρειας (ή ακόμη και το σύνολο αυτών))

6.4. Σχήματα Πολυδιάστατού Μοντέλου Υπάρχουν τρία εναλλακτικά σχήματα οργάνωσης των δεδομένων στο Πολυδιάστατο Μοντέλο :. Σχήμα Αστέρος ( Star Scheme) Ένα μεγάλος πίνακας για το βασικό μέγεθος μέτρο ( fact ) (ο οποίος δεν περιέχει πολλαπλές αποθηκεύσεις ) και ένας μικρότερος πίνακας ανά διάσταση ( dimension ) ( από το λεπτομερέστερο επίπεδο χονδροειδέστερα: πολλαπλές αποθηκεύσεις μη κανονικοποιημένοι πίνακες ). Σε κάθε διάσταση μπορούμε να έχουμε μία Ιεραρχία επιπέδων λεπτομέρειας Ιεραρχία Εννοιών ( Concept Hierarchies) : - από έννοιές χαμηλού επιπέδου ( υψηλής λεπτομέρειας low level conception) μέχρι έννοιές υψηλού επιπέδου (χαμηλής λεπτομέρειάς - high level conception ) που σχηματίζουν ένα δένδρο (ως προς τις οποίες μπορούμε να εκφράσουμε το μέγεθος στοιχείο) 4

Π.χ. () Country Canada USA State Br. Columbia Ontario New York Massachouseti City Vancouver Victoria New York Buffalo Area ή συνοπτικά Country State τρίμηνο City μήνας Εβδομάδες Area ημέρα Παράδειγμα δομής αποθήκης δεδομένων οργανωμένης σε Σχήμα Αστέρος: - αρχικά βλέπουμε την αντίστοιχη κανονικοποιημένη βάση δεδομένων του διεκπεραιωτικού OLTP συστήματος πωλήσεων - ενώ στην συνέχεια βλέπουμε την δομή της αντίστοιχης αποθήκης δεδομένων πωλήσεων σε σχήμα αστερός 5

Ι. Κανονικοποιημένη βάση δεδομένων του διεκπεραιωτικού OLTP συστήματος πωλήσεων 6

ΙΙ. Δομή της αντίστοιχης αποθήκης δεδομένων πωλήσεων σε σχήμα αστερός 7

. Σχήμα Νιφάδος Χιονιού ( Snowflake Scheme) Μια παραλλαγή του Σχήματος Αστέρας: οι πίνακες των διαστάσεων (ή κάποιοι από αυτούς) κανονικοποιούνται (σε κάποιο βαθμό ) κάθε ένας από αυτούς διασπάται σε περισσότερους πίνακες) : μείωση χώρου αποθήκευσης και αύξηση του χρόνου επεξεργασίας. 8

. Σχήμα Αστερισμού ( Constellation Scheme ) Υπάρχουν πολλαπλοί πίνακες μεγεθών στοιχείων (fact table), οι οποίοι μοιράζονται κάποιους κοινούς πίνακες διαστάσεων ( dimension table ) αστερισμός πινάκων μεγεθών στοιχείων. 9

ΠΑΡΑΔΕΙΓΜΑ: Σχεδιασμός Αποθήκης Δεδομένων Πωλήσεων Ι. Δομή Αντίστοιχων Αρχείων Διεκπεραιωτικού Συστήματος Πωλήσεις α/α. Πελάτης Ποσότητα Τιμή Ημερομηνία 00 5 0 5//997 00 0 8 6//997.... Ν Κωδικός 00 00. Πελάτες Όνομα Διεύθυνση Πόλη Παν. Αιγαίου Βουλγ. 0 Αθήνα Macedonia P Δημοκρ. Θες/κη... ΙΙ. Δομή Αρχείων Αποθήκης Δεδομένων Fact Table Πωλήσεις Κλειδί Χρόνου Κλειδί Περιοχής Πωλήσεις Dimension Table Περιοχή Κλειδί Περιοχής Τομέας Περιοχή Dimension Table Χρόνος Κλειδί Χρόνου Μήνας Τρίμηνο Εξάμηνο Έτος - Μέγιστο Επίπεδο Λεπτομέρειας: υποτομέας (περιοχή) - τομείς x υποτομείς (6 εγγραφές) - Μέγιστο Επίπεδο Λεπτομέρειας: Μηνιαίο - Χρον. Ορίζοντας: 5 έτη (60 εγγραφές) 0

Χρόνος (Κλ. Μην. Τριμ. Εξαμ. Έτος) 00 00 00 4 4 00 5 5 00 6 6 00 7 7 00 8 8 00 9 9 00 0 0 4 00 4 00 4 00 000 4 000......,........ 60 5 997 Περιοχή (Κλ. Τομ. Υποτ.) Ελλάς Β. Ελλάς Ελλάς Ν. Ελλάς Ελλάς Νησιά Αιγαίου 4 Ελλάς Κρήτη 5 Εξωτ. Ευρώπη 6 Εξωτ. Αμερική Πωλήσεις (Κλ. Χρ. Κλ. Περ. Πωλ. 5 8.. 60 6 7.. 60 5 Snowflake Schema Στον πίνακα του Dimension Χρόνος η στήλη (τρίμηνο) είναι συνάρτηση της στήλης Μήνας και η στήλη 4 Εξάμηνο είναι συνάρτηση της στήλης Τρίμηνο : Μη κανονικοποιημένος (πολλαπλή αποθήκευση ταχύτητα). Αρα η νέα δομή της Αποθήκης Δεδομένων σε Σχήμα Νιφάδος Χιονιού ( Snowflake Scheme) μπορεί να είναι ως εξής:

Χρόνος(Κλ. Μήνας Έτος).. 00 00 00. 60 997 Μήνας - Τρίμηνο Τρίμηνο-Εξάμηνο 4 Ν.. 4 Ν 6.5 Λειτουργία Αναλυτικής Επεξεργασίας Δεδομένων (On-Line Analytical Processing O.L.A.P.) Αρχίζω σε κάποιο αρχικό επίπεδο λεπτομέρειας: ένα μέγεθος μέτρο (measure) ως προς κάποιες dimensions (σε μορφή πινάκων ή γραφικών παραστάσεων) Στη συνέχεια προχωρώ σε διάφορα άλλα Κυβοειδή, με μεγαλύτερη ή μικρότερη λεπτομέρεια, ως προς τις ίδιες διαστάσεις ή άλλες διαστάσεις μέχρις ότου να διαμορφώσω άποψη για το παραπάνω μέγεθος στοιχείων και να είμαι σε θέση να λάβω απόφαση Μπορώ να προχωρήσω προς υψηλότερο βαθμό λεπτομέρειας: είτε ως προς μία διάσταση να προχωρήσω σε υψηλότερη λεπτομέρεια (drill - down), είτε να προσθέσω μία ακόμα διάσταση Επίσης μπορώ να προχωρήσω προς την αντίθετη κατεύθυνση: μικρότερο βαθμό λεπτομέρειας: είτε ως προς μία διάσταση να προχωρήσω σε χαμηλότερη λεπτομέρεια (roll - up), είτε και να αφαιρέσω μία διάσταση Μπορώ εναλλακτικά, διατηρώντας τον ίδιο βαθμό λεπτομέρειας, να απομονώσω (select) την εικόνα για μία μόνο τιμή μίας διάστασης (Slice), ή ενός υποκυβοειδούς

εικόνα για ορισμένες μόνον τιμές μίας διάστασης, για ορισμένες μόνον τιμές μίας δεύτερης διάστασης, κοκ. (Dice)

7. ΕΞΟΡΥΞΗ ΓΝΩΣΕΩΝ ΑΠΟ ΔΕΔΟΜΕΝΑ (DATA MINING) 7.. Εισαγωγή To OLAP (On Line Analytical Processing) παρέχει τη δυνατότητα συγκεκριμένων ερωτήσεων άντλησης συγκεντρωτικών στοιχείων, σύμφωνα με την προϋπάρχουσα εμπειρία και γνώση τους χρήστη. Εστιαζόμεθα σε θέματα και ερωτήματα τα οποία είναι σημαντικά και υπάρχει σημαντική πιθανότητα να οδηγήσουν σε χρήσιμα συμπεράσματα, σύμφωνα με την βαθμιαία συσσωρευμένη γνώση μας. Αντίθετα η Εξόρυξη Γνώσεων από Δεδομένα (Data Mining) στοχεύει στην αυτόματη παραγωγή νέας γνώσης (που δεν ήταν γνωστή πριν), νέων θεμάτων κ.λ.π. τα οποία αξίζει να εξετάσουμε αναλυτικότερα μέσω OLAP, όπως π.χ.: Συσχετίσεων Μορφών (patterns) Κανόνων κ.λ.π. από τα δεδομένα μεγάλων βάσεων δεδομένων (επιχειρηματικών αρχείων): OLAP ~ Αναζήτηση μικρού αντικειμένου σε μεγάλο δάσος με φακό Data Mining ~ Σύστημα sensors που μου δίνει κάποιες ενδείξεις που να εστιάσω την έρευνα με το φακό. Το Data Mining ορίζεται ως: Date Exploration Knowledge Mining εξερεύνηση μεγάλων ΒΔ (επιχειρησιακών αρχείων) με στόχο την εξαγωγή από αυτά (απόκτηση) νέας γνώσης (χρήσιμη για την επιχείρηση) (Knowledge Discovery in Databases KDD) Το Data Mining στόχο έχει να παράγει χρήσιμη νέα γνώση, π.χ. 4

- Αλγόριθμοι Περιγραφής οδηγούν σε καλύτερη κατανόηση των δεδομένων και εντοπισμό νέων ευκαιριών, διάγνωση προβλημάτων, κλπ. - Αλγόριθμοι Πρόβλεψης Κατηγοριοποίησης οδηγούν σε εργαλεία διαγνωσης βλαβών, ασθενειών, κλπ., κατηγοριοποίησης πελατών, κλπ. Βασικές Εφαρμογές: - Εστίαση Προγραμμάτων Marketing (πιθανοί πελάτες) - Cross Selling - Ανακάλυψη περιπτώσεων απάτης - Σχεδιασμός ειδικών προϊόντων υπηρεσιών - Εύρεση παραγόντων που επηρεάζουν σημαντικά μεγέθη - Πρόβλεψη (Forecast) Υπάρχουν πολλοί αλγόριθμοι (μέθοδοι) Data Mining που καταλήγουν σε διάφορες μορφές μοντέλων. Διαιρούνται γενικά σε τρεις βασικές κατηγορίες:. Επιβλεπόμενη Μάθηση (Supervised Learning) Κατηγοριοποίηση ανεξάρτητες μεταβλητές εξαρτημένη μεταβλητή. Μη επιβλεπόμενη μάθηση (Unsupervised Learning) Ομαδοποίηση (clustering) σε ομάδες με ομοιότητες εσωτερικά κ διαφορές από τις άλλες ομάδες. Οπτικοποίηση (Visualization) Ως βάση για το Data Mining χρησιμοποιούμε: - είτε τα Διεκπεραιωτικά αρχεία (Operational Files) (λεπτομερή δεδομένα) - είτε την Αποθήκη Δεδομένων (Data Warehouse) (συγκεντρωτικά δεδομένα) - είτε διάφορα άλλα ειδικά αρχεία (π.χ. αρχεία καταγραφής των επισκέψεων του Web site της επιχείρησης) Υπάρχουν πολλές κατηγορίες αλγορίθμων (μεθόδων) εξερεύνησης δεδομένων κάθε μία από τις οποίες παράγει μία διαφορετική μορφή γνώσης Προήλθαν από αλγόριθμους διαφόρων γνωστικών περιοχών π.χ. Στατιστικής, Τεχνητής Νοημοσύνης, Επιχειρησιακής Έρευνας, με κατάλληλη τροποποίηση Κλιμάκωση (Scalable) η αναγκαία υπολογιστική ισχύς είναι ανάλογη του μεγέθους της βάσης δεδομένων (και όχι π.χ. του τετραγώνου του), ώστε να μπορούν να ολοκληρώσουν την 5

εξερεύνηση τεράστιων επιχειρησιακών Β.Δ. (π.χ. εκατομμυρίων εγγραφών ) σε ένα λογικό (πρακτικά ανεκτό) χρονικό διάστημα (πάντως όχι at the speed of thought) Βασικές Κατηγορίες (μεθόδων αλγορίθμων) Data Mining: Περιγραφής Κατηγοριών Εννοιών (Concept/Class Description) Εξαγωγής κανόνων Συσχέτισης (Mining Association Rules) Πρόβλεψης (Prediction): Δένδρα Απόφασης, Νευρωνικά Δίκτυα Ομαδοποίησης (Clustering) : εντοπισμός υπαρχόντων ομάδων Εντοπισμός Εξαιρετικών Περιπτώσεων (Outliers Detection) Από τους διάφορους αλγορίθμους Data Mining παράγονται πλήθος στοιχείων γνώσης, τα οποία δεν είναι όλα εξίσου ενδιαφέροντα και χρήσιμα, έτσι μας ενδιαφέρει να επιλέξουμε ένα κατάλληλο υποσύνολο από αυτά με κριτήρια: - Έκταση δυνατής χρήσης (υψηλή) - Αβεβαιότητα (χαμηλή) - Κατανοητότητα (υψηλή) Προς την κατεύθυνση αυτή είναι απαραίτητος ο καθορισμός Μέτρων Χρησιμότητας Ενδιαφέροντος (Interestingness) των παραγομένων στοιχείων γνώσης, και στην συνέχεια βάσει αυτών το φιλτράρισμα εμφάνιση στον χρήστη των στοιχείων γνώσης που είναι υψηλής χρησιμότητας ενδιαφέροντος (άνω ενός ελάχιστου ορίου) 6

7. Δένδρα Απόφασης (Decision Trees) Σε πολλά προβλήματα έχουμε μία ιδιαίτερα σημαντική μεταβλητή κατηγοριοποίησης (συνήθως διακριτών τιμών, π.χ. ένας υποψήφιος πελάτης στον οποίο αποστέλλουμε διαφημιστικό υλικό για ένα νέο προϊόν αγοράζει ή όχι, ένας πελάτης μας παραμένει ή φεύγει και γίνεται πελάτης ενός ανταγωνιστή, ένας εξεταζόμενος έχει ή όχι μία ασθένεια, ένας δανειζόμενος από την τράπεζα τελικά αποπληρώνει το δάνειο ή όχι όλα αυτά τα παραδείγματα είναι δίτιμες μεταβλητές κατηγοριοποίησης), η οποία είναι Εξαρτημένη (Dependent Variable) από διάφορες Ανεξάρτητες (Independent) μεταβλητές (π.χ. διάφορα δημογραφικά χαρακτηριστικά (φύλο, ηλικία, εισόδημα, μόρφωση, κλπ.), διάφορες μεταβλητές που εκφράζουν προτιμήσεις ή βαθμό ικανοποίησης από ένα προϊόν ή υπηρεσία, διάφορες μεταβλητές που εκφράζουν σωματικά χαρακτηριστικά (π.χ. σωματικό βάρος, αρτηριακή πίεση, χοληστερίνη, κλπ.)). Σε τέτοιες καταστάσεις είναι επιθυμητό να έχουμε ένα εργαλείο πρόβλεψης (και μάλιστα όσο το δυνατό υψηλότερης ακρίβειας - αξιοπιστίας) της τιμής της εξαρτημένης μεταβλητής (κατηγορίας) με βάση τις τιμές των ανεξάρτητων μεταβλητών. Προς την κατεύθυνση αυτή μπορούμε με βάση ένα σύνολο δεδομένων μάθησης (learning data set) ( ένα σύνολο εγγραφών, για κάθε μία από τις οποίες έχουμε τόσο την τιμή της εξαρτημένης μεταβλητής, όσο και τις τιμές των ανεξάρτητων μεταβλητών) να κατασκευάσουμε ένα Δένδρο Απόφασης, το οποίο είναι ένα σύνολο κανόνων κατηγοριοποίησης με δενδρική δομή, π.χ. 500 Rec Ηλικία 60% Y 40% N 5 >5 Τύπος Αυτοκινήτου 00 Rec 70% Y 0% N Ν 00 Rec 0% Y 90% N Ομογενή Υποσύνολα Sedan Sport Truck Y Ν 50 Rec 5% Y 85% N 50 Rec 95% Y 5% N 7

Στο παράδειγμα του παραπάνω σχήματος βλέπουμε ένα δένδρο απόφασης, το οποίο στόχο έχει την πρόβλεψη της εξαρτημένης μεταβλητής αγοράζει ή όχι ένα προϊόν Α, με βάση τις ανεξάρτητες μεταβλητές ηλικία και τύπος αυτοκινήτου. Παρατηρούμε ότι έχει κατασκευασθεί με βάση ένα σύνολο δεδομένων μάθησης αποτελούμενο από 500 εγγραφές (records). Κάθε εσωτερικός κόμβος (internal node) έλεγχος ως προς μία ανεξάρτητη μεταβλητή Κάθε ακραίος κόμβος (leaf node) συμπέρασμα πρόβλεψη κατηγορίας (με κάποια πιθανότητα, η οποία αποτελεί βαθμό εμπιστοσύνης (confidence) στον αντίστοιχο κανόνα), π.χ. στον πρώτο εξ αριστερών κόμβο του παραπάνω σχήματος η προβλεπόμενη κατηγορία είναι NO ( δεν αγοράζει) με πιθανότητα 85% Για την κατασκευή του δένδρου απόφασης επιδιώκουμε να διαιρέσουμε το αρχικό σύνολο δεδομένων μάθησης σε υποσύνολα όσο το δυνατόν ομοιογενέστερα ως προς την εξαρτημένη μεταβλητή κανόνες υψηλού confidence, αλλά και ταυτόχρονα κανόνες ικανού μεγέθους συνόλου εξαγωγής υψηλό support ( ποσοστό των αρχικών εγγραφών, από το οποίο ο κανόνας έχει εξαχθεί) (π.χ. π.χ. στον πρώτο εξ αριστερών κόμβο η προβλεπόμενη κατηγορία είναι NO με support 50 Rec/500 Rec 0%) Ο αρχικός κόμβος του δημιουργούμενου δένδρου απόφασης αντιστοιχεί στο σύνολο των δεδομένων μάθησης. Αρχικά προσδιορίζω το βέλτιστο κριτήριο ( βέλτιστη ανεξάρτητη μεταβλητή και συνθήκη διαχωρισμού του αρχικού συνόλου δεδομένων μάθησης), το οποίο διαιρεί το αρχικό μου σύνολο δεδομένων σε δύο όσο το δυνατόν ομοιογενέστερα υποσύνολα ως προς την εξαρτημένη μεταβλητή, ακολούθως για κάθε τιμή της βέλτιστης αυτής μεταβλητής δημιουργώ έναν κλάδο του δένδρου καθώς επίσης και έναν νέο κόμβο, ο οποίος αντιστοιχεί στο υποσύνολο των αρχικών δεδομένων μάθησης που έχουν την συγκεκριμένη τιμή της βέλτιστης αυτής μεταβλητής, ενώ στην συνέχεια κάνουμε το ίδιο για κάθε ένα από τα υποσύνολα αυτά, μέχρις ότου είτε φθάσουμε σε υποσύνολα πλήρως ομοιογενή ως προς την εξαρτημένη 8

μεταβλητή, είτε εξαντλήσουμε όλες τις ανεξάρτητες μεταβλητές, μπορούμε όμως να σταματήσουμε όταν φθάσουμε σε κάποια προκαθορισμένα επίπεδα confidence (π.χ. άνω του 75%), ή το support πέσει κάτω ενός προκαθορισμένου ελάχιστου επιπέδου (π.χ. κάτω του 5%) 7.. Δείκτες Ομογένειας (Ανομοιογένειας) Συνόλου ως προς Εξαρτημένη Μεταβλητή Εντροπία : Εάν στα μέλη του συνόλου παρατηρούνται Ν τιμές του χαρακτηριστικού αυτού: V, V, V n με σχετικές συχνότητες f, f, f n (ποσοστά %), τότε η Εντροπία του (μέτρο αταξίας και ανομοιογένειας ως προς το χαρακτηριστικό αυτό) είναι: E N i Fi * log ( Fi) ενώ ένας άλλος συχνά χρησιμοποιούμενος δείκτης είναι ο G, οριζόμενος ως εξής: Δείκτης G : G N i Fi Οι δείκτες αυτοί χρησιμοποιούνται ως εξής: - Για κάθε ανεξάρτητη μεταβλητή ( υποψήφια να χρησιμοποιηθεί ως μεταβλητή διαχωρισμού) προσδιορίζω την βέλτιστη συνθήκη διαχωρισμού, η οποία διαιρεί το αρχικό σύνολο Κ εγγραφών σε δύο υποσύνολα Κ και Κ εγγραφών (Κ Κ + Κ) όσο το δυνατόν ομοιογενέστερα ως προς την εξαρτημένη μεταβλητή, - δηλαδή τη συνθήκη διαχωρισμού που ελαχιστοποιεί τον συνολικό δείκτη ομοιογένειας: Min Κ Κ Ε Κ + Κ ( Eδιαχ) Ε Κ Κ Min( Gδιαχ ) G + G Κ Κ ή - και τελικά επιλέγω την ανεξάρτητη μεταβλητή και συνθήκη διαχωρισμού, η οποία χαρακτηρίζεται από το ελάχιστο Min ( Eδιαχ) ή Min ( Gδιαχ) 9

- ακολούθως για κάθε ένα από τα υποσύνολα ακολουθούμε την ίδια διαδικασία διαίρεσής του σε ομογενέστερα υποσύνολα (προσδιορίζουμε ακριβώς το βέλτιστο κριτήριο διαχωρισμού της (ανεξάρτητη μεταβλητή + συνθήκη) και το διαχωρίζουμε κ.ο.κ. Αύξηση Ομοιογένειας, όμως και Μείωση Μεγέθους Παράδειγμα Χρήσης Δεικτών Ομογένειας Συνόλου ως προς ένα Χαρακτηριστικό Ι. Όλα τα μέλη του συνόλου έχουν την ίδια τιμή ενός δίτιμου χαρακτηριστικού ( πλήρης ομογένεια τάξη) E N Fi * log ( Fi) * log i 0 N G Fi i 0 ΙΙ. Το 50% των μελών του συνόλου έχουν την μία τιμή του δίτιμου αυτού χαρακτηριστικού και το υπόλοιπο 50% την άλλη τιμή του (υψηλή ανομοιογένεια αταξία) E N Fi i * log ( Fi) (0.5* log (0,5) + 0.5* log (0,5) N G Fi i ((0.5) + (0.5) ) 0.5 ΙΙΙ. Το 70% των μελών του συνόλου έχουν την μία τιμή του δίτιμου αυτού χαρακτηριστικού και το υπόλοιπο 0% την άλλη του τιμή (μέτρια ανομοιγένεια αταξία) N E Fi i * log ( Fi) (0.7*log (0,7) + 0.*log (0,) 0.4 N G Fi i ((0.7) + (0.) ) 0.4 Στα παραπάνω παραδείγματα εφαρμόζονται οι τύποι: x log a x θ a θ π.χ. x log 0 θ θ 0 x (μόνο για θετικούς αριθμούς α και θ) 0

< 0 log θ 0 a > 0 θ < θ θ > log log ( θ / θ ) log θ log a ( θ * θ ) log a θ + log a θ a a a log θ κ κ * log a a θ θ Υπολογισμός Λογαρίθμων Βάσης α: x log a θ α χ θ x *log 0 a log 0 θ x log log 0 0 θ a 7.. Αλγόριθμοι Δημιουργίας (Εξαγωγής) Δένδρων Απόφασης Υπάρχουν πολλοί αλγόριθμοι δημιουργίας - κατασκευής (εξαγωγής από μεγάλες βάσεις δεδομένων) δένδρων απόφασης (π.χ. ID, C4.5, κλπ.). Τα βήματα ενός τέτοιου αλγορίθμου είναι τα εξής:. Η αρχική μορφή του Δένδρου περιλαμβάνει έναν μόνο κόμβο που αντιπροσωπεύει όλο το αρχικό σύνολο δεδομένων μάθησης. Εάν όλα τα μέλη του συνόλου ανήκουν στην ίδια κατηγορία ως προς την εξαρτημένη μεταβλητή, τότε ο κόμβος αυτός γίνεται Ακραίος Κόμβος (Leaf Node) με την κατηγορία αυτή - STOP. Σε αντίθετη περίπτωση επιλέγεται η βέλτιστη ανεξάρτητη μεταβλητή/συνθήκη για τον διαχωρισμό του συνόλου σε όσο το δυνατόν ομοιογενέστερα υποσύνολα ως προς την εξαρτημένη μεταβλητή (κατηγορία) Μεταβλητή Απόφασης (ή Ελέγχου) (Decision (ή Test) Attribute) με χρήση κατάλληλου Κριτηρίου Επιλογής Μεταβλητής Απόφασης (βλ. 7..). 4. Για κάθε διακριτή τιμή της μεταβλητής απόφασης δημιουργείται ένας κλάδος του δένδρου απόφασης (που αντιστοιχεί στην τιμή αυτή), ο οποίος καταλήγει σε έναν νέο κόμβο που αντιπροσωπεύει (περιλαμβάνει) το υποσύνολο του αρχικού συνόλου δεδομένων, στα οποία η μεταβλητή απόφασης έχει την συγκεκριμένη αυτή τιμή

5. Για κάθε ένα από τους νέους αυτούς κόμβους υπολογίζω τις σχετικές συχνότητες των τιμών της εξαρτημένης μεταβλητής (κατηγοριών) στο αντίστοιχο υποσύνολο και κατόπιν πηγαίνω στο βήμα και επαναλαμβάνω την όλη διαδικασία - Περιορισμός: εάν μια ανεξάρτητη μεταβλητή έχει χρησιμοποιηθεί σε έναν κόμβο ως μεταβλητή απόφασης, δεν μπορεί να χρησιμοποιηθεί στους απογόνους του. 6. Ο αλγόριθμος σταματά όταν: Σε έναν κόμβο όλα τα μέλη του αντίστοιχου υποσυνόλου ανήκουν στην ίδια κατηγορία ως προς την της εξαρτημένη μεταβλητή, οπότε αυτός γίνεται Ακραίος Κόμβος (Leaf Node), με αυτήν την κατηγορία ( πρόβλεψη αυτής της τιμής της εξαρτημένης μεταβλητής κατηγορίας, και μάλιστα με πιθανότητα confidence 00%). Δεν υπάρχουν άλλες ανεξάρτητες μεταβλητές για περαιτέρω διαχωρισμούς, οπότε ο τελευταίος κόμβος γίνεται Ακραίος Κόμβος, με κατηγορία αυτήν της πλειοψηφίας (Majority) ( καταλήγει σε πρόβλεψη αυτής τιμής της εξαρτημένης μεταβλητής κατηγορίας με την μεγαλύτερη σχετική συχνότητα, με πιθανότητα confidence την σχετική αυτή συχνότητα). 7. Για την αξιολόγηση της ακρίβειας ταξινόμησης (classification accuracy), την οποία επιτυγχάνει το δένδρο απόφασης το οποίο κατασκευάσαμε με τον παραπάνω αλγόριθμο, αρχικά το χρησιμοποιούμε για την ταξινόμηση των δεδομένων του αρχικού συνόλου δεδομένων μάθησης: για κάθε εγγραφή του συνόλου αυτού προσδιορίζουμε την προβλεπόμενη από το δένδρο απόφασης τιμή της εξαρτημένης μεταβλητής κατηγορία, και την συγκρίνουμε με την πραγματική. Στην συνέχεια υπολογίζουμε το ποσοστό των δεδομένων του συνόλου μάθησης, για το οποίο το δένδρο απόφασης έδωσε ορθή πρόβλεψη της τιμής της εξαρτημένης μεταβλητής κατηγορίας ακρίβεια ταξινόμησης συνόλου δεδομένων μάθησης classification accuracy in the learning data set. Μία ουσιαστικότερη αξιολόγηση του δένδρου απόφασης όσον αφορά την ακρίβεια ταξινόμησης που επιτυγχάνει μπορεί να πραγματοποιηθεί μέσω της χρησιμοποίησής του για την ταξινόμηση των δεδομένων ενός άλλου συνόλου δεδομένων δοκιμής (test data set) (που περιλαμβάνει επίσης ένα σύνολο ομοειδών εγγραφών, για κάθε μία από τις οποίες έχουμε τόσο την τιμή της εξαρτημένης μεταβλητής, όσο και τις τιμές των ανεξάρτητων μεταβλητών) διαφορετικού από το αρχικό σύνολο δεδομένων μάθησης (learning data set): για κάθε εγγραφή αυτού του συνόλου δοκιμής προσδιορίζουμε την προβλεπόμενη από το δένδρο απόφασης τιμή της εξαρτημένης μεταβλητής κατηγορία, την συγκρίνουμε με την πραγματική, και ακολούθως υπολογίζουμε το ποσοστό των δεδομένων του συνόλου δοκιμής, για το οποίο το δένδρο απόφασης έδωσε ορθή πρόβλεψη της τιμής της εξαρτημένης

μεταβλητής κατηγορίας ακρίβεια ταξινόμησης συνόλου δεδομένων δοκιμής classification accuracy in the test data set. Στην πράξη, δεδομένου ότι συνήθως διαθέτουμε έναν περιορισμένο σύνολο εγγραφών D, για κάθε μία από τις οποίες έχουμε τόσο την τιμή της εξαρτημένης μεταβλητής, όσο και τις τιμές των ανεξάρτητων μεταβλητών, ακολουθούμε την εξής διαδικασία για την μέγιστη δυνατή αξιοποίησή τους (k-fold validation): Ι) Χωρίζουμε το σύνολο εγγραφών D σε k ίσα υποσύνολα D, D,, Dk. II) Στην συνέχεια χρησιμοποιούμε κάθε ένα από αυτά ως σύνολο δεδομένων δοκιμής (test data set) του δένδρου απόφασης που προκύπτει από τα υπόλοιπα k- υποσύνολα (η ένωσή τους χρησιμοποιείται ως σύνολο δεδομένων μάθησης (learning data set) για την δημιουργία δένδρου απόφασης), και υπολογίζουμε το αντίστοιχο ποσοστό επιτυχίας ακρίβειας ταξινόμησης ΙΙΙ) Υπολογίζουμε τον μέσο όρο των παραπάνω k τιμών ποσοστού επιτυχίας ακρίβειας ταξινόμησης, ως μία εκτίμηση της ακρίβειας ταξινόμησης που το δένδρο απόφασης επιτυγχάνει. 7.. Κριτήριο επιλογής Μεταβλητής Απόφασης (Διαχωρισμού) Ως κριτήριο επιλογής Μεταβλητής Απόφασης (Διαχωρισμού) συνήθως χρησιμοποιείται η Μείωση της Ανομοιογένειας: επιλέγεται η ανεξάρτητη μεταβλητή που παρέχει την μέγιστη Μείωση Ανομοιογένειας (ή Πληροφοριακό Κέρδος Information Gain). Εάν: m αριθμός τιμών εξαρτημένης μεταβλητής κατηγοριών (C,C,,Cm) S αρχικό σύνολο δεδομένων μάθησης με s μέλη si αριθμός μελών του S που ανήκουν στην κατηγορία Ci (s+s+ sm s) fi σχετική συχνότητα της κατηγορίας Ci (si/s) Εάν ως δείκτης ανομοιογένειας χρησιμοποιηθεί η Eντροπία, η εντροπία αρχικού συνόλου δεδομένων μάθησης S υπολογίζεται από τον τύπο:

E (f, f,, fm) - Σ m fi * log (fi) Εάν μια ανεξάρτητη μεταβλητή Α έχει ν τιμές: α, α,..., αν, τότε διαχωρίζει το αρχικό σύνολο S σε ν υποσύνολα: S, S,, Sν, όπoυ Sj περιέχει όλα τα μέλη του S στα οποία Aαj (υποσύνολα κοινής τιμής της ανεξάρτητης μεταβλητής Α) Εάν η Α χρησιμοποιηθεί ως μεταβλητή Απόφασης Διαχωρισμού: sjsj+sj+ +sij+ +smj όπου sij αριθμός μελών του υποσυνόλου Sj που ανήκουν στην Ci Η εντροπία μετά τον διαχωρισμό του αρχικού συνόλου δεδομένων μάθησης με βάση την ανεξάρτητη μεταβλητή Α θα είναι άθροισμα των εντροπιών των ν επί μέρους υποσυνόλων, στα οποία αυτή διαχωρίζει το αρχικό σύνολο (ένα υποσύνολο για κάθε τιμή της Α), με ειδικά βάρη τους αριθμούς των μελών των υποσυνόλων αυτών sj ως προς τον αριθμό των μελών του αρχικού συνόλου μάθησης s: Ε(Α) Σ n (sj/s) * Ej (sj /sj, sj/sj,, smj/sj) Η εντροπία Ej (sj/sj, sj/sj,, smj/sj) του υποσυνόλου j υπολογίζεται από τον τύπο: Ej (sj * /sj, s * /sj,, smj/sj) - Σ m sij * /sj * log (sij * /sj) Βάσει των παραπάνω η μείωση ανομοιoγένειας (Εντροπίας) - πληροφοριακό κέρδος G που επιτυγχάνεται μέσω του διαχωρισμού του αρχικού συνόλου μάθησης βάσει της ανεξάρτητης μεταβλητής Α είναι: G(A) E (f, f,, fm) - E(A) Τελικά επιλέγουμε ως μεταβλητή Απόφασης Διαχωρισμού εκείνη την ανεξάρτητη μεταβλητή που επιτυγχάνει την μέγιστη Μείωση Ανομοιογένειας - Πληροφοριακό Κέρδος G. 4

Παράδειγμα Επιλογής Μεταβλητής και Συνθήκης Διαχωρισμού Σε μία επιχείρηση μας ενδιαφέρει η πρόβλεψη με την υψηλότερη δυνατή ακρίβεια της εξαρτημένης μεταβλητής ΑΓΟΡΑ ΠΡΟΪΟΝΤΟΣ (ΑΓΟΡ) η οποία λαμβάνει δύο διακριτές τιμές: Υes/Νo. Υπάρχουν δύο υποψήφιες ανεξάρτητες μεταβλητές χαρακτηριστικά διαχωρισμού: Η πρώτη είναι διακριτών τιμών: ΟΙΚΟΓ. ΚΑΤΑΣΤΑΣΗ με τιμές (Single, Married, Divorced) H δεύτερη είναι συνεχούς εύρους τιμών: ΕΙΣΟΔΗΜΑ Έχουμε μία βάση δεδομένων με Κ0 εγγραφών ως σύνολο δεδομένων μάθησης: για κάθε εγγραφή έχουμε την τιμή της εξαρτημένης (κατηγορίας) και τις τιμές των δύο αυτών ανεξαρτήτων μεταβλητών. Α/Α ΟΙΚΟΓΕΝ. ΚΑΤ. ΕΙΣΟΔ ΑΓΟΡ M 5 N S 00 N S 95 Y 4 D 85 Y 5 D 75 N 6 M 60 N 7 M 0 N 8 S 90 Y 9 M 70 N 0 M 0 N Λύση Ι) Ως προς την πρώτη υποψήφια μεταβλητή διακριτών τιμών: ΟΙΚΟΓ. ΚΑΤΑΣΤΑΣΗ υπάρχουν τρεις δυνατές συνθήκες διαχωρισμού του αρχικού σε δύο υποσύνολα (spl, spl, spl): S+D/M, S+M/D, M+D/S spl spl spl Εξετάζω ποιά από αυτές είναι η βέλτιστη, δηλαδή ελαχιστοποιεί τον δείκτη ανομοιογένειας ως προς την εξαρτημένη εταβλητή E K E min( διαχ ) ( G K G K + K E G ) 5

Υποθέτουμε ότι χρησιμοποιούμε το G ως δείκτη ανομοιογένειας, καθώς επίσης και ότι χρησιμοποιούμε αλγόριθμο διαχωρισμού σε δύο υποσύνολα (binary split) (υπάρχουν και άλλοι αλγόριθμοι διαχωρισμού σε αριθμό υποσυνόλων όσων και οι τιμές της επιλεγόμενης ανεξάρτητης μεταβλητής). i) spl S+D M Υ 0 Ν 5 ΣΥΝ 5 5 5 5 G spl ( ( ) ( ) ) + ( 0 5 5 0 0,5 0,48 + 0,5 0 0,4 0 ) ii) spl S+M D Υ Ν 6 ΣΥΝ 8 6 G spl ( ( ) ( ) ) + ( ( ) 0 8 8 0 0,8 0,75 + 0, 0,5 0,40 8 ( ) ) iii) spl S+D S Υ Ν 6 ΣΥΝ 7 6 G spl ( ( ) ( ) ) + ( ( ) 0 7 7 0 0,7 0,449 + 0, 0,4444 0,05 7 ( ) ) Άρα ως προς την ανεξ. μεταβλητή ΟΙΚΟΓ. ΚΑΤΑΣΤΑΣΗ η βέλτιστη συνθήκη διαχωρισμού είναι η spl διότι επιτυγχάνει την χαμηλότερη τιμή του δείκτη ανομοιογένειας G ΙΙ) Ως προς την δεύτερη συνεχή μεταβλητή θεωρητικά υπάρχουν άπειρες συνθήκες διαχωρισμού οριακές τιμές, ουσιαστικά όμως υπάρχουν οριακές τιμές 60 70 75 85 90 95 00 0 5 0 55 65 7 80 87 9 97 0 7 0 6

Για κάθε μία από τις οριακές αυτές τιμές εξετάζω τον δείκτη ομοιογένειας ως προς την εξαρτημένη μεταβλητή ΑΓΟΡ των δύο υποσυνόλων που προκύπτουν > 7 0 N Y 0 ΣΥΝ 0 0 Spl: ΕΙΣ 55 4 0. 0 7 0 Gspl > 6 N Y ΣΥΝ 9 0 Spl: ΕΙΣ 65 ( ) 4 0. 9 4 0.9* 9 6 9 0 9 0 + Gspl > 5 N Y ΣΥΝ 8 0 Spl: ΕΙΣ 7 ( ) 75 0. 64 0 * 0 8 8 5 8 0 8 0 + Gspl 7

> 4 N Y ΣΥΝ 7 0 Spl4: ΕΙΣ 80 ( ) 4 0. 49 4 * 0 7 7 4 7 0 7 0 4 + Gspl > 4 N Y 4 ΣΥΝ 6 Spl5: ΕΙΣ 87 0.47 6 4 6 0 6 4 4 0 4 5 + Gspl > 4 N Y 5 ΣΥΝ 5 Spl6: ΕΙΣ 9 0.400 5 4 5 0 5 5 5 0 5 6 + Gspl 8

> 0 4 N Y 6 ΣΥΝ 4 Spl7: ΕΙΣ 97 ( ) 00 0. 4 6 6 0 6 7 + Gspl > 0 4 N Y 7 ΣΥΝ Spl8: ΕΙΣ 0 ( ) 4 0. 49 4 * 0 7 0 7 4 7 0 7 8 + Gspl > 0 5 N Y 8 ΣΥΝ Spl9: ΕΙΣ ( ) 75 0. 64 0 * 0 8 0 8 5 8 0 8 9 + Gspl 9

Spl0: ΕΙΣ 7 > Y N 6 0 ΣΥΝ 9 Gspl 0 9 0 9 6 9 + 0 9 6 ( ) * 0. 400 0 8 Spl: ΕΙΣ 0 > Y N 7 0 0 ΣΥΝ 0 0 Gspl 0 7 0 0.40. Συνεπώς επιλέγω ως μεταβλητή διαχωρισμού την ΟΙΚ (Οικογενειακή Κατάσταση) και ως συνθήκη διαχωρισμού την S+D/M (επιτυγχάνουν την ελάχιστη τιμή του G), άρα το Δένδρο Απόφασης θα είναι: S ή D ΟΙΚ M C 60% S 50% Υ Ν C 00% S 50% ενώ οι αντίστοιχοι κανόνες θα είναι: IF (OIKS) V (OIKS) THEN (ΑΓΟΡ Yes) (c60%, s50%) IF (OIKN) THEN (ΑΓΟΡ No) (c00%, s50%) 40