Δημιουργία και ανάλυση προφίλ επενδυτών σε ασφαλιστικά προϊόντα με χρήση εργαλείων Εξόρυξης Γνώσης

Σχετικά έγγραφα
Δημιουργία και ανάλυση προφίλ επενδυτών σε ασφαλιστικά προϊόντα με χρήση εργαλείων Εξόρυξης Γνώσης

Predicting the Choice of Contraceptive Method using Classification

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΑΝΑΛΥΣΗ ΠΡΟΤΙΜΗΣΕΩΝ ΓΙΑ ΤΗ ΧΡΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΕΝΟΙΚΙΑΖΟΜΕΝΩΝ ΠΟΔΗΛΑΤΩΝ ΣΤΟΝ ΔΗΜΟ ΑΘΗΝΑΙΩΝ

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Τεχνικές Εξόρυξης Δεδομένων

Εισαγωγή στο Marketing (βασικές έννοιες) ΑΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ Τμήμα Δημοσίων Σχέσεων & Επικοινωνίας Α. Κουμπαρέλης Καθηγητής Εφαρμογών

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Κεφάλαιο 3 ΛΟΓΙΣΤΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ»

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ταυτότητα της έρευνας

ΜΑΘΗΜΑ: ΜΑΡΚΕΤΙΝΓΚ ΠΡΟΙΌΝΤΩΝ ΞΥΛΟΥ ΚΑΙ ΕΠΙΠΛΟΥ ΜΑΡΚΕΤΙΝΓΚ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΛΟΓΙΣΤΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή διατριβή

ΠΡΟΔΙΑΓΡΑΦΕΣ ΕΝΟΣ ΗΛΕΚΤΡΟΝΙΚΟΥ ΚΑΤΑΣΤΗΜΑΤΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Προγράμματα Προσήλωσης και Ηλεκτρονική Διαχείριση Σχέσεων Πελατών: Επιχειρηματικές Πρακτικές και Συμπεριφορά Καταναλωτή

Τι είναι πληροφοριακό σύστημα

Ο σωστός τρόπος διερεύνησης ασφαλιστικών αναγκών

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΤΗΛΕΠΙΣΚΟΠΗΣΗ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΓΕΩΛΟΓΙΑ

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΕΠΙΔΡΑΣΗ ΤΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΚΡΙΣΗΣ ΣΤΙΣ ΑΓΟΡΑΣΤΙΚΕΣ ΤΑΣΕΙΣ ΤΩΝ ΕΛΛΗΝΩΝ ΚΑΤΑΝΑΛΩΤΩΝ ΑΠΟ ΤΟ ΔΙΑΔΙΚΤΥΟ

Κεφάλαιο Ένα Τι είναι η Στατιστική;

Μεταπτυχιακή εργασία

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ ΚΑΙ ΚΑΙΝΟΤΟΜΙΑ

Πωλήσεις. Μπίτης Αθανάσιος 2017

ΜΕΡΟΣ ΠΡΩΤΟ. Εισαγωγή

«ΧΡΗΣΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ (ΤΠΕ) ΓΙΑ ΣΥΓΚΡΙΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ ΚΑΤΑΝΑΛΩΤΙΚΩΝ ΑΓΑΘΩΝ»

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΔΙΕΡΕΥΝΗΣΗ ΤΩΝ ΠΡΟΤΙΜΗΣΕΩΝ ΤΩΝ ΟΔΗΓΩΝ ΑΠΕΝΑΝΤΙ ΣΕ ΝΕΑ ΚΑΙΝΟΤΟΜΑ ΣΧΗΜΑΤΑ ΑΣΦΑΛΙΣΗΣ ΤΟΥ ΟΧΗΜΑΤΟΣ

Κεφάλαιο 1 ο. Διοίκηση και διαχείριση της ψηφιακής επιχείρησης

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Συμπεριφορά Καταναλωτή στο Διαδραστικό Αγοραστικό Περιβάλλον στον Κλάδο του Τουρισμού

Κεφάλαιο 2 ο. Συστήματα Πληροφοριών στην επιχείρηση

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Pegasus ERP Start Up 738,00. Δυνατότητες Pegasus

Altius Επιλογές Σύνταξης. Γιατί το μέλλον είναι κοντά!

Οι καταναλωτικές συνήθειες των πολιτών του Δ. Χανίων ως προς την αγορά κρέατος. Sentiment Analysis/Cretan Polls

Ανάλυση Προγράμματος Εισαγωγή. Personal Freedom. Για να μην σας ανησυχεί το απρόοπτο.

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Ο ΟΙΚΟΝΟΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΤΟΥ ΓΥΜΝΑΣΤΗΡΙΟΥ. Created with Print2PDF. To remove this line, buy a license at:

Πτυχιακή Εργασία. Η στάση των Ελλήνων καταναλωτών έναντι των προϊόντων ιδιωτικής ετικέτας και των σούπερ μάρκετ

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΔΙΟΙΚΗΣΗ ΒΙΟΜΗΧΑΝΙΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ I ΟΙΚΟΝΟΜΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διδάκτορας Οικονομικού Πανεπιστημίου Αθηνών

ΔΕΛΤΙΟ ΤΥΠΟΥ ΧΡΗΣΗ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ: ΕΤΟΣ 2017

Τα logistics και οι επιχειρηματικές ευκαιρίες που προσφέρουν

Τσικολάτας Α. (2009) Customer Relationship Management - CRM. Πάτρα

Συστήματα Διοίκησης ΕΙΣΑΓΩΓΗ. Ηλεκτρονικές Συναλλαγές. Καθηγητής Δ. Ασκούνης, Δ. Πανόπουλος

ΜΑΝΟΛΗΣ ΑΝΔΡΟΥΛΑΚΗΣ ΔΙΑΚΕΚΡΙΜΕΝΟΣ ΑΣΦΑΛΙΣΤΙΚΟΣ ΣΥΜΒΟΥΛΟΣ ΣΥΓΓΡΟΥ 183 Ν. ΣΜΥΡΝΗ ΤΗΛ ΚΙΝ ΠΡΟΤΑΣΗ ΣΥΝΕΡΓΑΣΙΑΣ Ο.Λ.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 4. CRS Ερωτήσεις ΔΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ ΓΙΑ ΑΠΟΚΤΗΣΗ ΑΝΤΙΛΗΨΗΣ

Προσφερόμενα Διπλώματα (Προσφερόμενοι Τίτλοι)

1. Ποιο από τα παρακάτω είναι προϋπόθεση του επιτυχημένου μάρκετινγκ;

ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΚΑΙ ΠΟΛΙΤΙΣΜΟΥ ΥΠΗΡΕΣΙΑ ΕΞΕΤΑΣΕΩΝ ΠΑΓΚΥΠΡΙΕΣ ΕΞΕΤΑΣΕΙΣ 2018 ΤΕΧΝΟΛΟΓΙΑ ΙΙ ΤΕΧΝΙΚΩΝ ΣΧΟΛΩΝ ΠΡΑΚΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

Οικονομία - Επιχειρήσεις Μάρκετινγκ 1

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΓΙΑ ΝΕΑ ΕΠΙΧΕΙΡΗΣΗ ΤΕΧΝΟΛΟΓΙΑΣ

Πληροφορική 2. Τεχνητή νοημοσύνη

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΓΙΑ ΝΕΑ ΕΠΙΧΕΙΡΗΣΗ ΤΕΧΝΟΛΟΓΙΑΣ

ΕΠΙΧΕΙΡΗΜΑΤΙΚΑ ΣΧΕΔΙΑ

AΤΕΙ Θεσσαλονίκης - Παράρτημα Κατερίνης Τμήμα Τυποποίησης και Διακίνησης Προϊόντων (Logistics)

οικονομικές τάσεις Εκτεταμένη συνεργασία της εφοδιαστικής αλυσίδας. έργου FLUID-WIN το οποίο χρηματοδοτήθηκε από το 6ο Πρόγραμμα Πλαίσιο Παγκόσμιες

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Άγαμος/η Έγγαμος/η Διαζευγμένος/η Χήρος/α

Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

ΧΑΤΖΗΦΩΤΙΑΔΗΣ ΔΗΜΗΤΡΙΟΣ

Λογιστική Ισότητα. Επομένως η καθαρή θέση της επιχείρησης ισούται: Καθαρή θέση = Ενεργητικό Υποχρεώσεις

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

OptiplanFlex. Χαρακτηριστικά

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

«Ηλεκτρονικό Εμπόριο και Διαδικτυακή Συμπεριφορά Καταναλωτή» Ονοματεπώνυμο: Ελένη Σ. Γυμνοπούλου Σειρά: 8 η Επιβλέπων Καθηγητής: Αδάμ Π.

Shopper Research στις μεγάλες αλυσίδες Super Market

Που πάνε τα στοιχεία (data) μας; Κίνδυνοι από τρίτους φορείς

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Υποσυστήματα Πωλήσεων και Μάρκετινγκ

329 Στατιστικής Οικονομικού Παν. Αθήνας

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Βασισμένης σε Περιπτώσεις (Case Based Reasoning): Το σύστημα PAS (Property Appraisal System) ΣΤΑΥΡΟΥΛΑ ΠΡΑΝΤΣΟΥΔΗ

Βάσεις δεδομένων και Microsoft Access

Ο Ι ΚΟ Ν Ο Μ Ι Κ Α / Σ ΤΑΤ Ι Σ Τ Ι Κ Η

ΠΑΡΑΓΟΝΤΕΣ ΕΝΙΣΧΥΣΗΣ ΣΤΗΝ ΑΝΑΠΤΥΞΗ ΤΩΝ LOGISTICS Όσο λοιπόν αυξάνει η σημασία και οι απαιτήσεις του διεθνούς εμπορίου, τόσο πιο απαιτητικές γίνονται

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Ηλεκτρονικό Εμπόριο

ΒΑΣΙΚΟΙ ΤΟΜΕΙΣ ΑΝΑΦΟΡΑΣ ΕΝΟΣ BUSINESS PLAN. Εισαγωγή

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Διευκρινίσεις για τον Ανοιχτό τακτικό διαγωνισμό με αρ. πρωτ. 675/

2.1. Χρήση ως σπουδαστής

29 Σεπτεμβρίου Ετοιμάστηκε από την. Τελική Μελέτη για το Πανεπιστήμιο Κύπρου

Τεχνολογίες Πληροφορίας και Επικοινωνίας στον Τουρισμό (Γ εξάμηνο)

Transcript:

Δημιουργία και ανάλυση προφίλ επενδυτών σε ασφαλιστικά προϊόντα με χρήση εργαλείων Εξόρυξης Γνώσης ΚΑΡΑΠΑΤΣΙΔΗΣ ΔΗΜΗΤΡΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Επιβλέπων Καθηγητής: Εξεταστής: Σαμαράς Νικόλαος Παπαρίζος Κωνσταντίνος Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Θεσσαλονίκη Μάρτιος 2008

Copyright Καραπατσίδης Δημήτρης, 2007 Με επιφύλαξη παντός δικαιώματος. All rights reserved. Η έγκριση της μεταπτυχιακής εργασίας από το Τμήμα Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας δεν υποδηλώνει απαραιτήτως και αποδοχή των απόψεων του συγγραφέα εκ μέρους του Τμήματος. 2

ΠΕΡΙΛΗΨΗ Θα μελετηθούν και θα αναλυθούν δεδομένα 780 πελατών ασφαλιστικής εταιρίας σύμφωνα με το προφίλ τους και τα προϊόντα που επιλέγουν και θα προκύψουν συνδυαστικοί κανόνες. Για το σκοπό αυτό θα χρησιμοποιηθούν εργαλεία Εξόρυξης Γνώσης και συγκεκριμένα Δέντρα Απόφασης και ο αλγόριθμος C4.5. Στο τέλος της διαδικασίας θα ήμαστε σε θέση, σύμφωνα με το προφίλ των υποψήφιων επενδυτών πελατών, να προβλέπουμε τα προϊόντα που πιθανώς ταιριάζουν καλύτερα στους υποψήφιους πελάτες. 3

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1... 14 Εξόρυξη γνώσης (data mining)... 14 1.1 Τι είναι... 14 1.2 Συνεχής τεχνολογική ανάπτυξη... 14 1.3 Δεδομένα, πληροφορία και γνώση... 15 1.3.1 Δεδομένα... 15 1.3.2 Πληροφορία... 16 1.3.3 Γνώση... 16 1.4 Αποθήκες δεδομένων (Data Warehouses)... 16 1.5 Τι μπορεί να κάνει η εξόρυξη γνώσης;... 17 1.6 Πώς λειτουργεί η εξόρυξη γνώσης;... 18 1.7 Η τεχνολογική υποδομή που απαιτείται... 21 1.8 Ζητήματα που προκύπτουν από την τεχνολογία εξόρυξης γνώσης... 21 ΚΕΦΑΛΑΙΟ 2... 23 Δομή και Ανάλυση της Εργασίας... 23 2.1 Στόχος της Εργασίας... 23 2.1.1 Πρώτο Στάδιο... 24 2.1.2 Δεύτερο Στάδιο... 24 2.2 Δεδομένα... 25 2.3 Δομή Εργασίας... 56 ΚΕΦΑΛΑΙΟ 3... 58 Δέντρα Απόφασης... 58 4

3.1 Δέντρα απόφασης... 58 3.1.1 Ένας αλγόριθμος κατασκευής δέντρων απόφασης... 58 3.1.2 Παράδειγμα Δέντρου Απόφασης... 59 3.1.3 Δέντρα αποφάσεων για τη βάση δεδομένων προώθησης πιστωτικών καρτών. 65 3.1.4 Κανόνες δέντρων αποφάσεων... 67 3.1.5 Άλλες μέθοδοι κατασκευής δέντρων αποφάσεων... 69 3.1.6 Συνοψίζοντας... 69 3.2 Δημιουργία Συνδυαστικών Κανόνων... 70 3.2.1 Εμπιστοσύνη και υποστήριξη... 70 3.2.2 Γενικά... 72 ΚΕΦΑΛΑΙΟ 4... 74 Περιγραφή και Ανάλυση Δεδομένων... 74 4.1 Επιλογή Χαρακτηριστικών... 74 4.2 Στατιστική Ανάλυση Input χαρακτηριστικών... 76 4.2.1 Ηλικία... 76 4.2.2 Φύλλο... 77 4.2.3 Οικογενειακή κατάσταση... 77 4.2.4 Αριθμός Τέκνων... 78 4.2.5 Τέκνα ανά Οικ. Κατάσταση... 79 4.2.6 Επάγγελμα... 81 4.2.7 Επικινδυνότητα Επαγγέλματος... 81 4.2.8 Δημόσιο Ταμείο... 82 4.2.9 Έτη Ασφάλισης σε Δημόσιο Ταμείο... 83 4.2.10 Χρωστάει ή όχι σε... 84 5

4.2.11 Βασική Κάλυψη... 84 ΚΕΦΑΛΑΙΟ 5... 86 Φιλοσοφία Πειραμάτων... 86 5.1 Περιγραφή της Διαδικασίας... 86 5.2 Περιγραφή Πειραμάτων... 89 5.2.1 Πειράματα 1 6... 89 5.2.2 Πειράματα 7 8... 90 5.2.3 Πειράματα 9 14... 91 5.2.4 Πειράματα 15 20... 92 ΚΕΦΑΛΑΙΟ 6... 94 Αποτελέσματα Πειραμάτων... 94 6.1 1 ο Πείραμα, Training Data / Test Data = 1/1 random, No Pruning, Nodes Default... 94 6.1.1 Δέντρο απόφασης... 94 6.1.2 Classification Tree Model... 94 6.1.3 Tree Information... 94 6.1.4 Confusion Matrix... 95 6.1.5 Rule Summary Table... 96 6.1.6 Rule Text... 96 6.2 2 ο Πείραμα, Training Data / Test Data = 1/1 random, No Pruning, Nodes 5%... 97 6.2.1 Δέντρο απόφασης... 97 6.2.2 Classification Tree Model... 97 6.2.3 Tree Information... 98 6.2.4 Confusion matrix... 98 6.2.5 Rule Summary Table... 99 6

6.2.6 Rule Text... 100 6.3 3ο Πείραμα, Training Data / Test Data = 1/1 random, No Pruning, Nodes 10%... 101 6.3.1 Δέντρο απόφασης... 101 6.3.2 Classification Tree Model... 101 6.3.3 Tree Information... 101 6.3.4 Confusion Matrix... 102 6.3.5 Rule Summary Table... 103 6.3.6 Rule Text... 103 6.4 4 ο Πείραμα, Training Data / Test Data = 1/1 random, Pruning, Nodes Default... 104 6.4.1 Δέντρο απόφασης... 104 6.4.2 Classification Tree Model... 104 6.4.3 Tree Information... 104 6.4.4 Confusion Μatrix... 105 6.4.5 Rule Summary Table... 106 6.4.6 Rule Text... 106 6.5 5ο Πείραμα, Training Data / Test Data = 1/1 random, Pruning, Nodes 5%... 107 6.5.1 Δέντρο απόφασης... 107 6.5.2 Classification Tree Model... 107 6.5.3 Tree Information... 108 6.5.4 Confusion Matrix... 108 6.5.5 Rule Summary Table... 109 6.5.6 Rule Text... 110 6.6 6 ο Πείραμα, Training Data / Test Data = 1/1 random, Pruning, Nodes 10%... 110 6.6.1 Δέντρο απόφασης... 110 7

6.6.2 Classification Tree Model... 110 6.6.3 Tree Information... 111 6.6.4 Confusion Matrix... 111 6.6.5 Rule Summary Table... 112 6.6.6 Rule Text... 113 6.7 7 ο Πείραμα, Training Data: Όλα (780), Test Data: 390 Τυχαία, Nodes 5%... 113 6.7.1 Δέντρο απόφασης:... 113 6.7.2 Classification Tree Model... 113 6.7.3 Tree Information... 114 6.7.4 Confusion Matrix... 114 6.7.5 Rule Summary Table... 115 6.7.6 Rule Text... 116 6.8 8 ο Πείραμα, Training Data: Όλα (780), Test Data: 390 Τυχαία, Nodes 10%... 116 6.8.1 Δέντρο απόφασης... 116 6.8.2 Classification Tree Model... 116 6.8.3 Tree Information... 117 6.8.4 Confusion Matrix... 117 6.8.5 Rule Summary Table... 118 6.8.6 Rule Text... 119 6.9 9 ο Πείραμα, Training Data = 2/3, Test Data =1/3 (σύμφωνα με την ιεραρχία που προέκυψε), No Pruning, Nodes Default... 119 6.9.1 Δέντρο απόφασης... 119 6.9.2 Classification Tree Model... 119 6.9.3 Tree Information... 120 8

6.9.4 Confusion Matrix... 120 6.9.5 Rule Summary Table... 121 6.9.6 Rule Text... 122 6.10 10 ο Πείραμα, Training Data = 2/3, Test Data =1/3 (σύμφωνα με την ιεραρχία που προέκυψε), No Pruning, Nodes 5%... 123 6.10.1 Δέντρο απόφασης... 123 6.10.2 Classification Tree Model... 123 6.10.3 Tree Information... 123 6.10.4 Confusion Matrix... 124 6.10.5 Rule Summary Table... 125 6.10.6 Rule Text... 125 6.11 11 ο Πείραμα, Training Data = 2/3, Test Data =1/3 (σύμφωνα με την ιεραρχία που προέκυψε), No Pruning, Nodes 10%... 126 6.11.1 Δέντρο απόφασης... 126 6.11.2 Classification Tree Model... 126 6.11.3 Tree Information... 127 6.11.4 Confusion Matrix... 127 6.11.5 Rule Summary Table... 128 6.11.6 Rule Text... 128 6.12 12ο Πείραμα, Training Data = 2/3, Test Data =1/3 (σύμφωνα με την ιεραρχία που προέκυψε), Pruning, Nodes default... 129 6.12.1 Δέντρο απόφασης... 129 6.12.2 Classification Tree Model... 129 6.12.3 Tree Information... 130 6.12.4 Confusion Matrix... 130 9

6.12.5 Rule Summary Table... 131 6.12.6 Rule Text... 132 6.13 13ο Πείραμα, Training Data = 2/3, Test Data =1/3 (σύμφωνα με την ιεραρχία που προέκυψε), Pruning, Nodes 5%... 132 6.13.1 Δέντρο απόφασης... 132 6.13.2 Classification Tree Model... 132 6.13.3 Tree Information... 133 6.13.4 Confusion Matrix... 133 6.13.5 Rule Summary Table... 135 6.13.6 Rule Text... 135 6.14 14ο Πείραμα, Training Data = 2/3, Test Data =1/3 (σύμφωνα με την ιεραρχία που προέκυψε), Pruning, Nodes 10%... 136 6.14.1 Δέντρο απόφασης... 136 6.14.2 Classification Tree Model... 136 6.14.3 Tree Information... 136 6.14.4 Confusion Matrix... 137 6.14.5 Rule Summary Table... 138 6.14.6 Rule Text... 138 6.15 15ο Πείραμα, Training Data = All data Common Data, Test Data =Common Data (Κοινά δεδομένα πειραμάτων 1 6 και 9 14), No Pruning, Nodes default... 139 6.15.1 Δέντρο απόφαση... 139 6.15.2 Classification Tree Model... 139 6.15.3 Tree Information... 139 6.15.4 Confusion Matrix... 140 6.15.5 Rule Summary Table... 141 10

6.15.6 Rule Text... 142 6.16 16 ο Πείραμα, Test Data =Common Data Training Data = Rest Data, (Κοινά δεδομένα πειραμάτων 1 6 και 9 14), No Pruning, Nodes 5%... 143 6.16.1 Δέντρο απόφασης... 143 6.16.2 Classification Tree Model... 143 6.16.3 Tree Information... 143 6.16.4 Confusion Matrix... 144 6.16.5 Rule Summary Table... 145 6.16.6 Rule Text... 145 6.17 17ο Πείραμα, Test Data =Common Data Training Data = Rest Data (Κοινά δεδομένα πειραμάτων 1 6 και 9 14), No Pruning, Nodes 10%... 147 6.17.1 Δέντρο απόφασης... 147 6.17.2 Classification Tree Model... 147 6.17.3 Tree Information... 147 6.17.4 Confusion Matrix... 148 6.17.5 Rule Summary Table... 149 6.17.6 Rule Text... 149 6.18 18 ο Πείραμα, Test Data =Common Data Training Data = Rest Data (Κοινά δεδομένα πειραμάτων 1 6 και 9 14), Pruning, Nodes default... 150 6.18.1 Δέντρο απόφασης... 150 6.18.2 Classification Tree Model... 151 6.18.3 Tree Information... 151 6.18.4 Confusion Matrix... 151 6.18.5 Rule Summary Table... 153 6.18.6 Rule Text... 153 11

6.19 19 ο ΠείραμαTest Data =Common Data Training Data = Rest Data (Κοινά δεδομένα πειραμάτων 1 6 και 9 14), Pruning, Nodes 5%... 154 6.19.1 Δέντρο απόφασης... 154 6.19.2 Classification Tree Model... 154 6.19.3 Tree Information... 155 6.19.4 Confusion Matrix... 155 6.19.5 Rule Summary Table... 156 6.19.6 Rule Text... 157 6.20 20 ο Πείραμα, Test Data =Common Data Training Data = Rest Data (Κοινά δεδομένα πειραμάτων 1 6 και 9 14), Pruning, Nodes 10%... 158 6.20.1 Δέντρο απόφασης... 158 6.20.2 Classification Tree Model... 158 6.20.3 Tree Information... 158 6.20.4 Confusion Matrix... 159 6.20.5 Rule Summary Table... 160 6.20.6 Rule Text... 160 6.21 Ποσοστό σφάλματος κατηγοριοποιητή (classifier error rate)... 161 12

13

ΚΕΦΑΛΑΙΟ 1 Εξόρυξη γνώσης (data mining) 1.1 Τι είναι Ορίζουμε την εξόρυξη γνώσης (data mining) σαν τη διαδικασία της χρήσης μιας ή περισσοτέρων τεχνικών εκμάθησης υπολογιστών για την αυτόματη ανάλυση και εξαγωγή γνώσης από δεδομένα που περιέχονται σε μια βάση δεδομένων. Ο σκοπός μιας συνεδρίας εξόρυξης δεδομένων είναι να εντοπίσει τάσεις και μοτίβα στα δεδομένα. Γενικά, η εξόρυξη γνώσης είναι διαδικασία μιας πολύπλευρης ανάλυσης δεδομένων και εξαγωγής χρήσιμων πληροφοριών, πληροφορίες που μπορούν να χρησιμοποιηθούν για να αυξήσουν τα έσοδα, να μειώσουν τις δαπάνες ή και οι δύο. Η διαδικασία εξόρυξης γνώσης είναι ένα από τα πολλά εργαλεία που χρησιμοποιούνται στην ανάλυση δεδομένων. Επιτρέπει στους χρήστες την ανάλυση δεδομένων από πολλές διαφορετικές σκοπιές, την ταξινόμηση, το συνοψισμό και τελικά την εξαγωγή των σχέσεων που προσδιορίζονται από τη διαδικασία. Τεχνικά, η εξόρυξη γνώσης είναι η διαδικασία της εύρεσης συσχετισμών ή μοτίβων μεταξύ των πεδίων στις μεγάλες σχεσιακές βάσεις δεδομένων (Sushmita & Tinku, 2003, Larose 2005). Η ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases KDD) είναι ένας όρος που συχνά χρησιμοποιείται εναλλακτικά με την εξόρυξη γνώσης. Τεχνικά, είναι η εφαρμογή της επιστημονικής μεθόδου για εξόρυξη γνώσης. Εκτός από την εκτέλεση εξόρυξης γνώσης, ένα τυπικό μοντέλο διαδικασίας KDD περιλαμβάνει μια μεθοδολογία για εξαγωγή και προετοιμασία γνώσης, καθώς επίσης και τη λήψη αποφάσεων σχετικά με ενέργειες που πρέπει να γίνουν όταν ολοκληρωθεί η εξόρυξη γνώσης (Larose 2005). 1.2 Συνεχής τεχνολογική ανάπτυξη Αν και η εξόρυξη γνώσης είναι ένας σχετικά νέος όρος, η τεχνολογία που χρησιμοποιείται δεν είναι. Οι επιχειρήσεις χρησιμοποιούν ισχυρούς υπολογιστές που 14

σαρώνουν τον όγκο των δεδομένων τους και αναλύουν εκθέσεις ερευνών αγοράς πολλών ετών. Εντούτοις, η συνεχής ανάπτυξη της επεξεργαστικής ισχύς των υπολογιστών, της δυνατότητας αποθήκευσης, και του λογισμικού στατιστικών αναλύσεων, αύξησαν εντυπωσιακά την ακρίβεια και την ποσότητα των αναλύσεων με ταυτόχρονη μείωση του κόστους των διαδικασιών. Παράδειγμα Παραδείγματος χάριν, μια αλυσίδα super market χρησιμοποίησε τις δυνατότητες που παρέχει η εξόρυξης γνώσης του λογισμικού Oracle, για να αναλύσει τις τοπικές αγοραστικές συνήθειες. Ανακάλυψαν ένα πολύ ενδιαφέρον εύρημα. Όταν οι άντρες αγόραζαν πάνες τις Πέμπτες και τα Σάββατα, είχαν επίσης μία τάση στο να αγοράσουν και μπύρα. Η περαιτέρω ανάλυση έδειξε ότι αυτοί οι αγοραστές έκαναν τα εβδομαδιαία ψώνια τους τα Σάββατα. Τις Πέμπτες, οι αγορές ήταν συμπληρωματικές. Η επιχείρηση κατέληξε στο συμπέρασμα ότι αγόραζαν την μπύρα για να την έχουν διαθέσιμη για το Σαββατοκύριακο. Η αλυσίδα super market θα μπορούσε να χρησιμοποιήσει αυτές τις νέες πληροφορίες με διάφορους τρόπους ώστε να αυξήσει το τζίρο της. Παραδείγματος χάριν, θα μπορούσαν να προβάλλουν τη μπύρα πιο κοντά στο σημείο που εκθέτουν τις πάνες. Και, θα μπορούσαν να πωλούν τη μπύρα και τις πάνες στην πλήρη τους τιμή τις Πέμπτες, αφήνοντας τις προσφορές σε αυτά τα αγαθά, για άλλες μέρες της εβδομάδας (Palace, 1996). 1.3 Δεδομένα, πληροφορία και γνώση 1.3.1 Δεδομένα Ως δεδομένα μπορούν να θεωρηθούν οποιαδήποτε γεγονότα, αριθμοί, ή κείμενο τα οποία μπορούν να υποβληθούν σε επεξεργασία από έναν υπολογιστή. Σήμερα, οι επιχειρήσεις και οι οργανισμοί συσσωρεύουν τα απέραντα και αυξανόμενα ποσά δεδομένων διαφορετικών format και διαφορετικών βάσεων δεδομένων. Αυτό περιλαμβάνει: 15

Δεδομένα λειτουργίας της επιχείρησης ή δεδομένα συναλλαγών όπως, πωλήσεις, κόστη, απογραφές, μισθοδοσία, και λογιστικά. Δεδομένα όχι άμεσης λειτουργίας της επιχείρησης, αλλά εξίσου χρήσιμα, όπως τις πωλήσεις του βιομηχανικού κλάδου, δεδομένα προβλέψεων στην οικονομία, μακροοικονομικά δεδομένα κ.α. Μετα-δεδομένα (meta-data), δεδομένα για τα ίδια τα δεδομένα, με πληροφορίες όπως ο λογικός σχεδιασμός μιας βάσης δεδομένων, ή οι λεκτικοί ορισμοί δεδομένων κ.α. 1.3.2 Πληροφορία Τα μοτίβα, οι συσχετισμοί, ή οι σχέσεις μεταξύ όλων αυτών των δεδομένων, μπορούν να παρέχουν τις πληροφορίες. Παραδείγματος χάριν, η ανάλυση των δεδομένων των σημείων πώλησης λιανικής, μπορεί να εξάγει πληροφορίες για το ποια προϊόντα πωλούνται που και πότε. 1.3.3 Γνώση Οι πληροφορίες μπορούν να μετατραπούν σε γνώση για τα μοτίβα ιστορικού δεδομένων και για μελλοντικές τάσεις. Παραδείγματος χάριν, οι συγκεντρωτικές πληροφορίες για τις λιανικές πωλήσεις των super markets, μπορούν να αναλυθούν λαμβάνοντας υπόψη τις επιδράσεις που είχαν οι ενέργειες προώθησης, ώστε να παρασχεθεί η γνώση της συμπεριφοράς της καταναλωτικής αγοράς. Κατά συνέπεια, ένας κατασκευαστής ή ένας πωλητής θα μπορούσε να καθορίσει ποια στοιχεία είναι τα πιο κρίσιμα και ουσιαστικά στις ενέργειές του για προώθηση και διαφήμιση των προϊόντων. 1.4 Αποθήκες δεδομένων (Data Warehouses) Η μεγάλη πρόοδος στη συλλογή δεδομένων, στη δύναμη επεξεργασίας, στη μεταφορά, και στην ικανότητα αποθήκευσης δεδομένων, επιτρέπουν στους οργανισμούς να ενσωματώσουν τις διάφορες βάσεις δεδομένων τους στις αποθήκες δεδομένων (Data Warehouses). Η αποθήκευση δεδομένων ορίζεται ως μια διαδικασία συγκέντρωσης της 16

διαχείρισης και της ανάκτησης των δεδομένων. Ο όρος data warehouse, όπως και ο όρος εξόρυξη γνώσης, είναι ένας σχετικά νέος όρος αν και η ίδια η έννοια υπήρχε για χρόνια. Η αποθήκευση δεδομένων αντιπροσωπεύει ένα ιδανικό όραμα ύπαρξης μιας κεντρικής αποθήκευσης των δεδομένων όλων των οργανισμών που διατηρούν δεδομένα. Η συγκέντρωση των δεδομένων απαιτείται για να μεγιστοποιηθεί η πρόσβαση και η δυνατότητα ανάλυσης από τους χρήστες. Οι μεγάλες τεχνολογικές αλλαγές, κάνουν αυτό το όραμα μια πραγματικότητα για πολλές επιχειρήσεις. Επίσης, οι εξίσου μεγάλες αλλαγές στο λογισμικό ανάλυσης δεδομένων, επιτρέπει στους χρήστες να έχουν πρόσβαση σε αυτά τα δεδομένα ελεύθερα. Λογισμικό ανάλυσης δεδομένων θεωρείται οποιοδήποτε λογισμικό υποστηρίζει την εξόρυξη γνώσης (Wang 2006). 1.5 Τι μπορεί να κάνει η εξόρυξη γνώσης; Η εξόρυξη γνώσης χρησιμοποιείται από τις επιχειρήσεις, εστιάζοντας κυρίως στους καταναλωτές λιανικής, σε χρηματοοικονομικά και δημοσιονομικά θέματα, στην επικοινωνία, και στο marketing. Επιτρέπει σε αυτές τις επιχειρήσεις να καθορίσουν τις σχέσεις μεταξύ των "εσωτερικών" παραγόντων όπως της τιμή, του προσδιορισμού της θέσης των προϊόντων, ή των ικανοτήτων και δεξιοτήτων του υπαλληλικού προσωπικού και των "εξωτερικών" παραγόντων όπως οι οικονομικοί δείκτες, ο ανταγωνισμός, και τα δημογραφικά δεδομένα των πελατών. Επιτρέπει την εκτίμηση των επιπτώσεων διαφόρων παραγόντων στις πωλήσεις, την ικανοποίηση πελατών και τελικά την αύξηση των εταιρικών κερδών. Με την εξόρυξη γνώσης, ένας πωλητής θα μπορούσε να χρησιμοποιήσει τις καταχωρήσεις πελατών από τα διάφορα σημεία πώλησης, ώστε να κάνει στοχοθετημένες προωθήσεις προϊόντων (στοχοθετημένο marketing), βασισμένες στο ιστορικό αγορών ενός πελάτη. Με την εξαγωγή των δημογραφικών δεδομένων, ο πωλητής θα μπορούσε να αναπτύξει προϊόντα και marketing, ώστε να απευθυνθεί σε συγκεκριμένες κατηγορίες πελατών. Το WalMart εφάρμοσε μια πρωτοποριακή μαζική διαδικασία εξόρυξη γνώσης για να 17

αναβαθμίσει τις σχέσεις της εταιρίας με τους προμηθευτές. Καταγράφει συναλλαγές σε πάνω από 2900 καταστήματα σε 6 χώρες και μεταδίδει συνεχώς τα δεδομένα σε 7,5 terabyte αποθήκη δεδομένων. Το WalMart επιτρέπει σε περισσότερους από 3.500 προμηθευτές, να έχουν πρόσβαση στα δεδομένα, όσον αφορά τα προϊόντα τους και να εκτελούν αναλύσεις δεδομένων. Οι προμηθευτές αυτοί χρησιμοποιούν τα δεδομένα αυτά για να προσδιορίσουν τις αγοραστικές συνήθειες των πελατών. Χρησιμοποιούν αυτές τις πληροφορίες για να διαχειριστούν τα τοπικά καταστήματα και να προσδιορίσουν νέες ευκαιρίες πώλησης. Το National Basketball Association of USA (NBA), εφαρμόζει μια τεχνική εξόρυξης δεδομένων που μπορεί να χρησιμοποιηθεί σε συνδυασμό με την εγγραφή video σε αγώνες μπάσκετ. Το λογισμικό Advanced Scout αναλύει τις κινήσεις των παικτών για να βοηθήσει τους προπονητές να εφαρμόσουν νέες και καλύτερες στρατηγικές. Για παράδειγμα, μια λεπτομερής ανάλυση σε ένα παιχνίδι μεταξύ των New York Knicks και των Cleveland Cavaliers το 1995, αποκάλυψε ότι όταν ο Mark Price έπαιξε σε θέση Guard, ο John Williams έκανε τέσσερις προσπάθειες για jump shot και ευστόχησε σε όλες! Το Advanced Scout όχι μονό ανακάλυψε αυτό το στοιχείο, αλλά εξηγεί ότι είναι και πολύ ενδιαφέρον, διότι διαφέρει σημαντικά από το μέσο όρο του 49,30% ευστοχίας για τους Cavaliers κατά τη διάρκεια του παιχνιδιού. Ένας προπονητής στο NBA, μπορεί με έναν αυτοματοποιημένο τρόπο να ανατρέξει στα video που δείχνουν τα shots που επιχείρησε ο Williams με αντίπαλο τον Price, χωρίς να χρειάζεται να ψάχνει με τις ώρες στο video του αγώνα, ώστε να βρει κάποια συγκεκριμένη φάση (Witten & Eibe 2005, Nong 2003). 1.6 Πώς λειτουργεί η εξόρυξη γνώσης; Ενώ η μεγάλης κλίμακας πληροφοριακή τεχνολογία έχει εξελιχθεί σε δύο ξεχωριστά συστήματα, της συναλλαγής και της ανάλυσης, η εξόρυξη γνώσης έρχεται για να παίξει το ρόλο του συνδέσμου μεταξύ των δύο. Το λογισμικό εξόρυξης γνώσης, αναλύει τις σχέσεις και τα μοτίβα στα αποθηκευμένα δεδομένα συναλλαγής, βασισμένα στα αμέτρητα ερωτήματα των χρηστών. Διάφοροι τύποι λογισμικού ανάλυσης είναι 18

διαθέσιμοι: στατιστική ανάλυση, μηχανική εκμάθηση, και νευρωνικά δίκτυα. Γενικά, επιδιώκεται οποιοσδήποτε από τους τέσσερις τύπους σχέσεων: Κατηγορίες (Classes): Τα αποθηκευμένα δεδομένα χρησιμοποιούνται για να εντοπίσουν πληροφορίες για προκαθορισμένες ομάδες. Παραδείγματος χάριν, μια αλυσίδα εστιατορίων θα μπορούσε να εξαγάγει τις καταναλωτικές συνήθειες των πελατών, που καθορίζονται από τις επισκέψεις αυτών και να τις αναλύσει, λειτουργώντας με βάση το τι πραγματικά η ανάλυση αυτή επιτάσσει. Αυτές οι πληροφορίες θα μπορούσαν να ενδεχομένως να χρησιμοποιηθούν για να αυξήσουν την κατανάλωση των σπεσιαλιτέ της ημέρας. Ομάδες (Clusters): Τα δεδομένα ομαδοποιούνται σύμφωνα με λογικές σχέσεις ή καταναλωτικές προτιμήσεις. Παραδείγματος χάριν, τα δεδομένα μπορούν να εξαχθούν για να προσδιορίσουν τους τομείς της αγοράς ή τις καταναλωτικές συγγένειες. Σχέσεις (Associations): Τα δεδομένα μπορούν να εξαχθούν για να προσδιορίσουν τις σχέσεις. Το παράδειγμα μπύρα-πάνες είναι ένα παράδειγμα του συνειρμικού- σχεσιακού data mining. Σειριακά μοτίβα (Sequential patterns): Τα δεδομένα εξάγονται ώστε να προβλεφθούν τα μοτίβα και οι τάσεις συμπεριφοράς. Παραδείγματος χάριν, ένας πωλητής εξοπλισμού ειδών εξοχής, θα μπορούσε να προβλέψει την πιθανότητα πώλησης ενός σακιδίου πλάτης, βασισμένος στην αγορά από έναν πελάτη, υπνόσακου και παπουτσιών πεζοπορίας. Η εξόρυξη γνώσης περιλαμβάνει πέντε σημαντικά στάδια: Συλλογή των Δεδομένων (Data Warehousing, Web Crawling, ) Καθαρισμός Δεδομένων (Data Cleaning) Επεξεργασία εμπλουτισμός των δεδομένων Feature Extraction: Επιλογή των σημαντικών γνωρισμάτων Εφαρμογή Μοντέλων/Αλγορίθμων Εξόρυξης Δεδομένων 19

Απεικόνιση/αξιολόγηση των αποτελεσμάτων Τα διαφορετικά επίπεδα ανάλυσης που είναι διαθέσιμα: Τεχνητά νευρωνικά δίκτυα (Artificial neural networks): Μη γραμμικά προβλεπτικά μοντέλα που μαθαίνουν μέσω της εκπαίδευσης και μοιάζουν στη δομή με τα βιολογικά νευρικά δίκτυα. Γενετικοί αλγόριθμοι (Genetic algorithms): Οι τεχνικές βελτιστοποίησης που χρησιμοποιούν διαδικασίες επεξεργασίας όπως ο γενετικός συνδυασμός, η μεταλλαγή (combination), και η φυσική επιλογή σε ένα μοτίβο, βασίστηκαν στις έννοιες της φυσικής εξέλιξης. Δέντρα απόφασης (Decision trees): Δέντρο-διαμορφωμένες δομές που αντιπροσωπεύουν τα σύνολα αποφάσεων. Αυτές οι αποφάσεις παράγουν τους κανόνες για την ταξινόμηση ενός συνόλου δεδομένων. Μια απλή δομή όπου οι μη τερματικοί κόμβοι αντιπροσωπεύουν τα αποτελέσματα των αποφάσεων. Τα δέντρα αποφάσεων έχουν διάφορα πλεονεκτήματα, όπως το ότι είναι εύκολο να τα καταλάβουμε, μπορούν να μετασχηματιστούν σε κανόνες και πειραματικά έχει αποδειχθεί ότι λειτουργούν πολύ καλά. Με τα δέντρα απόφασης και ειδικά με τον αλγόριθμο C4.5 θα ασχοληθούμε εκτενέστερα στα επόμενα κεφάλαιο, καθώς εκεί βασίστηκε η εργασία. Μέθοδος κοντινότερων γειτόνων (Nearest neighbor method): Μια τεχνική που ταξινομεί κάθε εγγραφή σε ένα σύνολο δεδομένων βασισμένο σε έναν συνδυασμό των ταξινομήσεων των εγγραφών Κ και του πιο κοντινού συγγενή με το Κ σε ένα ιστορικό σύνολο δεδομένων. Μερικές φορές καλείται k-nearest neighbor technique. Επαγωγή κανόνα (Rule induction): Η εξαγωγή των χρήσιμων if-then κανόνων από τα δεδομένα, βασιζόμενα στη στατιστική σημασία. Απεικόνιση στοιχείων (Data visualization): Η οπτική ερμηνεία των σύνθετων 20

σχέσεων στα πολυδιάστατα δεδομένα. Τα εργαλεία γραφικής αναπαράστασης χρησιμοποιούνται για να επεξηγήσουν τις σχέσεις των δεδομένων (Thearling 2007). 1.7 Η τεχνολογική υποδομή που απαιτείται Σήμερα, οι εφαρμογές εξόρυξης γνώσης είναι διαθέσιμες σε όλων των μεγεθών υπολογιστικά συστήματα κεντρικών υπολογιστών, clients/servers, και PCs. Οι τιμές των συστημάτων ποικίλουν από μερικές χιλιάδες δολάρια για μικρότερες εφαρμογές μέχρι κάποια εκατομμύρια δολάρια. Οι enterprise-wide εφαρμογές κυμαίνονται γενικά από 10 gigabytes σε πάνω από 11 terabyte. Υπάρχουν δύο κρίσιμοι τεχνολογικοί οδηγοί: Μέγεθος της βάσης δεδομένων: τα πολλά δεδομένα απαιτούν ισχυρότερα συστήματα. Πολυπλοκότητα ερώτησης: όσο πιο σύνθετες και όσο περισσότερες οι ερωτήσεις, τόσο ισχυρότερο σύστημα απαιτείται. Οι σχεσιακές βάσεις δεδομένων είναι επαρκείς για πολλές εφαρμογές εξόρυξης γνώσης σε βάσης μικρότερες από 50 gigabytes. Εντούτοις, αυτή η υποδομή πρέπει να ενισχυθεί σημαντικά για να υποστηρίξει μεγαλύτερες εφαρμογές. Μερικοί προμηθευτές έχουν προσθέσει τις εκτενείς δυνατότητες ευρετηρίασης για να αναβαθμίσουν την απόδοση. Άλλοι χρησιμοποιούν τις νέες αρχιτεκτονικές hardware όπως οι πολλαπλοί παράλληλοι επεξεργαστές (Massively Parallel Processors-MPP) για να επιτύχουν βελτιώσεις στο χρόνο επεξεργασίας. Παραδείγματος χάριν, τα συστήματα MPP από τη NCR συνδέουν εκατοντάδες ισχυρών επεξεργαστών Pentium για να επιτύχουν επίπεδα απόδοσης που υπερβαίνουν ακόμα και εκείνα των μεγαλύτερων υπερυπολογιστών. 1.8 Ζητήματα που προκύπτουν από την τεχνολογία εξόρυξης γνώσης Ένα από τα καίρια ζητήματα που πρόεκυψαν από την τεχνολογία εξόρυξης δεδομένων δεν είναι επιχειρησιακό ή τεχνολογικό, αλλά κοινωνικό. Είναι το ζήτημα της ιδιωτικής 21

ζωής του άτομου. Η εξόρυξη δεδομένων επιτρέπει την ανάλυση επιχειρηματικών συναλλαγών και συγκεντρώνει ένα σημαντικό αριθμό πληροφοριών σχετικά με ιδιώτες, αγοραστικές συνήθειες και καταναλωτικές προτιμήσεις. Ένα άλλο ζήτημα είναι αυτό της ακεραιότητας των δεδομένων. Σαφώς, η ανάλυση των δεδομένων μπορεί να είναι μονό τόσο καλή όσο και τα στοιχειά που αναλύονται. Μια βασική πρόκληση είναι η ενσωμάτωση εφαρμογής αλληλοσυγκρουόμενα ή περιττά δεδομένα από διαφορετικές πηγές, να εξουδετερώνονται. Για παράδειγμα, μια τράπεζα μπορεί να διατηρήσει λογαριασμούς πιστωτικών καρτών σε πολλές διαφορετικές βάσεις δεδομένων. Θα πρέπει να υπάρχει μηχανισμός εντοπισμού ίδιων εγγραφών ακόμα και αν δεν έχουν καταγραφεί ακριβώς ίδιες στις διαφορετικές βάσεις. Ένα τεχνικό θέμα που συζητείται, είναι το κατά πόσον είναι προτιμότερο να συσταθεί μια σχεσιακή βάση δεδομένων ή μια πολυδιάστατη. Σε μια σχεσιακή δομή, τα δεδομένα αποθηκεύονται σε πινάκες και επιτρέπονται ειδικές αναζητήσεις. Σε μια πολυδιάστατη δομή, σύνολα κύβων είναι οργανωμένα σε πινάκες, που δημιουργήθηκαν με υποσύνολα ανάλογα με την κατηγορία. Ενώ πολυδιάστατες δομές διευκολύνουν πολυδιάστατη εξόρυξης δεδομένων, σχεσιακές δομές έχουν μέχρι στιγμής καλύτερα αποτελέσματα σε clients/servers. Και, με την έκρηξη του Διαδικτύου, ο κόσμος ανήκει πλέον σε ένα μεγάλο client/server περιβάλλον. Τέλος, υπάρχει το ζήτημα του κόστους. Ενώ το κόστος hardware έχει μειωθεί σημαντικά τα τελευταία χρόνια, η εξόρυξη δεδομένων και η αποθήκευση δεδομένων τείνουν να έχουν μία ανεξάρτητη πορεία. Όσο ισχυρότερη είναι η δυνατότητα αναζήτησης, τόσο μεγαλύτερη είναι και η χρησιμότητα των πληροφοριών που προκύπτουν από τα δεδομένα, και τόσο μεγαλύτερη η πίεση για την αύξηση της ποσότητας των δεδομένων που συλλέγονται και διατηρούνται, η οποία αυξάνει την πίεση για πιο γρήγορη, πιο ισχυρή αναζήτηση. Αυτό αυξάνει την πίεση για μεγαλύτερα, ταχύτερα συστήματα. Όλη αυτή η διαδικασία αποτελεί έναν κύκλο που διατηρεί υψηλό το κόστος (Palace, 1996). 22

ΚΕΦΑΛΑΙΟ 2 Δομή και Ανάλυση της Εργασίας 2.1 Στόχος της Εργασίας Στόχος της παρούσης διπλωματικής εργασίας είναι η μελέτη και η ανάλυση πραγματικών δεδομένων από περίπου 800 πελάτες ασφαλιστικής εταιρίας σε ασφαλιστήρια ζωής, οι καλύψεις των οποίων έγιναν σύμφωνα με τις πραγματικές τους ανάγκες, όπως αυτές εκτιμηθήκαν από έμπειρους ασφαλιστές. Η μελέτη η οποία θα πραγματοποιηθεί με εργαλεία εξόρυξης δεδομένων θα έχει ως στόχο για κάθε νέο υποψήφιο πελάτη της εταιρίας και σύμφωνα με το προφίλ του, να του προτείνεται ένα πακέτο κάλυψης, το οποίο θα είναι σύμφωνο με το πακέτο κάλυψης που θα του είχε προτείνει το γραφείο, βασιζόμενο στην εμπειρία του. Αυτό θα μπορούσε να βρει εφαρμογή σε νέους και άπειρους ασφαλιστές, οι οποίοι θα μπορούν ουσιαστικά να εκμεταλλεύονται την καταγεγραμμένη γνώση και εμπειρία του ασφαλιστικού γραφείου που ευγενικά μας παραχώρησε τα δεδομένα αυτά. Επίσης θα μπορούσε να χρησιμοποιηθεί και ως ένα εργαλείο εκπαίδευσης των νέων ασφαλιστών. Για τη συλλογή των δεδομένων υπήρξε συνεργασία με το μεσιτικό γραφείο ασφαλίσεων της κ. Θεοδώρας Καντζούρη στην Κοζάνη. Το γραφείο έχει πολυετή παρουσία στην πόλη της Κοζάνης και αριθμεί πολλούς πελάτες από όλη τη Δυτική Μακεδονία σε όλους τους ασφαλιστικούς τομείς. Στο σημείο αυτό θα ήθελα να ευχαριστήσω προσωπικά την κυρία Καντζούρη για το ενδιαφέρον που έδειξε για το εγχείρημα, την πίστη της για τα οφέλη που θα αποκόμιζε η επιχείρησή της και ο ασφαλιστικός κλάδος από μία τέτοια προοπτική και για τη διάθεσή της να βοηθήσει με κάθε τρόπο. Η βοήθειά της ήταν καταλυτική για την εξέλιξη της εργασίας. 23

2.1.1 Πρώτο Στάδιο Στο πρώτο στάδιο της συνεργασίες η συζήτηση αφορούσε το προφίλ των πελατών και πια εκείνα τα χαρακτηριστικά που διαφοροποιούν την επιλογή ασφαλιστικού προϊόντος στα ασφαλιστήρια ζωής. Καταλήξαμε στα εξής χαρακτηριστικά: 1. Ηλικία 2. Φύλλο 3. Η οικογενειακή κατάσταση του πελάτη 4. Ο αριθμός τέκνων 5. Επάγγελμα 6. Επικινδυνότητα επαγγέλματος 7. Αν ο πελάτης είναι ή όχι ασφαλισμένος σε κάποιο δημόσιο ταμείο 8. Τα χρόνια της ασφάλισής του στο δημόσιο ταμείο 9. Αν ο πελάτης χρωστάει ή όχι σε δάνειο Όπως είναι φυσικό, για λόγους δεοντολογίας, δεν ασχοληθήκαμε καθόλου με τα ονόματα των ασφαλισμένων, κάτι που θα παρέβαινε την αρχή του απορρήτου που υπάρχει μεταξύ των ασφαλιστών και των πελατών τους. Εξάλλου κάτι τέτοιο δεν θα προσέφερε τίποτα επιπλέον στη μελέτη μας. Ένα ίσως στοιχείο που θα βοηθούσε την έρευνα είναι το εισόδημα των ασφαλισμένων, κάτι για το οποίο δυστυχώς δεν υπήρχαν ακριβή στοιχεία και έτσι προτιμήθηκε να μην αποτελέσει κριτήριο, δεδομένου ότι καλύπτεται σε μεγάλο ποσοστό από τα υπόλοιπα χαρακτηριστικά. 2.1.2 Δεύτερο Στάδιο Το δεύτερο στάδιο ήταν η επίπονη ανεύρεση όλων αυτών των ασφαλιστηρίων συμβολαίων ζωής, από όπου και θα συλλέγαμε τα χρήσιμα για την έρευνά μας χαρακτηριστικά. Χρησιμοποιήθηκαν τελικά 780 ασφαλιστήρια συμβόλαια, δείγμα που κρίνεται πολύ ικανοποιητικό για τη μελέτη και για τις απαιτήσεις των μεθόδων που θα χρησιμοποιηθούν. 24

Τα ασφαλιστικά προϊόντα (καλύψεις) αυτών των πελατών περιλαμβάνουν 15 διαφορετικά προϊόντα: 1. Σύνταξη με εγγυημένο επιτόκιο 2. Σύνταξη σε 3. Προγράμματα 4. Ισόβια ισοβίων πληρωμών 5. Απώλεια ζωής 6. Κάλυψη δόσης θανάτου ή Μόνιμης Ολικής Ανικανότητας (Μ.Ο.Α.) 7. Σύνταξη λόγω Μόνιμης Ολικής Ανικανότητας 8. Πλήρη νοσοκομειακή περίθαλψη (100%) 9. Νοσοκομειακή περίθαλψη όταν υπάρχει και δεύτερο ταμείο (80%) 10. Σοβαρές ασθένειες 11. Διαγνωστικές εξετάσεις 12. Απώλεια εισοδήματος λόγω ατυχήματος 13. Απώλεια εισοδήματος λόγω ασθενείας 14. Απώλεια εισοδήματος λόγω ατυχήματος και ασθενείας 15. Προσωπικό ατύχημα Τα προϊόντα 1, 2 και 3, ανήκουν στη γενική κατηγορία ΣΥΝΤΑΞΗ, τα 4, 5 και 6, στη γενική κατηγορία ΘΑΝΑΤΟΣ και τα υπόλοιπα στην κατηγορία ΑΣΘΕΝΕΙΑ. Αυτές οι τρεις μεγάλες κατηγορίες είναι οι καταστάσεις που μπορεί να έρθει ένας άνθρωπος και αυτά είναι όλες οι δυνατότητες που έχει κάποιος στην επιλογή ενός ασφαλιστηρίου συμβολαίου ζωής. 2.2 Δεδομένα Αναλυτικά τα δεδομένα παρουσιάζονται στον παρακάτω πίνακα: 25

Πίνακας 2.1 Δεδομένα Πελατών Α/Α Ηλικία Φύλλο Οικογενειακή κατάσταση Αριθμός Τέκνων Επάγγελμα Επικινδυνότητα Επαγγέλματος Ασφαλισμένος σε Δημόσιο Ταμείο Έτη Ασφάλισης σε Δημόσιο Ταμείο Χρωστάει ή όχι σε δάνειο Βασική Κάλυψη 1 30-45 Άνδρας Παντρεμένος 2 2 30-45 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 3 30-45 Άνδρας Παντρεμένος 1 1 ΤΕΒΕ 15+ 4 25-30 Άνδρας Άγαμος 0 5 30-45 Γυναίκα Άγαμος 0 1 ΔΗΜΟΣΙΟΥ 0-15 6 30-45 Άνδρας Παντρεμένος 2 7 20-25 Άνδρας Παντρεμένος 1 2 ΔΕΗ 0-15 8 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 9 30-45 Γυναίκα Παντρεμένος 2 10 30-45 Γυναίκα Παντρεμένος 2 11 30-45 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 12 30-45 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 13 30-45 Γυναίκα Παντρεμένος 2 1 ΤΕΒΕ 15+ 14 30-45 Γυναίκα Παντρεμένος 2 1 ΤΕΒΕ 15+ 15 20-25 Γυναίκα Άγαμος 0 16 30-45 Άνδρας Παντρεμένος 2 1 ΌΧΙ 0-15 17 30-45 Άνδρας Άγαμος 0 2 ΙΚΑ 0-15 18 30-45 Άνδρας Παντρεμένος 1 1 ΤΕΒΕ 15+ 19 30-45 Γυναίκα Παντρεμένος 3 1 ΙΚΑ 15+ 20 30-45 Γυναίκα Παντρεμένος 3 1 ΙΚΑ 15+ 21 30-45 Γυναίκα Παντρεμένος 3 1 ΤΕΒΕ 15+ 22 25-30 Άνδρας Παντρεμένος 0 3 ΙΚΑ 0-15 23 25-30 Γυναίκα Παντρεμένος 0 24 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 25 30-45 Άνδρας Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 15+ 26

26 30-45 Γυναίκα Παντρεμένος 2 27 30-45 Άνδρας Παντρεμένος 1 28 30-45 Γυναίκα Άγαμος 0 29 30-45 Άνδρας Παντρεμένος 2 30 30-45 Άνδρας Παντρεμένος 1 31 25-30 Άνδρας Παντρεμένος 1 32 30-45 Άνδρας Παντρεμένος 2 33 30-45 Γυναίκα Παντρεμένος 0 34 30-45 Άνδρας Παντρεμένος 2 35 25-30 Άνδρας Παντρεμένος 2 36 25-30 Άνδρας Παντρεμένος 2 37 25-30 Γυναίκα Παντρεμένος 1 38 20-25 Γυναίκα Παντρεμένος 1 39 30-45 Άνδρας Παντρεμένος 1 40 25-30 Άνδρας Παντρεμένος 1 41 25-30 Άνδρας Παντρεμένος 1 42 25-30 Γυναίκα Παντρεμένος 1 43 30-45 Άνδρας Παντρεμένος 2 44 30-45 Άνδρας Παντρεμένος 2 45 30-45 Γυναίκα Παντρεμένος 1 46 30-45 Άνδρας Παντρεμένος 2 47 30-45 Άνδρας Παντρεμένος 1 48 25-30 Γυναίκα Άγαμος 0 49 25-30 Άνδρας Άγαμος 0 50 30-45 Άνδρας Άγαμος 0 51 30-45 Άνδρας Παντρεμένος 3 52 30-45 Άνδρας Παντρεμένος 3 53 30-45 Άνδρας Παντρεμένος 3 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 2 ΔΕΗ 15+ 2 ΔΕΗ 0-15 2 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΕΗ 15+ 1 ΔΕΗ 0-15 2 ΔΕΗ 0-15 2 ΔΕΗ 0-15 2 ΔΗΜΟΣΙΟΥ 0-15 2 ΙΚΑ 0-15 E. Απώλεια ζωής 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής D. Ισόβια ισόβιων 1 ΔΗΜΟΣΙΟΥ 0-15 πληρωμών 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 3 ΟΓΑ 15+ E. Απώλεια ζωής 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 54 30-45 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 E. Απώλεια ζωής 27

55 30-45 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 56 20-25 Άνδρας Άγαμος 0 3 ΤΕΒΕ 0-15 57 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 15+ 58 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 15+ 59 25-30 Γυναίκα Παντρεμένος 1 2 ΙΚΑ 0-15 60 20-25 Γυναίκα Άγαμος 0 61 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 62 30-45 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 E. Απώλεια ζωής 63 30-45 Άνδρας Παντρεμένος 1 3 ΤΕΒΕ 0-15 64 20-25 Άνδρας Άγαμος 0 65 30-45 Άνδρας Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 0-15 66 30-45 Άνδρας Παντρεμένος 1 67 30-45 Γυναίκα Παντρεμένος 1 68 30-45 Άνδρας Παντρεμένος 1 1 ΌΧΙ 0-15 69 30-45 Άνδρας Παντρεμένος 2 3 ΔΕΗ 15+ 70 30-45 Άνδρας Παντρεμένος 2 3 ΔΕΗ 15+ 71 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 15+ 72 30-45 Γυναίκα Παντρεμένος 2 73 30-45 Άνδρας Άγαμος 0 74 30-45 Άνδρας Άγαμος 0 75 30-45 Άνδρας Άγαμος 0 76 30-45 Άνδρας Παντρεμένος 2 77 30-45 Άνδρας Παντρεμένος 2 78 30-45 Άνδρας Παντρεμένος 2 79 25-30 Γυναίκα Παντρεμένος 2 80 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 15+ 81 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 15+ 82 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 15+ 28

83 30-45 Γυναίκα Παντρεμένος 2 84 30-45 Άνδρας Παντρεμένος 2 85 30-45 Άνδρας Παντρεμένος 2 86 30-45 Άνδρας Παντρεμένος 2 87 20-25 Γυναίκα Παντρεμένος 2 88 30-45 Άνδρας Παντρεμένος 3 89 30-45 Άνδρας Παντρεμένος 3 90 30-45 Άνδρας Παντρεμένος 3 91 30-45 Άνδρας Παντρεμένος 3 92 30-45 Άνδρας Παντρεμένος 2 93 30-45 Άνδρας Άγαμος 0 94 30-45 Άνδρας Παντρεμένος 1 95 30-45 Άνδρας Παντρεμένος 1 96 30-45 Γυναίκα Παντρεμένος 1 97 30-45 Άνδρας Παντρεμένος 2 98 30-45 Άνδρας Παντρεμένος 1 99 30-45 Άνδρας Παντρεμένος 0 100 25-30 Άνδρας Άγαμος 0 101 25-30 Γυναίκα Άγαμος 0 102 25-30 Γυναίκα Άγαμος 0 103 25-30 Άνδρας Παντρεμένος 2 104 30-45 Άνδρας Παντρεμένος 2 105 30-45 Άνδρας Παντρεμένος 1 106 30-45 Άνδρας Παντρεμένος 1 107 30-45 Άνδρας Παντρεμένος 1 108 30-45 Άνδρας Παντρεμένος 2 109 30-45 Άνδρας Άγαμος 0 110 30-45 Άνδρας Άγαμος 0 2 ΔΕΗ 15+ 2 ΔΕΗ 15+ 2 ΔΕΗ 15+ 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 2 ΔΕΗ 0-15 2 ΔΕΗ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 15+ 2 ΔΗΜΟΣΙΟΥ 0-15 2 ΔΗΜΟΣΙΟΥ 0-15 E. Απώλεια ζωής 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 111 30-45 Άνδρας Παντρεμένος 2 2 ΔΗΜΟΣΙΟΥ 0-15 29

112 30-45 Άνδρας Παντρεμένος 2 2 ΔΗΜΟΣΙΟΥ 0-15 113 30-45 Άνδρας Παντρεμένος 2 2 ΔΗΜΟΣΙΟΥ 0-15 114 25-30 Γυναίκα Παντρεμένος 1 115 30-45 Άνδρας Παντρεμένος 0 Α. Σύνταξη με εγγυημένο επιτόκιο 116 25-30 Γυναίκα Παντρεμένος 2 117 30-45 Άνδρας Παντρεμένος 2 118 30-45 Άνδρας Παντρεμένος 2 119 30-45 Γυναίκα Παντρεμένος 2 120 25-30 Άνδρας Παντρεμένος 2 121 25-30 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 122 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 123 25-30 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 124 30-45 Άνδρας Παντρεμένος 2 1 ΤΣΑΥ 0-15 125 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 126 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 127 45-60 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 128 30-45 Γυναίκα Παντρεμένος 2 129 30-45 Άνδρας Παντρεμένος 2 130 30-45 Άνδρας Παντρεμένος 1 131 30-45 Γυναίκα Παντρεμένος 2 E. Απώλεια ζωής 132 20-25 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 133 30-45 Άνδρας Παντρεμένος 1 2 ΔΗΜΟΣΙΟΥ 0-15 134 30-45 Άνδρας Άγαμος 0 135 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 136 30-45 Άνδρας Παντρεμένος 2 137 30-45 Άνδρας Παντρεμένος 2 138 25-30 Γυναίκα Παντρεμένος 2 139 25-30 Γυναίκα Παντρεμένος 2 30

140 25-30 Γυναίκα Παντρεμένος 2 141 30-45 Άνδρας Παντρεμένος 2 142 30-45 Άνδρας Παντρεμένος 2 143 30-45 Άνδρας Παντρεμένος 1 144 25-30 Γυναίκα Παντρεμένος 2 145 25-30 Γυναίκα Παντρεμένος 2 146 25-30 Γυναίκα Παντρεμένος 2 147 30-45 Άνδρας Παντρεμένος 2 148 30-45 Άνδρας Παντρεμένος 2 149 30-45 Άνδρας Παντρεμένος 2 150 30-45 Γυναίκα Παντρεμένος 2 151 30-45 Γυναίκα Παντρεμένος 2 152 30-45 Γυναίκα Παντρεμένος 2 153 30-45 Άνδρας Παντρεμένος 2 154 30-45 Άνδρας Παντρεμένος 2 155 30-45 Άνδρας Παντρεμένος 2 156 25-30 Άνδρας Παντρεμένος 2 157 25-30 Άνδρας Παντρεμένος 2 158 25-30 Άνδρας Παντρεμένος 2 159 30-45 Άνδρας Παντρεμένος 2 160 30-45 Άνδρας Παντρεμένος 2 161 30-45 Άνδρας Παντρεμένος 2 162 30-45 Άνδρας Παντρεμένος 2 163 30-45 Άνδρας Παντρεμένος 2 164 30-45 Άνδρας Παντρεμένος 2 165 30-45 Άνδρας Παντρεμένος 1 166 30-45 Άνδρας Παντρεμένος 2 167 25-30 Άνδρας Παντρεμένος 1 2 ΔΗΜΟΣΙΟΥ 0-15 E. Απώλεια ζωής 2 ΔΕΗ 0-15 2 ΔΕΗ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 15+ 2 ΤΕΒΕ 15+ 2 ΤΕΒΕ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 0-15 3 ΔΕΗ 0-15 3 ΔΕΗ 0-15 3 ΔΕΗ 0-15 2 ΔΕΗ 15+ 2 ΔΕΗ 0-15 2 ΔΕΗ 15+ 2 ΔΕΗ 0-15 2 ΟΓΑ 0-15 1 ΔΕΗ 0-15 1 ΔΕΗ 0-15 168 25-30 Άνδρας Παντρεμένος 1 31

169 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 170 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 171 45-60 Γυναίκα Παντρεμένος 2 1 ΙΚΑ 15+ 172 25-30 Άνδρας Άγαμος 0 2 ΤΕΒΕ 0-15 173 30-45 Γυναίκα Παντρεμένος 2 1 ΤΕΒΕ 15+ 174 20-25 Γυναίκα Παντρεμένος 0 175 30-45 Άνδρας Παντρεμένος 2 1 ΟΓΑ 0-15 176 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 177 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 178 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 179 30-45 Γυναίκα Παντρεμένος 2 180 30-45 Άνδρας Παντρεμένος 2 181 25-30 Άνδρας Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 0-15 182 25-30 Άνδρας Άγαμος 0 183 30-45 Γυναίκα Παντρεμένος 2 184 30-45 Άνδρας Παντρεμένος 0 1 ΔΕΗ 0-15 185 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 186 30-45 Άνδρας Παντρεμένος 1 187 25-30 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 188 20-25 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 189 25-30 Άνδρας Άγαμος 0 2 ΙΚΑ 0-15 190 30-45 Άνδρας Άγαμος 0 2 ΤΕΒΕ 0-15 191 45-60 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 192 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 193 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 194 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 195 25-30 Άνδρας Άγαμος 0 196 25-30 Άνδρας Άγαμος 0 1 ΔΕΗ 0-15 32

197 30-45 Άνδρας Παντρεμένος 2 198 30-45 Γυναίκα Παντρεμένος 2 199 30-45 Γυναίκα Παντρεμένος 3 200 30-45 Γυναίκα Παντρεμένος 3 201 30-45 Γυναίκα Παντρεμένος 3 202 30-45 Γυναίκα Παντρεμένος 3 203 45-60 Άνδρας Παντρεμένος 3 204 45-60 Άνδρας Παντρεμένος 3 205 45-60 Άνδρας Παντρεμένος 3 206 30-45 Γυναίκα Παντρεμένος 3 207 30-45 Άνδρας Άγαμος 0 208 45-60 Άνδρας Παντρεμένος 2 209 45-60 Άνδρας Παντρεμένος 2 210 45-60 Άνδρας Παντρεμένος 2 211 30-45 Άνδρας Παντρεμένος 1 212 25-30 Άνδρας Παντρεμένος 0 213 25-30 Γυναίκα Παντρεμένος 0 214 30-45 Γυναίκα Παντρεμένος 2 215 30-45 Άνδρας Παντρεμένος 2 216 30-45 Άνδρας Παντρεμένος 2 217 25-30 Γυναίκα Παντρεμένος 2 218 25-30 Άνδρας Άγαμος 0 219 30-45 Άνδρας Παντρεμένος 2 220 25-30 Άνδρας Παντρεμένος 2 221 25-30 Άνδρας Παντρεμένος 2 222 45-60 Άνδρας Παντρεμένος 2 223 45-60 Άνδρας Παντρεμένος 2 224 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 0-15 2 ΔΕΗ 0-15 ΌΧΙ 1 ΔΕΗ 0-15 1 ΔΕΗ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 2 ΙΚΑ 15+ 225 30-45 Άνδρας Παντρεμένος 2 2 ΙΚΑ 15+ 33

226 30-45 Άνδρας Παντρεμένος 2 2 ΙΚΑ 15+ 227 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 228 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 229 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 230 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 231 30-45 Άνδρας Άγαμος 0 2 ΤΕΒΕ 0-15 232 30-45 Άνδρας Παντρεμένος 2 3 ΤΕΒΕ 0-15 233 30-45 Γυναίκα Παντρεμένος 2 234 30-45 Άνδρας Παντρεμένος 2 235 30-45 Γυναίκα Παντρεμένος 2 236 30-45 Άνδρας Παντρεμένος 2 237 30-45 Άνδρας Παντρεμένος 2 238 25-30 Άνδρας Παντρεμένος 0 2 ΔΕΗ 0-15 239 25-30 Γυναίκα Παντρεμένος 0 240 25-30 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 241 25-30 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 242 30-45 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 243 30-45 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 244 30-45 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 245 30-45 Γυναίκα Παντρεμένος 1 246 30-45 Γυναίκα Παντρεμένος 1 247 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 248 25-30 Άνδρας Παντρεμένος 2 249 25-30 Άνδρας Παντρεμένος 2 250 25-30 Άνδρας Παντρεμένος 2 251 20-25 Γυναίκα Άγαμος 0 252 30-45 Γυναίκα Άγαμος 0 2 ΤΣΑΥ 0-15 253 30-45 Άνδρας Άγαμος 0 1 ΤΣΑΥ 0-15 34

254 30-45 Γυναίκα Παντρεμένος 2 255 45-60 Άνδρας Παντρεμένος 2 256 45-60 Άνδρας Παντρεμένος 2 257 25-30 Γυναίκα Άγαμος 0 258 25-30 Άνδρας Άγαμος 0 259 30-45 Άνδρας Παντρεμένος 3 260 30-45 Άνδρας Παντρεμένος 3 261 30-45 Άνδρας Παντρεμένος 3 262 30-45 Άνδρας Παντρεμένος 3 263 30-45 Άνδρας Παντρεμένος 2 264 25-30 Γυναίκα Άγαμος 0 265 45-60 Άνδρας Παντρεμένος 2 266 45-60 Άνδρας Παντρεμένος 2 267 45-60 Άνδρας Παντρεμένος 2 268 30-45 Άνδρας Διαζευγμένος 2 269 20-25 Γυναίκα Παντρεμένος 1 270 45-60 Άνδρας Παντρεμένος 2 271 45-60 Άνδρας Παντρεμένος 2 272 20-25 Άνδρας Άγαμος 0 273 20-25 Γυναίκα Άγαμος 0 274 30-45 Άνδρας Παντρεμένος 2 275 20-25 Γυναίκα Άγαμος 0 276 45-60 Άνδρας Παντρεμένος 2 277 45-60 Άνδρας Παντρεμένος 2 278 25-30 Γυναίκα Παντρεμένος 2 279 20-25 Άνδρας Άγαμος 0 280 45-60 Άνδρας Παντρεμένος 2 281 25-30 Άνδρας Παντρεμένος 2 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής 3 ΔΕΗ 15+ 3 ΔΕΗ 15+ 3 ΔΕΗ 15+ E. Απώλεια ζωής 1 ΤΣΑΥ 0-15 1 ΤΣΑΥ 0-15 2 ΔΗΜΟΣΙΟΥ 15+ 2 ΔΗΜΟΣΙΟΥ 15+ 2 ΤΕΒΕ 15+ E. Απώλεια ζωής 2 ΔΗΜΟΣΙΟΥ 0-15 282 25-30 Άνδρας Παντρεμένος 2 2 ΔΗΜΟΣΙΟΥ 0-15 35

283 20-25 Γυναίκα Παντρεμένος 2 284 25-30 Άνδρας Άγαμος 0 2 ΔΗΜΟΣΙΟΥ 0-15 285 20-25 Γυναίκα Άγαμος 0 286 20-25 Άνδρας Άγαμος 0 287 25-30 Άνδρας Παντρεμένος 1 288 25-30 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 289 30-45 Γυναίκα Άγαμος 0 2 ΔΕΗ 0-15 E. Απώλεια ζωής 290 25-30 Γυναίκα Άγαμος 0 291 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 292 25-30 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 293 30-45 Άνδρας Άγαμος 0 3 ΙΚΑ 0-15 294 45-60 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ E. Απώλεια ζωής 295 30-45 Άνδρας Παντρεμένος 2 296 30-45 Άνδρας Παντρεμένος 2 297 30-45 Άνδρας Παντρεμένος 2 298 25-30 Γυναίκα Παντρεμένος 2 299 25-30 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 300 25-30 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 301 25-30 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 302 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής 303 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 304 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 305 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 306 25-30 Άνδρας Άγαμος 0 3 ΙΚΑ 0-15 307 25-30 Άνδρας Παντρεμένος 0 2 ΙΚΑ 0-15 308 25-30 Γυναίκα Παντρεμένος 0 309 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 310 30-45 Άνδρας Παντρεμένος 2 36

311 30-45 Άνδρας Παντρεμένος 2 312 25-30 Άνδρας Άγαμος 0 313 30-45 Άνδρας Παντρεμένος 2 314 30-45 Άνδρας Παντρεμένος 2 315 45-60 Άνδρας Παντρεμένος 2 316 45-60 Άνδρας Παντρεμένος 2 317 45-60 Άνδρας Παντρεμένος 2 318 20-25 Άνδρας Άγαμος 0 319 30-45 Άνδρας Άγαμος 0 320 30-45 Άνδρας Παντρεμένος 2 321 30-45 Άνδρας Παντρεμένος 2 322 30-45 Άνδρας Παντρεμένος 2 323 25-30 Άνδρας Παντρεμένος 2 324 25-30 Άνδρας Παντρεμένος 2 325 25-30 Άνδρας Παντρεμένος 2 326 30-45 Γυναίκα Διαζευγμένος 2 327 30-45 Γυναίκα Διαζευγμένος 2 328 30-45 Γυναίκα Διαζευγμένος 2 329 25-30 Άνδρας Παντρεμένος 2 330 25-30 Άνδρας Παντρεμένος 2 331 25-30 Άνδρας Παντρεμένος 2 3 ΤΕΒΕ 0-15 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ E. Απώλεια ζωής 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 2 ΤΕΒΕ 0-15 1 ΤΣΑΥ 0-15 1 ΤΣΑΥ 0-15 1 ΟΓΑ 0-15 1 ΤΑΠΟΤΕ 0-15 1 ΤΑΠΟΤΕ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 E. Απώλεια ζωής 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 332 25-30 Γυναίκα Παντρεμένος 2 Νοικοκυρά 333 25-30 Άνδρας Παντρεμένος 1 3 ΤΕΒΕ 0-15 E. Απώλεια ζωής 334 25-30 Γυναίκα Παντρεμένος 1 335 25-30 Άνδρας Παντρεμένος 1 3 ΤΕΒΕ 0-15 336 30-45 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής 337 30-45 Άνδρας Παντρεμένος 2 3 ΤΕΒΕ 0-15 338 30-45 Άνδρας Παντρεμένος 2 3 ΤΕΒΕ 0-15 339 30-45 Άνδρας Παντρεμένος 2 3 ΤΕΒΕ 0-15 37

340 25-30 Άνδρας Παντρεμένος 2 2 ΟΓΑ 0-15 341 25-30 Άνδρας Παντρεμένος 2 2 ΟΓΑ 0-15 342 25-30 Άνδρας Παντρεμένος 2 2 ΟΓΑ 0-15 343 25-30 Γυναίκα Παντρεμένος 2 Νοικοκυρά 1 ΟΓΑ 0-15 344 45-60 Άνδρας Παντρεμένος 2 345 30-45 Άνδρας Παντρεμένος 2 346 30-45 Άνδρας Παντρεμένος 2 347 30-45 Άνδρας Παντρεμένος 2 348 30-45 Άνδρας Παντρεμένος 2 349 25-30 Γυναίκα Παντρεμένος 2 350 20-25 Γυναίκα Άγαμος 0 351 25-30 Άνδρας Άγαμος 0 352 20-25 Γυναίκα Άγαμος 0 353 25-30 Άνδρας Άγαμος 0 354 25-30 Άνδρας Άγαμος 0 355 20-25 Γυναίκα Άγαμος 0 356 25-30 Άνδρας Παντρεμένος 0 357 25-30 Άνδρας Άγαμος 0 358 20-25 Γυναίκα Άγαμος 0 359 25-30 Άνδρας Άγαμος 0 360 20-25 Γυναίκα Άγαμος 0 361 25-30 Άνδρας Άγαμος 0 362 25-30 Γυναίκα Άγαμος 0 363 25-30 Άνδρας Παντρεμένος 1 364 25-30 Άνδρας Παντρεμένος 0 365 25-30 Γυναίκα Παντρεμένος 0 366 20-25 Γυναίκα Άγαμος 0 367 25-30 Άνδρας Άγαμος 0 1 ΔΗΜΟΣΙΟΥ 15+ 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 3 ΤΕΒΕ 0-15 2 ΙΚΑ 0-15 2 ΤΕΒΕ 0-15 3 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΙΚΑ 0-15 38

368 20-25 Άνδρας Παντρεμένος 1 369 20-25 Γυναίκα Άγαμος 0 370 20-25 Γυναίκα Άγαμος 0 371 25-30 Γυναίκα Παντρεμένος 1 372 20-25 Γυναίκα Άγαμος 0 373 25-30 Γυναίκα Άγαμος 0 374 20-25 Γυναίκα Άγαμος 0 375 25-30 Άνδρας Παντρεμένος 0 376 20-25 Άνδρας Παντρεμένος 0 377 25-30 Γυναίκα Άγαμος 0 378 25-30 Άνδρας Άγαμος 0 379 25-30 Γυναίκα Παντρεμένος 0 380 20-25 Άνδρας Παντρεμένος 0 381 20-25 Γυναίκα Άγαμος 0 382 25-30 Γυναίκα Άγαμος 0 383 25-30 Άνδρας Άγαμος 0 384 20-25 Γυναίκα Άγαμος 0 385 30-45 Άνδρας Παντρεμένος 2 386 25-30 Άνδρας Παντρεμένος 1 387 30-45 Άνδρας Παντρεμένος 2 388 25-30 Γυναίκα Παντρεμένος 1 389 30-45 Άνδρας Παντρεμένος 1 390 30-45 Γυναίκα Παντρεμένος 1 391 30-45 Άνδρας Παντρεμένος 2 392 25-30 Γυναίκα Παντρεμένος 1 393 30-45 Άνδρας Παντρεμένος 1 394 30-45 Γυναίκα Παντρεμένος 2 395 30-45 Άνδρας Παντρεμένος 1 2 ΤΕΒΕ 0-15 2 ΙΚΑ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής E. Απώλεια ζωής E. Απώλεια ζωής E. Απώλεια ζωής D. Ισόβια ισόβιων πληρωμών E. Απώλεια ζωής 396 25-30 Γυναίκα Παντρεμένος 2 2 ΤΕΒΕ 0-15 39

397 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 398 30-45 Γυναίκα Παντρεμένος 2 2 ΤΕΒΕ 0-15 399 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 400 25-30 Γυναίκα Παντρεμένος 1 2 ΤΕΒΕ 0-15 401 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 402 30-45 Άνδρας Παντρεμένος 2 403 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 404 30-45 Άνδρας Παντρεμένος 2 D. Ισόβια ισόβιων πληρωμών 405 30-45 Γυναίκα Παντρεμένος 1 406 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 407 25-30 Γυναίκα Παντρεμένος 1 408 30-45 Άνδρας Παντρεμένος 2 D. Ισόβια ισόβιων πληρωμών 409 30-45 Γυναίκα Παντρεμένος 2 410 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 411 25-30 Άνδρας Παντρεμένος 1 ΌΧΙ 412 30-45 Άνδρας Παντρεμένος 2 413 25-30 Γυναίκα Παντρεμένος 1 414 30-45 Άνδρας Παντρεμένος 2 D. Ισόβια ισόβιων πληρωμών 415 25-30 Γυναίκα Παντρεμένος 1 416 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 417 25-30 Γυναίκα Παντρεμένος 1 418 30-45 Άνδρας Παντρεμένος 1 2 ΤΕΒΕ 0-15 E. Απώλεια ζωής 419 20-25 Γυναίκα Παντρεμένος 0 420 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 421 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 422 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 Α. Σύνταξη με εγγυημένο επιτόκιο 423 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 Α. Σύνταξη με εγγυημένο επιτόκιο 424 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 40

425 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 Α. Σύνταξη με εγγυημένο επιτόκιο 426 30-45 Γυναίκα Παντρεμένος 2 Α. Σύνταξη με εγγυημένο επιτόκιο 427 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 428 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 429 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 430 30-45 Γυναίκα Παντρεμένος 2 Α. Σύνταξη με εγγυημένο επιτόκιο 431 30-45 Γυναίκα Παντρεμένος 2 Α. Σύνταξη με εγγυημένο επιτόκιο 432 30-45 Γυναίκα Παντρεμένος 2 Α. Σύνταξη με εγγυημένο επιτόκιο 433 45-60 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 434 45-60 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 435 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 ΌΧΙ 436 25-30 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 ΌΧΙ 437 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 438 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 439 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 440 25-30 Άνδρας Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 0-15 441 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 442 25-30 Άνδρας Παντρεμένος 2 443 30-45 Άνδρας Παντρεμένος 2 3 ΔΕΗ 0-15 444 25-30 Άνδρας Παντρεμένος 1 445 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 446 25-30 Άνδρας Παντρεμένος 2 447 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 448 25-30 Άνδρας Παντρεμένος 1 449 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 450 30-45 Άνδρας Παντρεμένος 2 41

451 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 452 30-45 Άνδρας Παντρεμένος 1 453 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 454 30-45 Άνδρας Παντρεμένος 2 455 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 456 30-45 Άνδρας Παντρεμένος 1 457 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 458 30-45 Άνδρας Παντρεμένος 2 459 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 460 30-45 Άνδρας Παντρεμένος 1 461 30-45 Άνδρας Παντρεμένος 2 2 ΔΕΗ 0-15 462 30-45 Άνδρας Παντρεμένος 2 463 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 464 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 465 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 466 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 467 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 468 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 469 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 470 25-30 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 471 25-30 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 472 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 473 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 474 30-45 Άνδρας Παντρεμένος 1 475 30-45 Άνδρας Παντρεμένος 1 42

476 30-45 Άνδρας Παντρεμένος 2 477 30-45 Γυναίκα Παντρεμένος 1 478 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 479 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 480 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 481 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 482 30-45 Γυναίκα Παντρεμένος 2 1 ΔΕΗ 0-15 483 30-45 Άνδρας Παντρεμένος 2 1 ΔΕΗ 0-15 484 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 485 30-45 Άνδρας Παντρεμένος 2 486 30-45 Άνδρας Παντρεμένος 2 E. Απώλεια ζωής 487 30-45 Άνδρας Παντρεμένος 2 488 30-45 Γυναίκα Παντρεμένος 2 E. Απώλεια ζωής 489 30-45 Γυναίκα Παντρεμένος 2 E. Απώλεια ζωής 490 30-45 Γυναίκα Παντρεμένος 2 491 30-45 Γυναίκα Παντρεμένος 2 492 30-45 Γυναίκα Παντρεμένος 2 493 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 494 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 495 30-45 Άνδρας Παντρεμένος 1 E. Απώλεια ζωής 496 30-45 Άνδρας Παντρεμένος 1 43

497 30-45 Άνδρας Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 0-15 498 30-45 Άνδρας Παντρεμένος 1 1 ΔΕΗ 0-15 499 30-45 Άνδρας Παντρεμένος 1 1 ΤΑΠΟΤΕ 0-15 E. Απώλεια ζωής 500 30-45 Άνδρας Παντρεμένος 1 1 ΤΑΠΟΤΕ 0-15 501 25-30 Γυναίκα Άγαμος 0 502 25-30 Γυναίκα Άγαμος 0 503 25-30 Γυναίκα Άγαμος 0 E. Απώλεια ζωής 504 25-30 Γυναίκα Άγαμος 0 E. Απώλεια ζωής 505 30-45 Άνδρας Παντρεμένος 1 506 30-45 Άνδρας Παντρεμένος 2 507 30-45 Άνδρας Παντρεμένος 2 508 30-45 Γυναίκα Παντρεμένος 2 509 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 510 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 511 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 512 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 513 45-60 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 514 45-60 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 0-15 515 45-60 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 0-15 516 45-60 Γυναίκα Παντρεμένος 2 1 ΔΕΗ 0-15 517 30-45 Γυναίκα Παντρεμένος 2 1 ΔΕΗ 0-15 518 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 519 30-45 Άνδρας Παντρεμένος 2 1 ΤΑΠΟΤΕ 0-15 520 30-45 Άνδρας Παντρεμένος 2 1 ΤΑΠΟΤΕ 0-15 44

521 30-45 Άνδρας Παντρεμένος 2 1 ΤΑΠΟΤΕ 0-15 522 30-45 Γυναίκα Παντρεμένος 2 1 ΤΣΜΕΔΕ 0-15 523 30-45 Άνδρας Παντρεμένος 2 524 30-45 Άνδρας Παντρεμένος 1 525 30-45 Άνδρας Παντρεμένος 2 526 30-45 Άνδρας Παντρεμένος 1 527 30-45 Γυναίκα Παντρεμένος 2 528 45-60 Γυναίκα Παντρεμένος 2 1 ΤΕΒΕ 15+ 529 45-60 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 15+ 530 45-60 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 15+ 531 45-60 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 15+ 532 30-45 Γυναίκα Παντρεμένος 2 1 ΤΣΜΕΔΕ 0-15 533 25-30 Γυναίκα Παντρεμένος 2 1 ΤΣΜΕΔΕ 0-15 534 30-45 Άνδρας Παντρεμένος 1 535 30-45 Άνδρας Παντρεμένος 1 536 30-45 Άνδρας Παντρεμένος 1 537 30-45 Άνδρας Παντρεμένος 1 538 30-45 Άνδρας Παντρεμένος 1 539 45-60 Άνδρας Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 15+ 540 45-60 Άνδρας Παντρεμένος 2 2 ΔΕΗ 15+ 45

541 45-60 Άνδρας Παντρεμένος 2 2 ΔΕΗ 15+ 542 45-60 Γυναίκα Παντρεμένος 2 2 ΔΗΜΟΣΙΟΥ 15+ 543 30-45 Γυναίκα Παντρεμένος 2 544 30-45 Γυναίκα Παντρεμένος 2 545 30-45 Γυναίκα Παντρεμένος 2 546 30-45 Γυναίκα Παντρεμένος 2 547 25-30 Γυναίκα Παντρεμένος 2 548 45-60 Γυναίκα Παντρεμένος 1 549 30-45 Γυναίκα Παντρεμένος 1 550 30-45 Γυναίκα Παντρεμένος 1 551 30-45 Άνδρας Παντρεμένος 1 552 45-60 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 553 30-45 Άνδρας Παντρεμένος 2 554 45-60 Άνδρας Παντρεμένος 1 1 ΤΕΒΕ 15+ 555 45-60 Άνδρας Παντρεμένος 2 1 ΤΕΒΕ 15+ 556 45-60 Άνδρας Παντρεμένος 1 1 ΤΕΒΕ 15+ 557 45-60 Άνδρας Παντρεμένος 2 558 30-45 Άνδρας Παντρεμένος 1 559 30-45 Άνδρας Παντρεμένος 2 2 ΙΚΑ 0-15 Α. Σύνταξη με εγγυημένο επιτόκιο 46

560 30-45 Άνδρας Παντρεμένος 2 561 30-45 Άνδρας Παντρεμένος 2 562 25-30 Γυναίκα Παντρεμένος 2 563 30-45 Γυναίκα Παντρεμένος 2 564 30-45 Γυναίκα Παντρεμένος 1 565 25-30 Γυναίκα Άγαμος 0 566 25-30 Άνδρας Άγαμος 0 567 25-30 Γυναίκα Άγαμος 0 568 25-30 Γυναίκα Άγαμος 0 569 25-30 Άνδρας Άγαμος 0 570 30-45 Άνδρας Παντρεμένος 2 571 30-45 Άνδρας Παντρεμένος 2 572 30-45 Άνδρας Παντρεμένος 2 573 30-45 Άνδρας Παντρεμένος 2 574 25-30 Γυναίκα Παντρεμένος 2 575 25-30 Γυναίκα Παντρεμένος 2 576 30-45 Άνδρας Παντρεμένος 0 577 30-45 Γυναίκα Παντρεμένος 2 578 30-45 Άνδρας Παντρεμένος 1 579 25-30 Γυναίκα Παντρεμένος 0 580 30-45 Άνδρας Παντρεμένος 2 581 30-45 Άνδρας Παντρεμένος 2 582 30-45 Άνδρας Παντρεμένος 2 583 25-30 Άνδρας Παντρεμένος 2 584 30-45 Γυναίκα Παντρεμένος 1 585 25-30 Άνδρας Άγαμος 0 586 25-30 Γυναίκα Άγαμος 0 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 2 ΤΕΒΕ 0-15 1 ΤΑΠΟΤΕ 0-15 E. Απώλεια ζωής 1 ΤΑΠΟΤΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΟΓΑ 0-15 2 ΟΓΑ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 2 ΙΚΑ 0-15 587 30-45 Άνδρας Παντρεμένος 2 3 ΔΕΗ 0-15 47

588 30-45 Άνδρας Παντρεμένος 2 3 ΔΕΗ 0-15 589 30-45 Γυναίκα Παντρεμένος 1 Νοικοκυρά 1 ΔΕΗ 0-15 590 45-60 Άνδρας Παντρεμένος 2 591 45-60 Άνδρας Παντρεμένος 2 592 45-60 Άνδρας Παντρεμένος 2 593 45-60 Άνδρας Παντρεμένος 2 594 45-60 Άνδρας Παντρεμένος 2 595 45-60 Άνδρας Παντρεμένος 2 596 45-60 Άνδρας Παντρεμένος 2 597 45-60 Άνδρας Παντρεμένος 2 598 45-60 Άνδρας Παντρεμένος 2 599 45-60 Άνδρας Παντρεμένος 2 600 45-60 Άνδρας Παντρεμένος 2 601 45-60 Άνδρας Παντρεμένος 2 602 45-60 Άνδρας Παντρεμένος 2 603 45-60 Γυναίκα Παντρεμένος 2 604 30-45 Γυναίκα Παντρεμένος 2 605 30-45 Γυναίκα Παντρεμένος 2 606 30-45 Γυναίκα Παντρεμένος 2 607 30-45 Γυναίκα Παντρεμένος 2 608 30-45 Γυναίκα Παντρεμένος 2 609 25-30 Γυναίκα Παντρεμένος 2 610 30-45 Άνδρας Παντρεμένος 2 611 30-45 Άνδρας Παντρεμένος 2 612 30-45 Άνδρας Παντρεμένος 2 613 30-45 Άνδρας Παντρεμένος 2 614 30-45 Άνδρας Παντρεμένος 2 1 ΤΣΑΥ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΔΕΗ 15+ 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 1 ΤΕΒΕ 15+ 3 ΤΕΒΕ 15+ 2 ΤΕΒΕ 0-15 1 ΟΓΑ 0-15 1 ΟΓΑ 0-15 1 ΟΓΑ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 E. Απώλεια ζωής E. Απώλεια ζωής 48

615 30-45 Άνδρας Παντρεμένος 2 616 30-45 Άνδρας Παντρεμένος 2 617 30-45 Άνδρας Παντρεμένος 2 618 30-45 Άνδρας Παντρεμένος 2 619 30-45 Άνδρας Παντρεμένος 2 620 30-45 Άνδρας Παντρεμένος 2 621 30-45 Γυναίκα Παντρεμένος 2 622 30-45 Γυναίκα Παντρεμένος 2 623 30-45 Γυναίκα Παντρεμένος 2 624 30-45 Γυναίκα Παντρεμένος 2 625 30-45 Γυναίκα Παντρεμένος 2 626 30-45 Γυναίκα Παντρεμένος 2 627 25-30 Γυναίκα Παντρεμένος 2 628 25-30 Γυναίκα Παντρεμένος 2 629 25-30 Άνδρας Παντρεμένος 2 630 30-45 Άνδρας Παντρεμένος 2 631 30-45 Άνδρας Παντρεμένος 2 632 30-45 Άνδρας Παντρεμένος 2 633 30-45 Άνδρας Παντρεμένος 2 634 25-30 Άνδρας Παντρεμένος 0 635 30-45 Άνδρας Παντρεμένος 2 636 30-45 Άνδρας Παντρεμένος 2 637 30-45 Άνδρας Παντρεμένος 2 638 30-45 Άνδρας Παντρεμένος 2 639 30-45 Άνδρας Παντρεμένος 2 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 2 ΙΚΑ 0-15 2 ΙΚΑ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΕΗ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 1 ΔΕΗ 0-15 1 ΔΗΜΟΣΙΟΥ 0-15 640 30-45 Άνδρας Παντρεμένος 2 49

641 30-45 Άνδρας Παντρεμένος 2 642 30-45 Άνδρας Παντρεμένος 2 643 30-45 Άνδρας Παντρεμένος 2 644 25-30 Γυναίκα Παντρεμένος 2 645 30-45 Γυναίκα Παντρεμένος 2 646 30-45 Άνδρας Παντρεμένος 2 647 30-45 Άνδρας Παντρεμένος 2 648 30-45 Άνδρας Παντρεμένος 2 649 30-45 Γυναίκα Παντρεμένος 1 650 30-45 Άνδρας Παντρεμένος 2 651 30-45 Άνδρας Παντρεμένος 2 652 30-45 Άνδρας Παντρεμένος 2 653 30-45 Άνδρας Παντρεμένος 2 654 30-45 Άνδρας Παντρεμένος 2 655 30-45 Άνδρας Παντρεμένος 2 656 25-30 Γυναίκα Παντρεμένος 0 657 25-30 Γυναίκα Παντρεμένος 2 658 20-25 Γυναίκα Παντρεμένος 2 659 25-30 Γυναίκα Παντρεμένος 0 660 25-30 Γυναίκα Παντρεμένος 2 661 25-30 Άνδρας Παντρεμένος 2 662 25-30 Άνδρας Παντρεμένος 2 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΤΕΒΕ 0-15 2 ΟΓΑ 0-15 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 3 ΙΚΑ 0-15 1 ΟΓΑ 0-15 1 ΟΓΑ 0-15 663 25-30 Άνδρας Παντρεμένος 2 50

664 30-45 Άνδρας Παντρεμένος 2 665 30-45 Άνδρας Παντρεμένος 2 666 30-45 Άνδρας Παντρεμένος 2 667 30-45 Άνδρας Παντρεμένος 2 668 30-45 Άνδρας Παντρεμένος 2 669 45-60 Άνδρας Παντρεμένος 2 670 45-60 Άνδρας Παντρεμένος 2 671 45-60 Άνδρας Παντρεμένος 2 672 45-60 Γυναίκα Παντρεμένος 2 673 30-45 Άνδρας Παντρεμένος 2 674 30-45 Άνδρας Παντρεμένος 2 675 30-45 Άνδρας Παντρεμένος 2 676 30-45 Γυναίκα Παντρεμένος 2 677 30-45 Άνδρας Παντρεμένος 2 678 30-45 Άνδρας Παντρεμένος 2 679 30-45 Άνδρας Παντρεμένος 2 680 30-45 Άνδρας Παντρεμένος 2 681 25-30 Γυναίκα Παντρεμένος 2 682 45-60 Γυναίκα Παντρεμένος 2 683 45-60 Γυναίκα Παντρεμένος 2 684 45-60 Γυναίκα Παντρεμένος 2 685 30-45 Γυναίκα Διαζευγμένος 2 686 30-45 Γυναίκα Διαζευγμένος 2 687 30-45 Γυναίκα Διαζευγμένος 2 688 30-45 Άνδρας Άγαμος 0 689 30-45 Άνδρας Παντρεμένος 2 1 ΤΣΑΥ 0-15 1 ΤΣΑΥ 0-15 1 ΤΣΑΥ 0-15 1 ΤΣΑΥ 0-15 1 ΤΑΠΟΤΕ 0-15 1 ΤΑΠΟΤΕ 0-15 1 ΤΑΠΟΤΕ 0-15 E. Απώλεια ζωής 1 ΤΑΠΟΤΕ 0-15 1 ΤΣΑΥ 15+ 1 ΤΣΑΥ 15+ 1 ΤΣΑΥ 15+ E. Απώλεια ζωής 1 ΟΓΑ 0-15 690 30-45 Άνδρας Παντρεμένος 2 51

691 30-45 Άνδρας Παντρεμένος 2 692 30-45 Γυναίκα Άγαμος 0 693 30-45 Γυναίκα Παντρεμένος 2 694 30-45 Γυναίκα Παντρεμένος 2 695 30-45 Γυναίκα Άγαμος 0 696 30-45 Γυναίκα Παντρεμένος 2 697 30-45 Γυναίκα Παντρεμένος 2 698 30-45 Γυναίκα Παντρεμένος 2 699 30-45 Γυναίκα Διαζευγμένος 2 700 30-45 Γυναίκα Διαζευγμένος 2 701 30-45 Γυναίκα Διαζευγμένος 2 702 25-30 Γυναίκα Άγαμος 0 703 30-45 Γυναίκα Παντρεμένος 2 704 30-45 Γυναίκα Παντρεμένος 2 705 30-45 Άνδρας Παντρεμένος 2 706 30-45 Άνδρας Παντρεμένος 2 707 30-45 Άνδρας Παντρεμένος 2 708 30-45 Άνδρας Παντρεμένος 2 709 25-30 Άνδρας Άγαμος 0 710 30-45 Άνδρας Παντρεμένος 2 711 30-45 Άνδρας Παντρεμένος 2 712 30-45 Γυναίκα Άγαμος 0 713 30-45 Γυναίκα Άγαμος 0 714 25-30 Γυναίκα Άγαμος 0 715 25-30 Γυναίκα Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 0-15 52

716 30-45 Γυναίκα Παντρεμένος 1 1 ΔΗΜΟΣΙΟΥ 0-15 717 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 E. Απώλεια ζωής 718 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 719 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 D. Ισόβια ισόβιων πληρωμών 720 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 721 25-30 Γυναίκα Άγαμος 0 722 25-30 Γυναίκα Άγαμος 0 723 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 724 25-30 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 725 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 726 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 727 30-45 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 728 30-45 Γυναίκα Άγαμος 0 729 30-45 Γυναίκα Άγαμος 0 730 30-45 Γυναίκα Παντρεμένος 2 1 ΤΑΠΟΤΕ 0-15 731 30-45 Γυναίκα Παντρεμένος 2 1 ΤΑΠΟΤΕ 0-15 732 30-45 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 0-15 733 30-45 Γυναίκα Διαζευγμένος 2 1 ΤΣΑΥ 0-15 734 45-60 Γυναίκα Παντρεμένος 2 1 ΔΕΗ 15+ 735 45-60 Άνδρας Παντρεμένος 2 1 ΙΚΑ 15+ 736 45-60 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 737 45-60 Άνδρας Παντρεμένος 0 1 ΤΕΒΕ 15+ 53

738 45-60 Άνδρας Παντρεμένος 0 1 ΤΕΒΕ 15+ 739 45-60 Άνδρας Παντρεμένος 0 1 ΤΕΒΕ 15+ 740 30-45 Άνδρας Παντρεμένος 2 741 30-45 Άνδρας Διαζευγμένος 2 742 30-45 Άνδρας Διαζευγμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 743 30-45 Άνδρας Διαζευγμένος 2 1 ΔΗΜΟΣΙΟΥ 0-15 744 30-45 Γυναίκα Παντρεμένος 2 1 ΔΕΗ 0-15 745 30-45 Γυναίκα Παντρεμένος 2 1 ΔΕΗ 0-15 746 30-45 Γυναίκα Παντρεμένος 2 1 ΤΑΠΟΤΕ 0-15 747 45-60 Γυναίκα Παντρεμένος 2 1 ΤΑΠΟΤΕ 15+ 748 45-60 Γυναίκα Παντρεμένος 2 1 ΤΣΑΥ 15+ 749 45-60 Γυναίκα Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 750 25-30 Γυναίκα Άγαμος 0 751 25-30 Γυναίκα Άγαμος 0 752 20-25 Γυναίκα Άγαμος 0 753 30-45 Άνδρας Παντρεμένος 2 754 30-45 Άνδρας Παντρεμένος 2 755 30-45 Άνδρας Παντρεμένος 2 756 30-45 Άνδρας Παντρεμένος 2 757 30-45 Άνδρας Παντρεμένος 2 758 30-45 Άνδρας Παντρεμένος 2 54

759 25-30 Άνδρας Παντρεμένος 2 760 30-45 Άνδρας Παντρεμένος 2 761 25-30 Άνδρας Παντρεμένος 2 762 30-45 Άνδρας Παντρεμένος 2 763 30-45 Άνδρας Παντρεμένος 2 764 30-45 Άνδρας Διαζευγμένος 2 765 30-45 Άνδρας Διαζευγμένος 2 766 30-45 Άνδρας Διαζευγμένος 2 767 30-45 Άνδρας Παντρεμένος 2 768 25-30 Άνδρας Παντρεμένος 2 769 30-45 Άνδρας Παντρεμένος 2 770 30-45 Άνδρας Παντρεμένος 2 771 30-45 Γυναίκα Παντρεμένος 2 772 30-45 Άνδρας Παντρεμένος 2 773 30-45 Άνδρας Παντρεμένος 2 774 30-45 Άνδρας Παντρεμένος 2 775 30-45 Άνδρας Παντρεμένος 2 776 30-45 Άνδρας Παντρεμένος 2 777 30-45 Άνδρας Παντρεμένος 2 1 ΔΗΜΟΣΙΟΥ 15+ 1 ΔΗΜΟΣΙΟΥ 15+ 1 ΔΗΜΟΣΙΟΥ 15+ 778 30-45 Άνδρας Παντρεμένος 2 55

779 30-45 Άνδρας Παντρεμένος 2 780 30-45 Άνδρας Παντρεμένος 2 Αυτό ήταν το πρώτο κομμάτι της εργασίας που αφορούσε την ανεύρεση των δεδομένων. Τα επόμενα στάδια, τα οποία και θα περιγραφούν ενδελεχώς αποτελούν και το κύριο μέρος αυτής της εργασίας. Τα εργαλεία που θα χρησιμοποιηθούν για τη μελέτη των δεδομένων θα είναι εργαλεία δέντρων αποφάσεων και πιο συγκεκριμένα ο αλγόριθμος C4.5, με τη χρήση του Ctree του Excel. 2.3 Δομή Εργασίας Η εργασία θα περιλαμβάνει 6 κεφάλαια. Συγκεκριμένα: Στο 3 ο κεφάλαιο θα αναπτύξουμε τη θεωρία των Δέντρων Αποφάσεων, τις κατηγορίες τους, τη χρήση και χρησιμότητά τους, ποιοι αλγόριθμοι χρησιμοποιούνται και πως δουλεύουν. Ειδικότερα θα αναπτυχθεί ο αλγόριθμος C4.5, στον οποίο και θα βασιστούμε για τη μελέτη μας αυτή. Πια είναι τα βήματά του και μέσω παραδειγμάτων θα επιχειρήσουμε να κάνουμε αντιληπτή τη λειτουργία του. Στο 4 ο κεφάλαιο θα περιγραφεί αναλυτικά το data set. Θα περιγραφεί αναλυτικά κάθε input χαρακτηριστικό και ποιες τιμές παίρνει. Επίσης θα γίνει και μία στατιστική ανάλυση αυτών των χαρακτηριστικών, τα αποτελέσματα της οποίας θα μας βοηθήσουν στη συνέχεια. Το data set θα το μελετήσουμε με πολλούς διαφορετικούς τρόπους (πειράματα). Στο 5 ο κεφάλαιο θα περιγραφούν αυτά τα πειράματα και θα αναπτυχθεί η φιλοσοφία τους. Στο 6 ο κεφάλαιο θα παραθέσουμε τα αποτελέσματα κάθε πειράματος. Για κάθε πείραμα ξεχωριστά θα κατατεθούν το δέντρο απόφασης, οι κανόνες που προκύπτουν στην κάθε περίπτωση και η ερμηνεία των αποτελεσμάτων αυτών, σύμφωνα με το βαθμό 56

εμπιστοσύνης (Confidence), την υποστήριξη κάθε στοιχειοσυνόλου (Support) και το Confusion Matrix. Τελικά θα γίνει μία σύγκριση των αποτελεσμάτων όλων των πειραμάτων ως προς τν ακρίβειά τους, σύμφωνα με το Confusion Matrix και το διάστημα εμπιστοσύνης κάθε πειράματος. 57

ΚΕΦΑΛΑΙΟ 3 Δέντρα Απόφασης 3.1 Δέντρα απόφασης Τα δέντρα απόφασης είναι μια δημοφιλής δομή για καθοδηγούμενη εκμάθηση, όπως έχουμε ήδη αναφέρει σε προηγούμενο κεφάλαιο. Έχουν γραφτεί αμέτρητα άρθρα για επιτυχείς εφαρμογές μοντέλων δέντρων απόφασης σε πραγματικά προβλήματα. Σε αυτό το κεφάλαιο θα δούμε πιο αναλυτικά τον αλγόριθμο C4.5, που χρησιμοποιείται για την κατασκευή δέντρων απόφασης. Θα εφαρμόζουμε αυτόν τον αλγόριθμο σε ένα παράδειγμα βάσης δεδομένων προώθησης πιστωτικών καρτών, ώστε να προσπαθήσουμε να τον κατανοήσουμε. 3.1.1 Ένας αλγόριθμος κατασκευής δέντρων απόφασης Τα δέντρα απόφασης κατασκευάζονται χρησιμοποιώντας μόνο εκείνα τα γνωρίσματα που είναι σε θέση να διακρίνουν τις έννοιες προς εκμάθηση. Για να χτίσουμε ένα δέντρο απόφασης, πρέπει αρχικά να επιλέξουμε ένα υποσύνολο περιπτώσεων από το σύνολο των δεδομένων που θα χρησιμοποιηθούν στην εκπαίδευση (υποσύνολο δεδομένων εκπαίδευσης - training set). Αυτό το υποσύνολο (δεδομένα ελέγχου - test set) χρησιμοποιείται έπειτα από τον αλγόριθμο για να κατασκευάσει το δέντρο απόφασης. Τα υπόλοιπα δεδομένα, τα δεδομένα training set, χρησιμοποιούνται στην εξέταση της ακρίβειας του κατασκευασμένου δέντρου. Εάν το δέντρο απόφασης ταξινομεί τις περιπτώσεις σωστά, η διαδικασία ολοκληρώνεται. Εάν μια περίπτωση είναι ανακριβώς ταξινομημένη, η περίπτωση προστίθεται στο επιλεγμένο υποσύνολο των training set και ένα νέο δέντρο κατασκευάζεται. Αυτή η διαδικασία συνεχίζεται έως ότου δημιουργηθεί ένα δέντρο που ταξινομεί σωστά όλες τις περιπτώσεις, ειδάλλως το δέντρο απόφασης χτίζεται εξολοκλήρου από το training set. Θα εξετάσουμε μια απλουστευμένη μορφή του αλγορίθμου που χρησιμοποιεί ολόκληρο το υποσύνολο εκμάθησης για να χτίσει ένα δέντρο απόφασης. Τα βήματα του αλγορίθμου είναι τα ακόλουθα: 1. Έστω T είναι το σύνολο στιγμιότυπων εκπαίδευσης, το training set 58

2. Επιλέγουμε ένα χαρακτηριστικό που διαφοροποιεί καλύτερα τις περιπτώσεις που περιλαμβάνονται στο Τ. 3. Δημιουργούμε έναν κόμβο στο δέντρο του οποίου η αξία είναι το επιλεγμένο χαρακτηριστικό. Δημιουργούμε θυγατρικούς δεσμούς από αυτόν τον κόμβο, όπου κάθε σύνδεση αντιπροσωπεύει μια μοναδική αξία για τα επιλεγμένα χαρακτηριστικά. Χρησιμοποιούμε τις τιμές των θυγατρικών δεσμών για να υποδιαιρέσουμε περαιτέρω τα στιγμιότυπα σε δευτερεύουσες κλάσεις. 4. Για κάθε δευτερεύουσα κλάση που δημιουργήθηκε στο βήμα 3: a. Εάν τα στιγμιότυπα στη δευτερεύουσα κλάση ικανοποιούν προκαθορισμένα κριτήρια ή εάν το σύνολο των υπολοίπων επιλογών γνωρισμάτων γι αυτή τη διαδρομή του δέντρου είναι μηδέν, καθορίζουμε την κατηγοριοποίηση των καινούργιων στιγμιότυπων που ακολουθούν αυτή τη διαδρομή αποφάσεων. b. Εάν η δευτερεύουσα κλάση δεν ικανοποιεί τα προκαθορισμένα κριτήρια, και υπάρχει τουλάχιστον ένα γνώρισμα για να υποδιαιρέσει περαιτέρω τη διαδρομή του δέντρου, αφήστε το T να είναι το τρέχον σύνολο των στιγμιότυπων της δευτερεύουσας κλάσης και επιστρέφουμε στο βήμα 2. Οι επιλογές γνωρισμάτων (βήμα 2 του αλγορίθμου), που γίνονται όταν κατασκευάζεται ένα κέντρο αποφάσεων καθορίζουν το μέγεθος του δέντρου που κατασκευάζεται. Ένας βασικός σκοπός είναι να ελαχιστοποιηθεί ο αριθμός των επιπέδων του δέντρου και των κόμβων του, με συνέπεια τη γενίκευσης των δεδομένων. Το C4.5 το κάνει αυτό επιλέγοντας το γνώρισμα που χωρίζει τα δεδομένα έτσι ώστε να δείξει το μεγαλύτερο κέρδος σε πληροφορίες. Αυτό θα φανεί καλύτερα στο παρακάτω παράδειγμα (Roiger & Geatz 2003). 3.1.2 Παράδειγμα Δέντρου Απόφασης Έστω ότι έχουμε μία βάση με δεδομένα προώθησης πιστωτικών καρτών (πίνακας 3.1). Θέλουμε να αναπτύξουμε ένα μοντέλο πρόβλεψης με χαρακτηριστικό εξόδου το life 59

insurance promotion. Κατά συνέπεια, τα γνωρίσματα εισόδου περιορίζονται στις income range, credit card insurance, sex και age. Πίνακας 3.1 Βάση δεδομένων προώθησης πιστωτικών καρτών income range life insurance promotion credit card insurance sex age 40-50 χιλ Όχι Όχι Άντρας 45 30-40 χιλ Ναι Όχι Γυναίκα 40 40-50 χιλ Όχι Όχι Άντρας 42 30-40 χιλ Ναι Ναι Άντρας 43 50-60 χιλ Ναι Όχι Γυναίκα 38 20-30 χιλ Όχι Όχι Γυναίκα 55 30-40 χιλ Ναι Ναι Άντρας 35 20-30 χιλ Όχι Όχι Άντρας 27 30-40 χιλ Όχι Όχι Άντρας 43 30-40 χιλ Ναι Όχι Γυναίκα 41 40-50 χιλ Ναι Όχι Γυναίκα 43 20-30 χιλ Ναι Όχι Άντρας 29 50-60 χιλ Ναι Όχι Γυναίκα 39 40-50 χιλ Όχι Όχι Άντρας 55 20-30 χιλ Ναι Ναι Γυναίκα 19 Ο Πίνακας 3.1 δείχνει τα δεδομένα εκπαίδευσης. Με τα δεδομένα εκπαίδευσης επιλεγμένα, μπορούμε να προχωρήσουμε στο βήμα 2 του αλγορίθμου, το οποίο μας λέει να επιλέξουμε ένα γνώρισμα εισόδου για να διαχωρίσουμε κατά τον καλύτερο τρόπο τα στιγμιότυπα των δεδομένων εκπαίδευσης. Οι επιλογές μας είναι income range, credit card insurance, sex και age. Ας ρίξουμε μια ματιά σε όλες τις πιθανότητες. Η πρώτη μας επιλογή είναι η income range. Η Εικόνα 3.1 δείχνει το τμήμα του δέντρου που δημιουργήθηκε στο βήμα 3 του αλγορίθμου, υπό την προϋπόθεση ότι το εύρος εισοδήματος είναι επιλεγμένο σαν κόμβος ανωτάτου επιπέδου. Οι συνολικές μετρήσεις 60

yes και no για το γνώρισμα εξόδου φαίνονται στη βάση του κάθε κλάδου του τμήματος του δέντρου. Για να αξιολογήσουμε αυτή την επιλογή, κάνουμε πρώτα την τιμή της κάθε διαδρομής του τμήματος του δέντρου την πιο συχνή κλάση. Έχουμε δύο στιγμιότυπα από κάθε κλάση που ακολουθούν τον κλάδο που δίνεται από το income range = 50-60Κ. Άρα, μπορούμε να επιλέξουμε τη life insurance promotion = no ή life insurance promotion = yes σαν τιμή της διαδρομής. Για να σπάσουμε το δεσμό, κλίνουμε προς την πιο συχνή κλάση, η οποία είναι η life insurance promotion = yes. Για τον κλάδο που δείχνει income range = 30-40Κ επιλέγουμε life insurance promotion = yes σαν τιμή της διαδρομής. Για income range = 40-50Κ επιλέγουμε life insurance promotion = no, και για income range = 50-60Κ επιλέγουμε life insurance promotion = yes. Income Range 20 30K 30 40K 40 50K 2 Yes 2 No 4 Yes 1 No 1 Yes 3 No 50 60K 2 Yes Εικόνα 3.1 Ένα τμήμα δέντρου αποφάσεων με βασικό κόμβο = income range Αφού κάνουμε αυτές τις επιλογές, το τμήμα του δέντρου κατηγοριοποιεί σωστά τα 11 από τα 15 στιγμιότυπα του συνόλου εκπαίδευσης. Το αποτέλεσμα είναι μια ορθότητα κατηγοριοποίησης συνόλου εκπαίδευσης πάνω από 73%. Αυτό το απλό μέτρο μας λέει κάτι σχετικά με την ικανότητα του γνωρίσματος να ομαδοποιήσει τα στιγμιότυπα στις καθορισμένες κλάσεις. Όμως, το μέτρο δεν παίρνει υπόψη του τις δυνατότητες 61

γενίκευσης του γνωρίσματος. Για παράδειγμα, τί συμβαίνει όταν τα δεδομένα εκπαίδευση περιέχουν ένα γνώρισμα, όπως ένας αριθμός αναγνώρισης, που είναι μοναδικό για κάθε στιγμιότυπο; Προφανώς, κάθε στιγμιότυπο εκπαίδευσης κατηγοριοποιείται σωστά με βάση το μοναδικό του αριθμό αναγνώρισης. Κατά συνέπεια το αποτέλεσμα της ορθότητας κατηγοριοποίησης του συνόλου εκπαίδευσης για το γνώρισμα θα είναι 100%. Όμως, η επιλογή ενός τέτοιου γνωρίσματος είναι σφάλμα, καθώς το τελικό δέντρο αποφάσεων θα είναι μια δομή ενός επίπεδου με μια μοναδική διαδρομή για κάθε στιγμιότυπο εκπαίδευσης. Ας θεωρήσουμε την credit card insurance σαν υποψήφια για κόμβο ανωτάτου επιπέδου του δέντρου αποφάσεων. Η Εικόνα 3.2 εμφανίζει το τμήμα του δέντρου που δημιουργήθηκε στο βήμα 3 του αλγορίθμου, υπό την προϋπόθεση ότι η credit card insurance είναι το επιλεγμένο γνώρισμα. Χρησιμοποιώντας την ίδια συλλογιστική μ αυτή που μόλις εξετάστηκε, τερματίζουμε τη διαδικασία κατασκευής του δέντρου εδώ, και υπολογίζουμε την ακρίβεια κατηγοριοποίησης του συνόλου εκπαίδευσης του τμήματος του δέντρου. Για τον κλάδο credit card insurance = no έχουμε έξι απαντήσεις yes και έξι no στην προώθηση της ασφάλειας ζωής. Για μια φορά ακόμη διασπούμε το δεσμό επιλέγοντας την κλάση που απαντάται πιο συχνά, η οποία είναι η life insurance promotion = yes. Για τον κλάδο που δείχνει credit card insurance = yes επιλέγουμε life insurance promotion = yes. Για να συνοψίσουμε, ακολουθώντας οποιαδήποτε διαδρομή του δέντρου, κάνουμε πάντα την επιλογή life insurance promotion = yes. Η ακρίβεια του συνόλου εκπαίδευσης που προκύπτει είναι 60% (9 σωστές απαντήσεις από τις 15). Διαιρώντας το 0.60 με τον αριθμό των κλάδων που προστίθενται στο δέντρο σαν αποτέλεσμα της επιλογής του γνωρίσματος, παίρνουμε μια βαθμολογία καταλληλότητας 0.30. 62

Εικόνα 3.2 Ένα τμήμα δέντρου αποφάσεων με βασικό κόμβο = credit card insurance Τώρα θεωρούμε το αριθμητικό γνώρισμα age σαν μια πιθανή επιλογή για τον κόμβο ανωτάτου επιπέδου του δέντρου αποφάσεων. Μια συνηθισμένηη μέθοδος για την επεξεργασία αριθμητικών δεδομένων είναι να κατηγοριοποιήσουμε τις τιμές και να σκεφτούμε δυαδικούς διαχωρισμούς μεταξύ του κάθε ζευγαριού των τιμών. Για το παράδειγμά μας οι ηλικίες κατηγοριοποιούνται όπως παρακάτω: Πίνακας 3.2 Κατηγοριοποίηση με βάση την ηλικία 19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N N N Στη συνέχεια υπολογίζεται μια βαθμολογία καταλληλότητας για κάθε πιθανό σημείο διαχωρισμού. Αυτό σημαίνει ότι το αποτέλεσμα για ένα δυαδικό διαχωρισμό μεταξύ 19 και 27 υπολογίζεται όπως το αποτέλεσμα για ένα διαχωρισμό μεταξύ του 27 και του 29. Αυτή η διαδικασία συνεχίζεται μέχρι να αποκτηθεί ένα αποτέλεσμαα για το διαχωρισμό μεταξύ 45 και 55. Κατ αυτό τον τρόπο, κάθε σημείο διαχωρισμού θεωρείται σαν ένα ξεχωριστό γνώρισμα με δύο τιμές. Σ αυτό τον υπολογισμό για κάθε σημείο επιλογής, η απλή λογική μας λέει ότι το 43 έχει σαν αποτελέσματα τον καλύτερο διαχωρισμό των δεδομένων. Συσχετίζουμε τo life insurance promotion = yes με τo age <= 43 και τo life insurance promotion = no με τo age > 43. Η ακρίβεια του συνόλουυ εκπαίδευσης είναι 80% (12 από τα 15σωστά), και η βαθμολογία καταλληλότητας γι αυτό το γνώρισμα είναι 0.40. 63

Τελικά, θεωρούμε το γνώρισμα sex σαν υποψηφιότητα κόμβου ανωτάτου επιπέδου. Η επιλογή του έχει μια βαθμολογίαα καταλληλότητας περίπου 0.367. Συγκρίνοντας τα τέσσερα αποτελέσματα, βλέπουμε ότι το γνώρισμα age προσφέρει το καλύτερο αποτέλεσμα μεταξύ των πιθανών επιλογών γνωρίσματος. Κατά συνέπεια κάνουμε την age γνώρισμα επιλογής και εκτελούμε το βήμα 3 του αλγορίθμου του δέντρου αποφάσεων. Το τμήμα του δέντρου με την age σαν κόμβο ανωτάτου επιπέδου φαίνεται στην Εικόνα 3.3. Εικόνα 3.3 Ένα τμήμα δέντρου αποφάσεων με βασικό κόμβο = age Το βήμα 4α του αλγορίθμου απαιτεί να εξετάσουμε τον κάθε κλάδο του τμήματος του δέντρου για να καθορίσουμε εάν θα συνεχίσουμε τη διαδικασία κατασκευής του δέντρου. Ο αλγόριθμος δηλώνει δύο πιθανότητες για τον τερματισμό μιας διαδρομής του δέντρου.. Πρώτον, εάν τα στιγμιότυπα που ακολουθούν ένα συγκεκριμένο κλάδο ικανοποιούν ένα προκαθορισμένο κριτήριο, όπως είναι μια ελάχιστη ακρίβεια κατηγοριοποίησης του συνόλου εκπαίδευσης, ο κλάδος γίνεται μια τερματική διαδρομή. Η διαδρομή αντιστοιχίζεται στη συνέχεια στην τιμή της πιο συχνά απαντημένης κλάσης. Ένα προφανές κριτήριο τερματισμού είναι ότι όλα τα στιγμιότυπα που ακολουθούν μια συγκεκριμένη διαδρομή θα πρέπει να προέρχονται από την ίδια κλάση. Μια δεύτερη πιθανότητα για τον τερματισμό μιας διαδρομής του δέντρου είναι η απουσία ενός γνωρίσματος για τη συνέχιση της διαδικασίας διαχωρισμού του δέντρου. Για να είμαστε σίγουροι, εάν έχει επιλεγεί ένα κατηγοριακό γνώρισμα, οι τιμές του είναι σε θέση να διαιρέσουν το δέντρο μια μόνο φορά. Όμως, ένα αριθμητικό γνώρισμα μπορεί να χρησιμοποιηθεί για να διαχωρίσει τα δεδομένα πολλές φορές. Για το παράδειγμά μας των στιγμιότυπων εκπαίδευσης που ακολουθούν τον κλάδο που έχει age > 43, έχουν 64

όλα μια τιμή no για την προσφορά ασφάλειας ζωής. Κατά συνέπεια, τερματίζουμε αυτή τη διαδρομή και ονομάζουμε τον κόμβο life insurance promotion = no. Στη συνέχεια παίρνουμε τη διαδρομή με age <= 43. Αυτή διαδρομή δείχνει 9 στιγμιότυπα που έχουν yes για το γνώρισμα εξόδου και 3 στιγμιότυπα που έχουν no για το γνώρισμα εξόδου. Καθώς υπάρχει τουλάχιστον ένα ακόμη γνώρισμα που πρέπει να εφαρμοστεί, είμαστε σε θέση να συνεχίσουμε την κατασκευή του δέντρου. Παρατηρήστε ότι το βήμα 4β του αλγορίθμου μας λέει ότι τα στιγμιότυπα που ακολουθούν αυτή τη διαδρομή αντιστοιχίζονται σαν νέες τιμές του T. Μετά την αντιστοίχηση του T, τα βήματα του αλγορίθμου 2, 3, και 4 επαναλαμβάνονται. Αυτή η διαδικασία συνεχίζεται μέχρις ότου όλες οι διαδρομές να συναντήσουν κριτήρια τερματισμού ή όλες οι πιθανότητες επιλογών γνωρισμάτων να έχουν εξαντληθεί (Roiger & Geatz 2003). 3.1.3 Δέντρα αποφάσεων για τη βάση δεδομένων προώθησης πιστωτικών καρτών Εφαρμόσαμε δύο υλοποιήσεις του C4.5 στα δεδομένα του Πίνακα 3.1. Οι εκδόσεις ποικίλλουν ελαφρώς στην επεξεργασία τους για την επιλογή γνωρισμάτων. Τα δέντρα αποφάσεων που σχηματίστηκαν από κάθε υλοποίηση φαίνονται στις Εικόνες 3.4 και 3.5. Το δέντρο της Εικόνας 3.4 περιέχει τρεις κόμβους και δημιουργήθηκε από την πιο πρόσφατη έκδοση του C4.5. Αξίζει να παρατηρήσουμε ότι ο υπολογισμός της βαθμολογία καταλληλότητας επέλεξε το γνώρισμα age μ ένα διαχωρισμό στο age = 43 σαν κόμβο ανωτάτου επιπέδου. Ακολουθώντας τον δεξιά κλάδο του δέντρου παρατηρούμε ότι άτομα ηλικίας μεγαλύτερης των 43 δεν εκμεταλλεύθηκαν την προσφορά της ασφάλειας ζωής. Το 3 που φαίνεται σε παρενθέσεις δηλώνει ότι τρία από τα στιγμιότυπα εκπαίδευσης ακολουθούν αυτή τη διαδρομή. Το 0 μας λέει ότι και οι τρεις κατηγοριοποιήσεις είναι σωστές. Παρατηρήστε ότι ο κλάδος για credit card insurance = no δείχνει μια λανθασμένη κατηγοριοποίηση. Η λανθασμένη κατηγοριοποίηση μας λέει ότι ένας άντρας με ηλικία μικρότερη ή ίση του 43 δεν αγόρασε ασφάλεια πιστωτικής κάρτας αλλά είπε ναι στην προσφορά της ασφάλειας 65

ζωής. Καθώς όλες οι άλλες κατηγοριοποιήσεις είναι σωστές, το δέντρο είναι σε θέση να κατηγοριοποιήσει με ακρίβεια 14 από τα 15 στιγμιότυπα. Εικόνα 3.4 Ένα δέντρο αποφάσεων τριών κόμβων για τη βάση δεδομένων προώθησης πιστωτικών καρτών Το δέντρο της Εικόνας 3.5 έχει δύο αντί για τρεις κόμβους. Όπως το δέντρο της Εικόνας 3. 4, το δέντρο δείχνει τα γνωρίσματα credit card insurance και age. Όμως, το δέντρο δεν έχει έλεγχο για το γνώρισμα age. Όπως μπορείτε να δείτε, το δέντρο αποφάσεων της Εικόνας 3.5 κατηγοριοποιεί λανθασμένα δύο στιγμιότυπα εκπαίδευσης. Εικόνα 3.5 Ένα δέντρο αποφάσεων δύο κόμβων για τη βάση δεδομένων προώθησης πιστωτικών καρτών Με την πρώτη ματιά φαίνεται μάλλον απίθανο να έχουμε μια κατάσταση όπου ένα δέντρο αποφάσεων δεν είναι σε θέση να κατηγοριοποιήσει σωστά όλα τα στιγμιότυπα εκπαίδευσης.. Ας χρησιμοποιήσουμε το δέντρο αποφάσεων της Εικόνας 3.4 για να δούμε πώς μπορεί να συμβεί αυτό. Ο Πίνακας 3.2 εμφανίζει τα τέσσερα στιγμιότυπα εκπαίδευσης που ακολουθούν τη διαδρομή του δέντρου αποφάσεων της Εικόνας 3.4 σε 66

credit card insurance = no. Σ αυτό το σημείο ο αλγόριθμος αποφασίζει ότι τα προκαθορισμένα κριτήρια που δηλώθηκαν στο βήμα 4α του αλγορίθμου έχουν ικανοποιηθεί ή έχει επιλεγεί ένα καινούργιο γνώρισμα για να υποδιαιρέσει περαιτέρω τα στιγμιότυπα. Ο Πίνακας 3.2 μας λέει ότι τα τρία πρώτα στιγμιότυπα έχουν life insurance promotion = no. Το τέταρτο στιγμιότυπο έχει life insurance promotion = yes. Όμως, το τέταρτο στιγμιότυπο είναι παρόμοιο με το δεύτερο, με την εξαίρεση της τιμής της life insurance promotion και την τιμή της age. Καθώς η τιμή life insurance promotion είναι το γνώρισμα εξόδου, η μόνη πιθανή επιλογή γνωρίσματος είναι η age. Όπως παρατηρήθηκε προηγούμενα, όταν ένα κατηγοριακό γνώρισμα επιλεγεί σαν κόμβος δέντρου, δεν μπορεί να επιλεγεί και πάλι. Όμως, τα αριθμητικές γνωρίσματα μπορούν να χρησιμοποιηθούν πολλές φορές, υπό την προϋπόθεση ότι επιλέγεται ένα νέο σημείο διαχωρισμού, κάθε φορά που επιλέγεται το γνώρισμα. Κατά συνέπεια, οι εναλλακτικοί τρόποι είναι να τερματιστεί η περαιτέρω εξέλιξη της διαδρομής ή να χρησιμοποιηθεί το γνώρισμα age και να δημιουργηθεί ένας νέος κόμβος. Όπως μπορούμε να δούμε, ο αλγόριθμος επέλεξε να τερματίσει τη διαδικασία της κατασκευής του δέντρου (Roiger & Geatz 2003). 3.1.4 Κανόνες δέντρων αποφάσεων Καθώς οι κανόνες έχουν την τάση να είναι πιο ελκυστικοί από τα δέντρα, έχουν μελετηθεί πολλές παραλλαγές του βασικού δέντρου για την αντιστοίχηση των κανόνων. Οι περισσότερες παραλλαγές επικεντρώνονται στην απλοποίηση και/ή εξάλειψη υφισταμένων κανόνων. Για να καταδείξουμε τη διαδικασία απλοποίησης των κανόνων, θεωρήστε το δέντρο αποφάσεων της Εικόνας 3.4. Ένας κανόνας που δημιουργήθηκε ακολουθώντας μια διαδρομή του δέντρου φαίνεται εδώ: IF Age <= 43 & Sex = Male & Credit Card Insurance = No THEN Life Insurance Promotion = No Οι προηγούμενες συνθήκες γι αυτό τον κανόνα καλύπτουν 4 από τα 15 στιγμιότυπα των δεδομένων εκπαίδευσης με ακρίβεια 75%. Ας απλοποιήσουμε τον κανόνα εξαλείφοντας τις προηγούμενες συνθήκες για την age. Ο απλοποιημένος κανόνας παίρνει τη μορφή: 67

IF Sex = Male & Credit Card Insurance = No THEN Life Insurance Promotion = No Εξετάζοντας τον Πίνακα 3.1 βλέπουμε ότι οι προηγούμενοι του απλοποιημένου κανόνα καλύπτουν 6 στιγμιότυπα. Καθώς ο επακόλουθος κανόνας καλύπτει πέντε από τα έξι στιγμιότυπα, η ακρίβεια του απλοποιημένου κανόνα είναι περίπου 83.3%. Κατά συνέπεια ο απλοποιημένος κανόνας είναι πιο γενικός και πιο ακριβής από τον αρχικό κανόνα! Με μια πρώτη ματιά φαίνεται δύσκολο να πιστέψουμε ότι η κατάργηση ενός ελέγχου υπό συνθήκες μπορεί στην πραγματικότητα να βελτιώσει την ακρίβεια του κανόνα. Όμως, μια πιο λεπτομερής εξέταση αποκαλύπτει το γιατί η εξάλειψη του ελέγχου δίνει ένα καλύτερο αποτέλεσμα. Για να το δούμε αυτό, παρατηρήστε ότι η κατάργηση του γνωρίσματος age από τον κανόνα είναι ισοδύναμη με την κατάργηση του γνωρίσματος από το δέντρο της Εικόνας 3.4. Έτσι, τα στιγμιότυπα του δέντρου που ακολουθούν τη διαδρομή age > 43 θα πρέπει τώρα να ακολουθούν την ίδια διαδρομή με αυτά που ακολουθούν την age <= 43. Και τα τρία στιγμιότυπα με age > 43 είναι μέλη της κλάσης life insurance promotion = no. Δύο απ αυτά τα τρία στιγμιότυπα είναι γένους αρσενικού με credit card insurance = no. Και τα δύο στιγμιότυπα ικανοποιούν τις προϋποθέσεις και τις επακόλουθες συνθήκες του απλοποιημένου κανόνα. Εξαιτίας αυτού, οι προϋποθέσεις για το νέο κανόνα ικανοποιούνται από έξι στιγμιότυπα, πέντε από τα οποία έχουν no σαν τιμή της life insurance promotion. Οι περισσότερες υλοποιήσεις δέντρων αποφάσεων αυτοματοποιούν τη διαδικασία δημιουργίας και απλοποίησης κανόνων. Αφού οι κανόνες έχουν απλοποιηθεί και/ή εξαλειφθεί, οι κανόνες μπαίνουν σε σειρά έτσι ώστε να ελαχιστοποιούν τα σφάλματα. Τελικά, επιλέγεται ένας προεπιλεγμένος κανόνας. Ο προεπιλεγμένος κανόνας δηλώνει την κατηγοριοποίηση ενός στιγμιότυπου που δεν ικανοποιεί τις προϋποθέσεις οποιωνδήποτε από τους αναφερόμενους κανόνες (Roiger & Geatz 2003). 68

3.1.5 Άλλες μέθοδοι κατασκευής δέντρων αποφάσεων Ο C4.5 είναι ο πιο πρόσφατος αλγόριθμος κατασκευής δέντρων αποφάσεων του Quinlan. Όμως, υπάρχουν πολλοί άλλοι αλγόριθμοι για την κατασκευή δέντρων αποφάσεων. Ο ID3 (Quinlan, 1986) έχει μελετηθεί εκτενώς και είναι ο πρόδρομος του C4.5. Ο CART (Breiman et al., 1984) παρουσιάζει ιδιαίτερο ενδιαφέρον καθώς πολλά εμπορικά προϊόντα υλοποιούν παραλλαγές του αλγορίθμου. Επιπλέον, ήταν το πρώτο σύστημα που εισήγαγε τα δέντρα παλινδρόμησης (regression trees). Ουσιαστικά, τα δέντρα παλινδρόμησης παίρνουν τη μορφή των δέντρων αποφάσεων, όπου οι κόμβοι είναι αριθμητικές αντί για κατηγοριακές τιμές. Ο CART είναι παρόμοιος με τον C4.5, αλλά υπάρχουν επίσης πολλές διαφορές. Μια αξιοσημείωτη διαφορά είναι ότι ο CART εκτελεί πάντα δυαδικούς διαχωρισμούς στα δεδομένα, ανεξάρτητα από το εάν τα γνωρίσματα είναι κατηγοριακά ή αριθμητικά. Μια δεύτερη διαφορά είναι ότι ο CART χρησιμοποιεί δεδομένα ελέγχου για να βοηθήσει στον περιορισμό και κατά συνέπεια στη γενίκευση ενός δυαδικού δέντρου που δημιουργήθηκε, ενώ ο C4.5 χρησιμοποιεί μόνο δεδομένα εκπαίδευσης για να δημιουργήσει μια τελική δομή δένδρου. Ο CHAID (Kass,1980) είναι ένας δεύτερος ενδιαφέρων αλγόριθμος κατασκευής δέντρων αποφάσεων, που συναντάται σε εμπορικά στατιστικά πακέτα, όπως τα SAS και SPSS. Ο CHAID διαφέρει από τον C4.5 και CART στο ότι περιορίζεται σε εργασίες με κατηγοριακά γνωρίσματα. Έχει μια στατιστική γεύση καθώς χρησιμοποιεί τον στατιστικό έλεγχο σημαντικότητας Χ2 για να καθορίσει υποψήφια γνωρίσματα για την κατασκευή του δέντρου αποφάσεων (Roiger & Geatz 2003). 3.1.6 Συνοψίζοντας Τα δέντρα αποφάσεων έχουν πολλά πλεονεκτήματα. Είναι εύκολα στην κατανόηση και αντιστοιχίζονται καλά σ ένα σύνολο κανόνων παραγωγής, Έχουν εφαρμοστεί με επιτυχία σε πραγματικά προβλήματα, δεν κάνουν προηγούμενες υποθέσεις για τη φύση των δεδομένων, είναι ικανά να κατασκευάσουν μοντέλα με σύνολα δεδομένων που περιέχουν αριθμητικά, καθώς επίσης και κατηγοριακά δεδομένα. 69

Όπως στους αλγόριθμους εξόρυξης γνώσης, υπάρχουν πολλά θέματα που σχετίζονται με τη χρήση των δέντρων αποφάσεων. Ειδικότερα, τα γνωρίσματα εξόδου θα πρέπει να είναι κατηγοριακά, και δεν επιτρέπονται πολλαπλά γνωρίσματα εξόδου, οι αλγόριθμοι δέντρων αποφάσεων είναι ασταθείς (unstable) στο ότι μικρές παραλλαγές στα δεδομένα εκπαίδευσης μπορεί να προκαλέσουν επιλογές διαφορετικών γνωρισμάτων σε κάθε σημείο απόφασης μέσα στο δέντρο. Η επίπτωση μπορεί να είναι σημαντική, καθώς οι επιλογές γνωρισμάτων επηρεάζουν όλα τα επακόλουθα δευτερεύοντα δέντρα. Δέντρα που δημιουργούνται από αριθμητικά σύνολα δεδομένων μπορεί να είναι πολύ σύνθετα, καθώς οι διαχωρισμοί γνωρισμάτων για αριθμητικά δεδομένα είναι τυπικά δυαδικοί. 3.2 Δημιουργία Συνδυαστικών Κανόνων Η ανάλυση ομοιότητας (affinity analysis) είναι η γενική διαδικασία καθορισμού των πραγμάτων που πάνε μαζί. Μια τυπική εφαρμογή είναι η ανάλυση του καλαθιού αγοράς, της οποίας ο σκοπός είναι να καθορίσουμε εκείνα τα προϊόντα που είναι πιθανόν να αγοραστούν από έναν πελάτη κατά τη διάρκεια μιας αγοράς. Η έξοδος της ανάλυσης καλαθιού αγοράς είναι ένα σύνολο συνδυασμών για τη συμπεριφορά πελάτη - αγορών. Οι συνδυασμοί δίνονται στη μορφή ενός ειδικού συνόλου κανόνων, γνωστών σαν συνδυαστικών κανόνων. Οι συνδυαστικοί κανόνες χρησιμοποιούνται για να βοηθήσουν στον καθορισμό κατάλληλων στρατηγικών προώθησης προϊόντων. 3.2.1 Εμπιστοσύνη και υποστήριξη Οι κανόνες συσχετισμού δε μοιάζουν με τους παραδοσιακούς κανόνες κατηγοριοποίησης, από την άποψη ότι ένα γνώρισμα που εμφανίζεται σαν προϋπόθεση σ έναν από τους κανόνες, μπορεί να εμφανίζεται στον επακόλουθο σαν δεύτερος κανόνας. Επιπλέον οι παραδοσιακοί κανόνες κατηγοριοποίησης περιορίζουν συνήθως τις επακόλουθες ενός κανόνα σε ένα απλό γνώρισμα. Τα προγράμματα δημιουργίας συνδυαστικών κανόνων επιτρέπουν στους επακόλουθους ενός κανόνα να περιέχουν μια ή περισσότερες τιμές γνωρισμάτων. Για να το καταδείξουμε αυτό, ας υποθέσουμε ότι θέλουμε να καθορίσουμε εάν υπάρχουν ενδιαφέρουσες σχέσεις που πρέπει να βρεθούν 70

στις τάσεις αγοράς ενός πελάτη, μεταξύ των παρακάτω τεσσάρων ειδών ενός παντοπωλείου : Γάλα Τυρί Ψωμί Αβγά Πιθανοί συνδυασμοί περιλαμβάνουν τα παρακάτω : 1. Εάν οι πελάτες αγοράζουν γάλα, αγοράζουν επίσης ψωμί. 2. Εάν οι πελάτες αγοράζουν ψωμί, αγοράζουν επίσης γάλα. 3. Εάν οι πελάτες αγοράζουν γάλα και αβγά, αγοράζουν οι επίσης τυρί και ψωμί. 4. Εάν οι πελάτες αγοράζουν γάλα, τυρί και αβγά, αγοράζουν επίσης ψωμί. Ο πρώτος συνδυασμός μας λέει ότι ένας πελάτης που αγοράζει γάλα είναι πιθανόν να αγοράσει επίσης ψωμί. Η προφανής ερώτηση είναι, "Πόσο πιθανό είναι το γεγονός της αγοράς γάλακτος να οδηγήσει στην αγορά ψωμιού;". Ο κάθε συνδυαστικός κανόνας σχετίζεται με μια εμπιστοσύνη (confidence). Γι αυτό τον κανόνα η εμπιστοσύνη είναι η πιθανότητα υπό συνθήκες αγοράς ψωμιού, δεδομένης της αγοράς γάλατος. Κατά συνέπεια, εάν ένας συνολικός αριθμός 10.000 συναλλαγών πελατών σχετίζεται με αγορά γάλακτος, και 5.000 από αυτές τις ίδιες συναλλαγές σχετίζονται επίσης με αγορά ψωμιού, η εμπιστοσύνη της αγοράς ψωμιού, δεδομένης της αγοράς γάλακτος, είναι 5.000/10.000 = 50%. Σκεφθείτε τώρα το δεύτερο κανόνα. Μας δίνει αυτός ο κανόνας τις ίδιες πληροφορίες με τον πρώτο; Η απάντηση είναι προφανώς όχι! Με τον πρώτο κανόνα η περιοχή συναλλαγών αποτελείτο από όλους τους πελάτες οι οποίοι είχαν προβεί στην αγορά γάλατος. Γι αυτό τον κανόνα, η περιοχή είναι το σύνολο όλων των συναλλαγών πελατών οι οποίοι δείχνουν αγορά ψωμιού. Σαν παράδειγμα, ας υποθέσουμε ότι έχουμε ένα συνολικό αριθμό 20.000 συναλλαγών πελατών που περιλαμβάνει αγορά ψωμιού, 71

και από αυτές οι 5.000 συνδυάζονται με αγορά γάλατος. Αυτό μας δίνει μια τιμή εμπιστοσύνης για την αγορά γάλακτος, δεδομένης της αγοράς ψωμιού, 25%. Αν και ο τρίτος και τέταρτος κανόνες είναι πιο σύνθετοι, η ιδέα είναι ίδια. Η εμπιστοσύνη για τον τρίτο κανόνα μας λέει την πιθανότητα αγοράς τυριού και ψωμιού, δεδομένης της αγοράς γάλακτος και αβγών. Η εμπιστοσύνη για τον τέταρτο κανόνα μας λέει την πιθανότητα αγοράς ψωμιού δεδομένης της αγοράς γάλατος, αβγών, και τυριού. Μια σημαντική πληροφορία που η τιμή εμπιστοσύνης ενός κανόνα δεν παρέχει είναι το ποσοστό όλων των συναλλαγών που περιέχουν τις τιμές γνωρισμάτων που βρίσκονται σ ένα σχετιζόμενο κανόνα. Αυτό το στατιστικό μέγεθος είναι γνωστό σαν υποστήριξη (support) για ένα κανόνα. Η υποστήριξη είναι απλά το ελάχιστο ποσοστό των στιγμιότυπων στη βάση δεδομένων που περιέχει όλα τα στοιχεία που εμφανίζονται σ ένα συγκεκριμένο συνδυαστικό κανόνα. Στους κανόνες που δημιουργούνται και φαίνονται στο κεφάλαιο όπου παρατίθενται τα αποτελέσματα των πειραμάτων, αλλά και στο παράρτημα όπου παρατίθενται τα δέντρα απόφασης των πειραμάτων, φαίνονται επίσης και τα confidence και support του κάθε κανόνα που δημιουργείται. 3.2.2 Γενικά Οι συνδυαστικοί κανόνες είναι ιδιαίτερα δημοφιλείς χάρις στην ικανότητά τους να ανακαλύπτουν σχέσεις σε μεγάλες βάσεις δεδομένων, χωρίς να έχουν τον περιορισμό της επιλογής μιας απλής εξαρτώμενης μεταβλητής. Όμως, θα πρέπει να δίνεται προσοχή στην ερμηνεία των συνδυαστικών κανόνων, δεδομένου ότι πολλές αποκαλυπτόμενες σχέσεις αποδεικνύεται κοινοτυπίες. Σαν ένα παράδειγμα, ας υποθέσουμε ότι παρουσιάζουμε ένα σύνολο 10.000 συναλλαγών για μια ανάλυση καλαθιού αγοράς. Επίσης, ας υποθέσουμε ότι το 70% όλων των συναλλαγών περιλαμβάνουν αγορά γάλατος και το 50% όλων των συναλλαγών περιέχουν αγορά ψωμιού. Από αυτή την πληροφορία είναι πιθανόν να δούμε ένα συνδυαστικό κανόνα της μορφής: Εάν οι πελάτες αγοράζουν γάλα, αγοράζουν επίσης ψωμί. 72

Η εμπιστοσύνη γι αυτό τον κανόνα μπορεί να είναι πάνω από 40%. Όμως, επειδή οι περισσότεροι πελάτες αγοράζουν και τα δύο προϊόντα, ο συνδυαστικός κανόνας έχει μικρή αξία. Αυτό σημαίνει ότι ο κανόνας δεν μας δίνει πρόσθετες πληροφορίες αγοράς, τις οποίες θα μπορούσαμε να εκμεταλλευτούμε για να προωθήσουμε την αγορά ψωμιού με το γάλα. Όμως, υπάρχουν δύο τύποι σχέσεων οι οποίοι βρίσκονται μέσα στους συνδυαστικούς κανόνες που παρουσιάζουν ενδιαφέρον: Μας ενδιαφέρουν συνδυαστικοί κανόνες οι οποίοι δείχνουν μια ανύψωση στην αγορά ενός συγκεκριμένου προϊόντος, όπου η ανύψωση στις πωλήσεις είναι το αποτέλεσμα του συνδυασμού μ ένα ή περισσότερα άλλα προϊόντα. Σ αυτή την περίπτωση μπορούμε να χρησιμοποιήσουμε αυτές τις πληροφορίες για να βοηθήσουμε την προώθηση του προϊόντος, με αυξημένες πωλήσεις σαν αποτέλεσμα του συνδυασμού. Μας ενδιαφέρουν επίσης συνδυαστικοί κανόνες οι οποίοι δείχνουν μικρότερη από την αναμενόμενη εμπιστοσύνη για ένα συγκεκριμένο συνδυασμό. Σ αυτή την περίπτωση ένα πιθανό συμπέρασμα είναι ότι τα προϊόντα που εμφανίζονται στον συνδυαστικό κανόνα ανταγωνίζονται για την ίδια αγορά. Σαν μια τελική παρατήρηση, μεγάλος όγκος δεδομένων αποθηκεύεται συχνά για ανάλυση καλαθιού αγοράς. Κατά συνέπεια είναι σημαντικό να ελαχιστοποιήσουμε τη δουλειά που απαιτείται από μια γεννήτρια συνδυαστικών κανόνων. Ένα καλό σενάριο είναι να καθορίσουμε μια αρχική υψηλή τιμή για το κριτήριο κάλυψης του στοιχειοσυνόλου. Εάν είναι επιθυμητοί περισσότεροι κανόνες, το κριτήριο κάλυψης μπορεί να ελαττωθεί και όλη η διαδικασία να επαναληφθεί (Roiger & Geatz 2003). 73

ΚΕΦΑΛΑΙΟ 4 Περιγραφή και Ανάλυση Δεδομένων 4.1 Επιλογή Χαρακτηριστικών Η επιλογή των χαρακτηριστικών του προφίλ του ασφαλισμένου έγινε με γνώμονα την όσο δυνατόν καλύτερη περιγραφή αυτού χωρίς ωστόσο να χρησιμοποιηθούν προσωπικά δεδομένα και κυρίως σε αυτά τα χαρακτηριστικά που, σύμφωνα με τους επαγγελματίες και έμπειρους ασφαλιστές, διαφοροποιούν την τελική επιλογή προϊόντων του ασφαλισμένου. Όπως προαναφέρθηκε τα χαρακτηριστικά αυτά είναι: 1. Η Ηλικία 2. Το Φύλλο 3. Η οικογενειακή κατάσταση του πελάτη 4. Ο αριθμός των τέκνων 5. Το Επάγγελμα 6. Η Επικινδυνότητα επαγγέλματος 7. Αν ο πελάτης είναι καπνιστής ή όχι 8. Αν ο πελάτης είναι ή όχι ασφαλισμένος σε κάποιο δημόσιο ταμείο 9. Τα χρόνια της ασφάλισής του στο δημόσιο ταμείο 10. Αν ο πελάτης χρωστάει ή όχι σε δάνειο Η ηλικία σύμφωνα με τους ασφαλιστές είναι ένα δεδομένο που επηρεάζει την επιλογή σε προϊόν του υποψήφιου πελάτη. Σύμφωνα με τους ασφαλιστές, τα διαστήματα ηλικίας που διαφοροποιούν την τελική επιλογή είναι οι ηλικίες, 20 25, 25 30, 30 45 και 45 60. Σε αυτά τα διαστήματα τοποθετήσαμε και το data set που έχουμε. Το επόμενο χαρακτηριστικό είναι το φύλλο, Άνδρας, Γυναίκα. Είναι λογικό ότι άντρες και γυναίκες δεν έχουν τις ίδιες ανάγκες και έτσι και η τελική επιλογή προϊόντος διαφοροποιείται από το φύλλο. 74

Η οικογενειακή κατάσταση είναι σίγουρα ένα χαρακτηριστικό που επηρεάζει στην επιλογή του προϊόντος. Άλλες ανάγκες έχει ένας παντρεμένος και άλλες ένας ελεύθερος. Το data set το χωρίσαμε στις κατηγορίες Παντρεμένος, Ελεύθερος και Διαζευγμένος. Και ο αριθμός τέκνων επιλέχθηκε να είναι ένα από εκείνα τα στοιχεία που πιστεύουμε ότι επηρεάζει στην επιλογή προϊόντος, μένει να αποδειχθεί και από τα αποτελέσματα των πειραμάτων μας. Στο data set είχαμε εγγραφές με 0, 1, 2 και 3 παιδιά. Το Επάγγελμα είναι επίσης πολύ σημαντικός παράγοντας για την τελική επιλογή προϊόντων. Είναι δεδομένο πως άλλες είναι οι ανάγκες ενός γιατρού και άλλες αυτές του οικοδόμου. Βέβαια είναι σαφές ότι δεν μπορούμε να χρησιμοποιήσουμε εκατοντάδες επαγγέλματα. Αυτό που κάναμε είναι να χωρίσουμε τα επαγγέλματα σε τέσσερις μεγάλες κατηγορίες: Δημόσιοι Υπάλληλοι, Ιδιωτικοί Υπάλληλοι, Ελεύθεροι Επαγγελματίες και Νοικοκυρές. Η προτροπή των ασφαλιστών ήταν να χρησιμοποιήσουμε και την κατηγορία των νοικοκυρών, αφενός γιατί υπήρχαν στο data set, αφετέρου γιατί είναι ούτως ή άλλως μία κατηγορία που έχει διαφορετικές ανάγκες από τις υπόλοιπες και η επιλογή των προϊόντων γίνεται σίγουρα με διαφορετικά κριτήρια και για το λόγο αυτό θα είχε ένα ενδιαφέρον μία μελέτη. Ένα στοιχείο που σίγουρα επηρεάζει κατά πολύ την επιλογή των προϊόντων, είναι η επικινδυνότητα επαγγέλματος. Υπάρχει ένας πίνακας στις ασφαλιστικές εταιρίες που χωρίζει την επικινδυνότητα σε τέσσερις κατηγορίες: Επικινδυνότητα 1,2,3,4 σύμφωνα με το επάγγελμα του καθενός. Για παράδειγμα ο λογιστής ανήκεις στην κατηγορία 1, μικρότερη επικινδυνότητα, ενώ ο επαγγελματίας οδηγός φορτηγού στη 2, χειριστές επικίνδυνων μηχανημάτων στην 3 και 4. Το αν ο πελάτης είναι καπνιστής ή όχι, έχει σημασία κυρίως στην τιμή του προϊόντος που τελικά επιλέγει και λιγότερη στο πιο τελικά θα είναι αυτό που επιλέγει. Παρόλα αυτά επιλέξαμε να μελετήσουμε και αυτό το χαρακτηριστικό για να αποδειχθεί και στην πράξη αυτό που φαίνεται και λογικό. Ένα στοιχείο που δεδομένα επηρεάζει στην επιλογή είναι το αν ο υποψήφιος πελάτης είναι ασφαλισμένος ή όχι σε δημόσιο ταμείο και πιο ταμείο είναι αυτό. Οι κατηγορίες που έχουμε είναι: Να μην είναι ασφαλισμένος σε Δημόσιο Ταμείο, Να είναι στο ταμείο της ΔΕΗ, του 75

Δημοσίου, το ΙΚΑ τον ΟΓΑ το ΤΑΠΟΤΕ, το ΤΕΒΕ, το ΤΣΑΥ και το ΤΣΜΕΔΕ. Από την έρευνα μας θα προκύψουν συμπεράσματα και για τα δημόσια ταμεία. Ο χρόνος ασφάλισης σε δημόσιο ταμείο, έχει επίσης σημασία. Διαφορετικές είναι, σύμφωνα με τους συνεργάτες μας ασφαλιστές, οι παροχές σε κάποιον ο οποίος είναι ασφαλισμένος λιγότερο από 15 χρόνια, από κάποιον που είναι ασφαλισμένος πάνω από 15 χρόνια. Μένει λοιπόν να δούμε αν και πόσο ισχύει η διαφοροποίηση στην επιλογή προϊόντος από την διαφορά στα χρόνια ασφάλισης. Τέλος ένα δεδομένο που ενδεχόμενος διαφοροποιεί την επιλογή, είναι το αν ο υποψήφιος πελάτης χρωστάει ή όχι σε δάνειο και αυτό αποτελεί το τελευταίο χαρακτηριστικό που επιλέξαμε για το data set. 4.2 Στατιστική Ανάλυση Input χαρακτηριστικών Στη συνέχεια παραθέτουμε μία στατιστική ανάλυση που κάναμε για όλα αυτά τα χαρακτηριστικά, θέλοντας να δούμε τη συχνότητα εμφάνισης κάθε χαρακτηριστικού στο data set. Αυτό θα φανεί εξαιρετικά χρήσιμο στα πειράματα που θα κάνουμε με τον αλγόριθμο C4.5. Συγκεκριμένα σε ένα από τα πειράματα θα χρησιμοποιήσουμε τα 2/3 των δεδομένων μας, στηριζόμενοι στην στατιστική ανάλυση, δηλαδή η επιλογή των δεδομένων θα γίνει σύμφωνα με τη συχνότητα εμφάνισης κάθε στοιχείου. 4.2.1 Ηλικία Τιμές Εμφανίσεις σε 780 δεδομένα Ποσοστό Εμφάνισης 20 25 38 4,87% 25 30 170 21,79% 30 45 488 62,56% 45 60 84 10,77% 76

Ηλικί ία 1% 84 1 20 25 25 30 38 30 45 45 60 5% 170 22% 488 62% 4. 2.2 Φύλλο Τιμές Άνδρας Γυναίκα Εμφανίσεις σε 780 δεδομένα 531 249 Ποσοστό Εμφάνισης 68,08% 31,92% Φύλλο Άνδρας Γυναίκα 249 32% 531 68% 4. 2.3 Οικογενειακή κατάσταση Τιμές Εμφανίσεις σε 780 δεδομένα Άγαμος 101 Ποσοστό Εμφάνισης 12,95% 77

Δ 4. Τ Παντρεμένο Διαζευγμένο 2.4 Αριθμ Τιμές Εμ 0 1 2 3 4 ος ς μός Τέκνων μφανίσεις σε 13 11 51 2 0 662 17 ν 780 δεδομέ 30 10 18 2 0 101 13% Οικογε Άγαμος 78 ένα Ποσο 662 85% ενειακή Παντρεμέν 84 2, οστό Εμφάνισ 16,67% 14,10% 66,41% 2,82% 0,00% κατάστ νος Διαζευ,87% 18% σης 17 2% ταση υγμένος

Αριθμός Τέκνων 0 1 2 3 4 518 66% 22 0 3% 0% 130 17% 110 14% 4. 2.5 Τέκνα ανά Οικ. Κατάσταση Τιμές Εμφανίσεις σε 780 δεδομένα Άγαμος 0 παιδιά 1 παιδί 2 παιδιά 3 παιδιά 4 παιδιά Παντρεμένος 0 παιδιά 1 παιδί 2 παιδιά 3 παιδιά 4 παιδιά Διαζευγμένος 0 παιδιά 1 παιδί 2 παιδιά 101 101 0 0 0 0 661 28 110 501 22 0 17 0 0 17 Ποσοστό Εμφάνισης 12,95% 12,95% 0,00% 0,00% 0,00% 0,00% 84,74% 3,59% 14,10% 64,23% 2,82% 0,00% 2,18% 0,00% 0,00% 2,18% 79

3 παιδιά 4 παιδιά 0 0 0,00% 0,00% Τέκνα ανά Οικ.. Κατάσταση Άγαμοι 0 παιδιά 1 παιδί 2 παιδιά 3 παιδιά 4 παιδιά 101 100% Τέκνα ανά Οικ. Κατάσταση Διαζευγμένοι 0 παιδιά 1 παιδί 2 παιδιά 3 παιδιά 4 παιδιά 17 100% Τέκνα ανά Οικ.. Κατάσταση Παντρεμένοι 0 παιδιά 1 παιδί 222 παιδ 0 διά 28 3% 0% 4% 3 παιδιά 4 παιδιά 110 17% 501 76% 80

4. 2.6 Επάγγελμα Τιμές Ελεύθερος Νοικοκυρά Εμφανίσεις σε 780 δεδομένα 239 346 192 3 Ποσοστό Εμφάνισης 30,64% 44,36% 24,62% 0,38% Επάγγελμα 3 0% Ελεύθερος Νοικοκυρά 192 25% 239 31% 346 44% 4. 2.7 Επικινδυνότητα Επαγγέλματος Τιμές Εμφανίσεις σε 780 δεδομένα Ποσοστό Εμφάνισης Επικινδυνότητα 1 Επικινδυνότητα 2 Επικινδυνότητα 3 Επικινδυνότητα 4 600 144 35 1 76,92% 18,46% 4,49% 0,13% 81

Επικινδυνότητα Επαγγέλματος Επικινδυνότητα 4 Επικινδυνότητα 3 0% 5% Επικινδυνότητα 2 18% Επικινδυνότητα 1 77% 4. 2.8 Δημόσιο Ταμείο Τιμές Εμφανίσεις σε 780 δεδομένα Κανένα 2 ΔΕΗ 99 Δημοσίου 106 ΙΚΑ 177 ΟΓΑ 17 ΤΑΠΟΤΕ 17 ΤΕΒΕ 336 ΤΣΑΥ 23 ΤΣΜΕΔΕ 3 Ποσοστό Εμφάνισης 0,26% 12,69% 13,59% 22,69% 2,18% 2,18% 43,08% 2,95% 0,38% 82

4. 2.9 Έτη Ασφάλισης σε Δημόσιο Ταμείο Τιμές Εμφανίσεις σε 780 δεδομένα Ποσοστό Εμφάνισης 0 15 15+ 668 112 85,64% 14,36% Έτη Ασφάλι ισης σε 0 15 Δημόσιο Ταμείο 15+ 253 32% 527 68% 83

4. 2.10 Χρωστάει ή όχι σε Τιμές Εμφανίσεις σε 780 δεδομένα Ποσοστό Εμφάνισης Χρωστάει Δεν χρωστάει 253 527 32,44% 67,56% Χρωστάει ή όχι σε Χρωστάει Δεν χρωστάει 253 32% 527 68% 4. 2.11 Βασική Κάλυψη Τιμές Εμφανίσεις σε 780 δεδομένα Ποσοστό Εμφάνισης Όχι A B C D E F 4 9 334 221 6 56 150 0,51% 1,15% 42,82% 28,33% 0,77% 7,18% 19,23% 84