ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΥΠΟΛΟΓΙΣΤΙΚΑ ΜΑΘΗΜΑΤΙΚΑ ΠΛΗΡΟΦΟΡΙΚΗ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ ΚΑΤΕΥΘΥΝΣΗ Β: ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΝΤΑΛΛΑ ΜΙΡΕΛΑ Α.Μ. 251 Επιβλέπων: Επ. Καθηγητής Ό. Ράγγος Τριµελής εξεταστική επιτροπή Ο. Ράγγος Επ. Καθηγητής. Καββαδίας Επ. Καθηγητής Π. Καραζέρης Επ. Καθηγητής ΠΑΤΡΑ, Οκτώβριος 2009

2 Ντάλλα Μιρέλα, Α.Μ

3 Ευχαριστίες Ευχαριστώ τον κ. Όµηρο Ράγγο για την πολύ καλή συνεργασία που είχαµε στα πλαίσια της υλοποίησης της µεταπτυχιακής εργασίας. Ντάλλα Μιρέλα, Α.Μ

4 Ντάλλα Μιρέλα, Α.Μ

5 Περιεχόµενα Ευχαριστίες... 3 Περιεχόµενα... 5 Πρόλογος... 7 Εισαγωγή Εξόρυξη εδοµένων Γενικά Εργασίες κατά την Εξόρυξη εδοµένων εδοµένα Κατηγοριοποίηση και Παλινδρόµηση (classification & regression) Tµηµατοποίηση (clustering) Ανάλυση της συσχέτισης (association analysis) Άλλες εργασίες που σχετίζονται µε την Εξόρυξη εδοµένων Πρότυπα (patterns) Εξισώσεις έντρα απόφασης Κανόνες πρόβλεψης Κανόνες συσχέτισης Στιγµιότυπα, αποστάσεις και διαµερίσεις Πιθανοτικά µοντέλα Βασικοί αλγόριθµοι Γραµµική και πολλαπλή παλινδρόµηση Επαγωγή από πάνω προς κάτω σε δέντρα απόφασης Ο αλγόριθµος κάλυψης για την επαγωγή κανόνων Εύρεση συχνών συνόλων αντικειµένων και κανόνων συσχέτισης Πρόβλεψη και τµηµατοποίηση µε βάση την απόσταση Εκµάθηση πιθανοτικών µοντέλων Σχεσιακή Εξόρυξη εδοµένων Σχεσιακά δεδοµένα Σχεσιακά πρότυπα Αλγόριθµοι σχεσιακής Εξόρυξης εδοµένων Σύνοψη µεθόδων Εξόρυξης εδοµένων Μοντελοποίηση πρόβλεψης Τµηµατοποίηση Σύνοψη των δεδοµένων Μοντελοποίηση εξάρτησης Ανίχνευση της αλλαγής και της τυπικής απόκλισης KDD και ILP: προοπτικές και προκλήσεις Σύνοψη Επαγωγική Λογική Εισαγωγή Η θεωρία της Λογικής Πρώτης Τάξης (First-order Logic) Εισαγωγή στον Επαγωγικό Λογικό Προγραµµατισµό (ILP) Εισαγωγικά Επαγωγικός Λογικός Προγραµµατισµός και Βάσεις εδοµένων Γιατί ILP; Η βασική εργασία του ILP: υπαγωγή σχεσιακών κανόνων Κατασκευή του χώρου των υποθέσεων Αναζήτηση στο χώρο των υποθέσεων Φράσσοντας την αναζήτηση των clauses...60 Ντάλλα Μιρέλα, Α.Μ

6 2.8 Θεωρία της Mode-Directed Inverse Entailment (MDIE) Υπάρχοντα ILP συστήµατα και το µοντέλο BSP Υπάρχοντα ILP συστήµατα FOIL GOLEM LINUS Ακολουθιακός αλγόριθµος ILP βασισµένος στην MDIE Εισαγωγή στο BSP µοντέλο Παράλληλη Επαγωγική Λογική στην Εξόρυξη εδοµένων Αιτίες, πιθανότητες και προσεγγίσεις του παράλληλου ILP στην Εξόρυξη εδοµένων Λογικές προδιαγραφές του παράλληλου ILP Μια προσέγγιση στον παράλληλο ILP χρησιµοποιώντας το µοντέλο BSP Πιθανά προβλήµατα µε την προσέγγιση BSP στον ILP Ακρίβεια της επαγωγικής θεωρίας σε µικρότερο σύνολο δεδοµένων ιεκπεραιώνοντας αρνητικά παραδείγµατα Κόστος επικοινωνίας Πλεονάζουσα εργασία από ξεχωριστούς επεξεργαστές Ανάλυση του κόστους και επιχειρήµατα για τη διπλή επιτάχυνση Παράλληλη Progol Ο παράλληλος αλγόριθµος Progol Πειράµατα Αποτελέσµατα των δοκιµών Αποτέλεσµα τεστ στην ταξινόµηση των ζώων Αποτελέσµατα τεστ µάθησης σκακιστικών κινήσεων Αποτέλεσµα του τεστ σε πρόβληµα παράνοµου τερµατισµού σε παρτίδα σκακιού Σύνοψη Συµπεράσµατα ΑΝΑΦΟΡΕΣ Ντάλλα Μιρέλα, Α.Μ

7 Πρόλογος Η Εξόρυξη εδοµένων (Data Mining)[1][2][3] είναι η διαδικασία της αυτόµατης εξαγωγής νέων, χρήσιµων και κατανοητών προτύπων (patterns) [10] από µεγάλες βάσεις δεδοµένων. Οι βαθµωτοί αλγόριθµοι, οι αλγόριθµοι υψηλών επιδόσεων και οι αλγόριθµοι παράλληλης επεξεργασίας είναι όλο και περισσότερο απαραίτητοι στην Εξόρυξη εδοµένων καθώς το µέγεθος και η πολυπλοκότητα των δεδοµένων αυξάνεται δραµατικά. Η Επαγωγική Λογική (Inductive Logic)[25] [33] είναι µια ερευνητική περιοχή στα όρια των ερευνητικών περιοχών του Λογικού Προγραµµατισµού (Logic Programming) [19][21][43] και της Μηχανικής Μάθησης (Machine Learning) [20][28]. Η Επαγωγική Λογική µελετά τη µάθηση µέσα από παραδείγµατα εντός του πλαισίου που παρέχει η Λογική των clauses (Clausal Logic) [87][96] παρέχοντας ένα ενιαίο και πολύ εκφραστικό τρόπο αναπαράστασης για όλα τα παραδείγµατα. Η γνώση που αυτά περιλαµβάνουν και όλη η σχετική θεωρία εκφράζονται σε Λογική Πρώτης Τάξης (First-order Logic) [57]. Ωστόσο µια τόσο εκφραστική αναπαράσταση είναι πολλές φορές υπολογιστικά ακριβή. Στην παρούσα εργασία, αρχικά παρουσιάζονται βασικές γνώσεις για την Παράλληλη Εξόρυξη εδοµένων[73], το µοντέλο BSP[46][65][69] και ο Επαγωγικός Λογικός Προγραµµατισµός. Παρέχεται µια προσέγγιση[73] στην εφαρµογή του Επαγωγικού Λογικού Προγραµµατισµού στην Εξόρυξη εδοµένων που επιλύει το προαναφερόµενο πρόβληµα υπολογιστικού κόστους. Παρουσιάζεται τόσο ο παράλληλος αλγόριθµος όσο και η ανάλυση κόστους[73]. Αυτή η προσέγγιση είναι εφαρµόσιµη σε µια σειρά από προβλήµατα και εµφανίζει µια υπεργραµµική επιτάχυνση βελτίωση της απόδοσης[73]. Για να υποστηριχθεί αυτή η ανάλυση, χρησιµοποιήθηκε µια παράλληλη έκδοση ενός συστήµατος ILP Progol γραµµένου σε C µε την υποστήριξη ενός παράλληλου µοντέλου BSP. Παρουσιάζονται τρία παραδείγµατα εφαρµογής[73] του αλγόριθµου και παρατηρείται ένα διπλής επιτάχυνσης βελτίωσης της απόδοσης φαινόµενο σε όλα τα σύνολα δεδοµένων που χρησιµοποιήθηκαν και σε δύο διαφορετικούς υπολογιστές παράλληλης επεξεργασίας. Ντάλλα Μιρέλα, Α.Μ

8 Ντάλλα Μιρέλα, Α.Μ

9 Εισαγωγή Η παρούσα εργασία έχει ως στόχο να παρουσιάσει έναν παράλληλο αλγόριθµο Εξόρυξης εδοµένων που µπορεί να εφαρµοστεί σε µεγάλες βάσεις δεδοµένων µε χρήση Επαγωγικού Λογικού Προγραµµατισµού. Η κεντρική υπόθεση αυτής της εργασίας είναι πως είναι απαραίτητο αλλά και δυνατό να υιοθετηθούν παράλληλοι αλγόριθµοι στη διαδικασία της Εξόρυξης εδοµένων. Αποδεικνύεται ότι ο παραλληλισµός µπορεί να εφαρµοστεί αποδοτικά στον Επαγωγικό Λογικό Προγραµµατισµό (Inductive Logic Programming - ILP). Η ολοκληρωµένη αναπαράσταση της γνώσης και η εξαιρετική ενσωµάτωση της υποκείµενης γνώσης του ILP αποδεικνύεται πολύ σηµαντική µεταξύ των αλγορίθµων Εξόρυξης εδοµένων. Εξόρυξη εδοµένων: Το πεδίο της Εξόρυξης εδοµένων περιλαµβάνει τη θεωρία και τις διαδικασίες που αφορούν την αναπαράσταση και την αποδοτική παραγωγή σηµαντικών προτύπων ή αρχών από µεγάλα σύνολα δεδοµένων. Μερικές από αυτές τις πολύ βασικές αρχές σχετίζονται άµεσα µε τις εγγραφές των βάσεων δεδοµένων. Η Εξόρυξη εδοµένων είναι ένα επιστηµονικό πεδίο που συνδυάζει στοιχεία από τη Στατιστική, τη Μηχανική Μάθηση, τις Βάσεις εδοµένων και τους Υπολογισµούς Υψηλών Επιδόσεων. Επαγωγικός Λογικός Προγραµµατισµός και ο ρόλος του στις Βάσεις εδοµένων: Ο Επαγωγικός Λογικός Προγραµµατισµός (Inductive Logic Programming - ILP) είναι µια σχετικά νέα µέθοδος Μηχανικής Μάθησης που εφαρµόζεται στο επιστηµονικό πεδίο της Εξόρυξης εδοµένων. Πολλοί ερευνητές έχουν στραφεί στο πεδίο του ILP τα τελευταία χρόνια [45]. Ορίζεται ως η τοµή του Λογικού Προγραµµατισµού και της Μηχανικής Μάθησης και έχει αναπτυχθεί σαν µια βασική υποπεριοχή και των δύο επιστηµονικών πεδίων [62]. Η επιτυχία του ILP έχει προκύψει κυρίως εξαιτίας της επιλογής της γλώσσας αναπαράστασης των λογικών προγραµµάτων. Το συντακτικό των λογικών προγραµµάτων παρέχει δοµικά στοιχεία τα οποία όταν προστίθενται ή αφαιρούνται γενικεύουν ή εξειδικεύουν το πρόγραµµα. Ο ILP παρέχει µια ενιαία και εκφραστική αναπαράσταση: όλα τα παραδείγµατα, η θεωρία και η υποκείµενη γνώση εκφράζονται µε Λογική Πρώτη Τάξης. Εξαιτίας αυτής της ενιαίας αναπαράστασης, η χρήση της υποκείµενης γνώσης ταιριάζει απόλυτα µε τη λογική προσέγγιση της Μηχανικής Μάθησης. Η θεωρία και η υποκείµενη γνώση είναι της ίδιας µορφής µόνο που προκύπτουν από διαφορετικές πηγές: η θεωρία προκύπτει από την επαγωγική µάθηση ενώ η υποκείµενη γνώση παρέχεται από το χρήστη του συστήµατος [44]. Ο ILP κληρονοµεί θεωρίες, εργαλεία και αλγορίθµους από την υπολογιστική Λογική. Πολλά προγραµµατιστικά συστήµατα Επαγωγικής Λογικής επωφελούνται από τη χρήση των αποτελεσµάτων της υπολογιστικής Λογικής. Υπάρχει ήδη µια µεγάλη ποικιλία εφαρµογών Εξόρυξης εδοµένων που χρησιµοποιούν αλγορίθµους ILP. Προβλήµατα µε την εφαρµογή του Επαγωγικού Προγραµµατισµού στην Εξόρυξη εδοµένων: Υπάρχουν ήδη εφαρµόσιµοι σειριακοί αλγόριθµοι για την Εξόρυξη εδοµένων, π.χ. σε Ντάλλα Μιρέλα, Α.Μ

10 νευρωνικά δίκτυα [66], σε σχεσιακούς κανόνες (association rules) [39], σε δένδρα απόφασης [54], και στον Επαγωγικό Λογικό Προγραµµατισµό [45] που έχουν χρησιµοποιηθεί σε µια µεγάλη ποικιλία από εφαρµογές του πραγµατικού κόσµου. Ωστόσο, η εξαγωγή χρήσιµης πληροφορίας από µεγάλο όγκο δεδοµένων απαιτεί αποδοτικούς παράλληλους αλγορίθµους που εκτελούνται σε υπολογιστικά συστήµατα υψηλής απόδοσης. Το πιο προφανές επιχείρηµα σχετικά µε την ανάγκη παραλληλίας σχετίζεται µε τη µεγάλη ποσότητα των δεδοµένων. Οι βάσεις δεδοµένων που χρησιµοποιούνται για την Εξόρυξη των δεδοµένων πολύ συχνά είναι τεράστιες αφού για παράδειγµα µπορεί να περιέχουν τα αρχεία των συναλλαγών (transactions) από όλες τις βάσεις δεδοµένων µιας µεγάλης εταιρείας. Καθώς οι βάσεις αυτές µεγαλώνουν και περνούν από το επίπεδο των Gigabytes σε επίπεδο Terabytes, η Εξόρυξη εδοµένων από µια τέτοια βάση δεδοµένων καθίσταται απαγορευτική σε ένα απλό σειριακό υπολογιστή, τόσο για λόγους χώρου όσο και χρόνου. Επιπρόσθετα, όταν ο αλγόριθµος απαιτεί να κάνει πολλά περάσµατα στα δεδοµένα, όπως στην περίπτωση των αλγορίθµων ILP, ο συνολικός χρόνος που απαιτείται για την εκτέλεση του αλγορίθµου είναι απαγορευτικός. Εξαιτίας της χρήσης µιας περισσότερο εκφραστικής αναπαράστασης, οι τεχνικές του επαγωγικού Λογικού Προγραµµατισµού είναι υπολογιστικά πιο ακριβές από τις αντίστοιχες προτασιακές τεχνικές που χρησιµοποιούνται στην Εξόρυξη εδοµένων [73]. Όταν το µέγεθος των δεδοµένων αυξάνεται, αυτό το θέµα της αποδοτικότητας γίνεται ακόµη πιο σηµαντικό. Πολλοί αλγόριθµοι ILP χρειάζεται να διατρέξουν όλο το εύρος των δεδοµένων για να παράγουν το σύνολο επαγωγικών αρχών (induced concept set). Μια τέτοια προσέγγιση δείχνει απαγορευτική όσον αφορά την επίλυση καθηµερινών προβληµάτων Εξόρυξης εδοµένων. Γι αυτό το λόγο, µια ενδιαφέρουσα ερευνητική περιοχή ασχολείται µε το να γίνουν οι αλγόριθµοι ILP περισσότερο αποδοτικοί. Συνεισφορά: Σ αυτή την εργασία, µελετάται η χρήση του Επαγωγικού Λογικού Προγραµµατισµού για να παραχθούν µε παράλληλο τρόπο αρχές από πολύ µεγάλα σύνολα δεδοµένων. Στη µέθοδο που παρουσιάζεται [73], χρησιµοποιούνται p επεξεργαστές για να πραγµατοποιηθεί η Εξόρυξη των εδοµένων. Κάθε επεξεργαστής ασχολείται µε ένα υποσύνολο του πλήρους συνόλου δεδοµένων. Από κάθε ένα από τα ξένα υποσύνολα παράγεται ένα σύνολο αρχών το οποίο στη συνέχεια χρησιµοποιείται για την Εξόρυξη των εδοµένων. Τα κατανεµηµένα υποσύνολα αρχών ανταλλάσσονται και αξιολογούνται [73] πριν συγκεντρωθούν αυτά που θεωρούνται κατάλληλα για να προκύψει το τελικό έγκυρο σύνολο αρχών. Το τελικό σύνολο αρχών δεν περιλαµβάνει αντινοµίες (conflicts) και, όπως το σύνολο των κανόνων, προέκυψε από το πλήρες σύνολο των δεδοµένων. Με αυτό τον τρόπο, οι προσπελάσεις εισόδου/εξόδου (Ι/Ο) στο δίσκο για κάθε επεξεργαστή µειώνονται κατά ένα παράγοντα 1/p. Ο αλγόριθµος λειτουργεί κατά τον ακόλουθο τρόπο. Πρώτα διαιρεί το σύνολο των δεδοµένων σε υποσύνολα και αναθέτει κάθε υποσύνολο σε έναν επεξεργαστή. Στη συνεχεία κάθε επεξεργαστής εκτελεί τον ίδιο σειριακό αλγόριθµο ILP για να βρει τις τοπικά σωστές αρχές. Στο τέλος του πρώτου βήµατος, όλοι οι επεξεργαστές ανταλλάσσουν τα αποτελέσµατά τους και αξιολογούν τις επαγόµενες Ντάλλα Μιρέλα, Α.Μ

11 αρχές που παρήχθησαν σε αυτό το στάδιο. Όταν κάθε επεξεργαστής έχει συλλέξει όλη την απαραίτητη ανάδραση από τους άλλους επεξεργαστές, µπορεί να αποφασίσει αν οι δικές του τοπικά σωστές αρχές είναι και συνολικά σωστές. Αν είναι σωστές, τότε ενηµερώνει και τους άλλους επεξεργαστές ότι µπορούν να προσθέσουν τις τοπικά σωστές αρχές του στις συνολικά σωστές αρχές και να αφαιρέσουν τα περιττά παραδείγµατα από το σύνολο των παραδειγµάτων που αντιστοιχούν σε αυτές τις αρχές. Αυτό είναι ένα µεγάλο βήµα και αυτός ο κύκλος συνεχίζεται µέχρι όλα τα θετικά παραδείγµατα να έχουν καλυφθεί από τις επαγόµενες αρχές. Αφού κάθε επεξεργαστής µαθαίνει αρχές ανεξάρτητα από το υποσύνολο των δεδοµένων του, υπάρχουν µερικά ζητήµατα που πρέπει να εξεταστούν: Πως θα εξασφαλιστεί η εγκυρότητα των επαγόµενων θεωριών σε µικρότερα σύνολα δεδοµένων. Πως θα χρησιµοποιηθούν τα αρνητικά παραδείγµατα. Πως θα µειωθεί το κόστος επικοινωνίας. Πως θα µειωθεί η περιττή δουλειά από τις ανεξάρτητες διαδικασίες. Στην αναφορά [60] που χρησιµοποιήθηκε για την άντληση παραδειγµάτων, δηµιουργήθηκε µια παράλληλη έκδοση ενός συστήµατος ILP Progol που παρουσιάζει υπεργραµµική επιτάχυνση στη διαδικασία εκµάθησης για µια µεγάλη ποικιλία προβληµάτων Εξόρυξης εδοµένων. Το Κεφάλαιο 1 αποτελεί µια εισαγωγή στην εξόρυξη δεδοµένων. Παρουσιάζονται οι βασικές εργασίες που λαµβάνουν χώρα κατά την εξόρυξη δεδοµένων καθώς και µερικοί από τους συνηθισµένους αλγορίθµους εξόρυξης δεδοµένων. Στη συνέχεια, γίνεται µια εισαγωγή στη σχεσιακή εξόρυξη δεδοµένων και δίνονται τα βασικά χαρακτηριστικά αλγορίθµων σχεσιακής εξόρυξης δεδοµένων. Το Κεφάλαιο 2 αυτής της διπλωµατικής εργασίας παρουσιάζει τη θεωρία του Eπαγωγικού Λογικού Προγραµµατισµού (ΕΠΛ - ILP), µερικές δηµοφιλείς µεθόδους ILP καθώς και τον τρόπο µε τον οποίο εφαρµόζεται ο ILP για να επιλύσει προβλήµατα που συναντώνται σε συστήµατα βάσεων δεδοµένων Παρουσιάζεται αναλυτικά µια συγκεκριµένη προσέγγιση στον ILP η Mode Directed Inverse Entailment [60], καθώς αποτελεί τη βάση για την παράλληλη έκδοση της Progol που θα παρουσιαστεί σε επόµενο κεφάλαιο. Το Κεφάλαιο 3 είναι αφιερωµένο στην παρουσίαση διαφόρων συστηµάτων ILP και την εφαρµογή τους στην Εξόρυξη εδοµένων. Στη συνέχεια του κεφαλαίου παρουσιάζεται ένας σειριακός αλγόριθµος ILP Εξόρυξης εδοµένων και η ανάλυση κόστους του. Γίνεται µια εισαγωγή στο Bulk Synchronous Parallelism (BSP) [46]. Το Κεφάλαιο 4, είναι µια σύνοψη της παράλληλης Επαγωγικής Λογικής. Στην αρχή αναφέρονται οι βασικές αρχές του παράλληλου επαγωγικού µοντέλου και στη συνέχεια ακολουθεί µια λεπτοµερής περιγραφή. Εµφανίζονται τα προβλήµατα µιας τέτοιας προσέγγισης και παρουσιάζεται µια ανάλυση κόστους. Τµήµα του Κεφαλαίου 4 είναι αφιερωµένο σε έναν παράλληλο αλγόριθµο ILP που χρησιµοποιεί το µοντέλο BSP. Ντάλλα Μιρέλα, Α.Μ

12 Για να υποστηριχθεί ο παράλληλος αλγόριθµος του Κεφαλαίου 4, το Κεφάλαιο 5 παρουσιάζει µερικά βασικά χαρακτηριστικά ενός παράλληλου συστήµατος ILP της παράλληλης Progol. Το σύστηµα αυτό δηµιουργήθηκε µε βάση το µοντέλο BSP και βασίζεται στην Progol που υλοποιήθηκε (σε γλώσσα C) από το Muggleton. Παρέχονται πολλά παραδείγµατα και επεξηγείται το φαινόµενο της υπεργραµµικής επιτάχυνσης (super-linear speedup). Στο Κεφάλαιο 6 έχουν συµπεριληφθεί τα αποτελέσµατα των δοκιµών του αλγορίθµου του Κεφαλαίου 4 σε τρεις διαφορετικές περιπτώσεις προβληµάτων, στην ταξινόµηση των ζώων, στην εκµάθηση των κανόνων του σκάκι και στο πρόβληµα τερµατισµού σε µια παρτίδα σκάκι. Το Κεφάλαιο 7 συνοψίζει τα αποτελέσµατα της µεταπτυχιακής εργασίας. Ντάλλα Μιρέλα, Α.Μ

13 1 Εξόρυξη εδοµένων Η διαδικασία της Εξόρυξης εδοµένων (Data Mining), η οποία αποτελεί και τη βασική δραστηριότητα στην Εξόρυξη Γνώσης (Knowledge Discovery KD) στις βάσεις δεδοµένων, ασχολείται µε την εύρεση προτύπων (patterns) στα δεδοµένα. Αυτό το κεφάλαιο αποτελεί µια εισαγωγή στους πιο συνηθισµένους τύπους προτύπων που σχετίζονται µε τις συνηθέστερες προσεγγίσεις της Εξόρυξης εδοµένων. Παράλληλα, παρουσιάζονται οι βασικές κατευθύνσεις των αλγορίθµων Εξόρυξης εδοµένων που εφαρµόζονται για την εξεύρεση αυτών των προτύπων. Στη συνέχεια, παρουσιάζονται οι βασικές αρχές της Σχεσιακής Εξόρυξης εδοµένων, ξεκινώντας µε τα πρότυπα που περιλαµβάνουν πολλαπλές συσχετίσεις, και οι βασικές αρχές αλγορίθµων Σχεσιακής Εξόρυξης εδοµένων. 1.1 Γενικά Η διαδικασία Εξόρυξης Γνώσης στις βάσεις δεδοµένων (Knowledge Discovery in Databases - KDD) αρχικά ορίστηκε ως «η διαδικασία της Εξόρυξης µη συνηθισµένης, µη γνωστής µέχρι εκείνο το σηµείο, και πιθανόν χρήσιµης πληροφορίας από τα δεδοµένα» [14]. Μια ανανεωµένη έκδοση αυτού του ορισµού υποστηρίζει ότι «η KDD είναι η µη συνηθισµένη διαδικασία αναγνώρισης έγκυρων, νέων, πιθανόν χρήσιµων και κατανοητών προτύπων στα δεδοµένα» [12]. Σύµφωνα µε αυτό τον ορισµό, η Εξόρυξη εδοµένων (Data Mining - DM) είναι ένα βήµα της διαδικασίας KDD που σχετίζεται µε την εφαρµογή υπολογιστικών τεχνικών (για παράδειγµα, αλγόριθµοι Εξόρυξης εδοµένων υλοποιηµένοι σαν προγράµµατα υπολογιστών) που ανακαλύπτουν πρότυπα µέσα στα δεδοµένα. Υπό µία έννοια, το DM είναι το κεντρικό βήµα της διαδικασίας KDD. Τα υπόλοιπα βήµατα της διαδικασίας KDD σχετίζονται µε την προετοιµασία των δεδοµένων για τη διαδικασία της Εξόρυξης Γνώσης καθώς και µε την αξιολόγηση των προτύπων που ανακαλύφθηκαν (τα αποτελέσµατα του DM). Οι παραπάνω ορισµοί περιλαµβάνουν αρκετές µη ακριβείς έννοιες, όπως η γνώση και το πρότυπο. Για να κάνουµε αυτές τις έννοιες περισσότερο ακριβείς, είναι απαραίτητες µερικές επεξηγήσεις που σχετίζονται µε τα δεδοµένα, τα πρότυπα και τη γνώση όπως επίσης και µε την εγκυρότητα, τη χρησιµότητα και την κατανοησιµότητα. Για παράδειγµα, τα πρότυπα που ανακαλύφθηκαν πρέπει να είναι έγκυρα, όσον αφορά νέα δεδοµένα, σε κάποιο βαθµό βεβαιότητας (που συνήθως καθορίζεται από το χρήστη). Τα πρότυπα θα πρέπει να οδηγούν σε µερικές πράξεις που θα είναι έγκυρες ενώ θα πρέπει να είναι διαχειρίσιµα σαν γνώση: σύµφωνα µε τους Frawley et al. [14] «ένα πρότυπο το οποίο είναι ενδιαφέρον (σύµφωνα µε ένα κριτήριο που έχει επιβάλλει ο χρήστης) και αρκετά βέβαιο (και πάλι σύµφωνα µε το κριτήριο του χρήστη) αποκαλείται γνώση». Ντάλλα Μιρέλα, Α.Μ

14 Αυτό το κεφάλαιο επικεντρώνεται στο DM και δεν ασχολείται µε τα υπόλοιπα στάδια της διαδικασίας KDD. Αφού το DM σχετίζεται µε την αναζήτηση προτύπων σε δεδοµένα, η έννοια της µεγαλύτερης συσχέτισης είναι άµεσα συνδεδεµένη µε την έννοια των δεδοµένων και των προτύπων. Άλλη µια έννοια-κλειδί είναι αυτή του αλγορίθµου Εξόρυξης εδοµένων ο οποίος εφαρµόζεται στα δεδοµένα για να αποκαλύψει έγκυρα πρότυπα µέσα στα δεδοµένα. Για την επίλυση διαφορετικών προβληµάτων DM χρησιµοποιούνται διαφορετικοί αλγόριθµοι DM που, για παράδειγµα, µπορεί να διαφέρουν στην προτεινόµενη χρήση των προτύπων που αποκαλύπτονται. Τα δεδοµένα είναι ένα σύνολο από γεγονότα-εµφανίσεις σε µια βάση δεδοµένων [12]. Συνήθως, η είσοδος σε έναν αλγόριθµο DM είναι ένας απλός πίνακας ο οποίος αποτελείται από ένα σύνολο γνωρισµάτων (στηλών) και εγγραφών (γραµµών). Όταν απαιτείται να ληφθούν υπόψη δεδοµένα από περισσότερους από έναν πίνακες, επαφίεται στο χρήστη να διαχειριστεί τους σχετικούς πίνακες. Στις περισσότερες περιπτώσεις, αυτό καταλήγει σε έναν πίνακα ο οποίος στη συνέχεια δίνεται σαν είσοδος στο αλγόριθµο DM. Η έξοδος ενός αλγορίθµου DM είναι συνήθως ένα πρότυπο ή ένα σύνολο προτύπων που είναι έγκυρα σε σχέση µε το αρχικό σύνολο δεδοµένων. Ένα πρότυπο ορίζεται σαν µια δήλωση (έκφραση) σε µια συγκεκριµένη γλώσσα, περιγράφει τα γεγονότα σε ένα υποσύνολο των δεδοµένων και είναι, υπό µία έννοια, απλούστερο από την απαρίθµηση όλων των γεγονότων του συνόλου [14, 12]. Στο DM χρησιµοποιούνται διαφορετικές κατηγορίες γλωσσών προτύπων και αυτό εξαρτάται κάθε φορά από την εφαρµογή Εξόρυξης εδοµένων. Τυπικοί εκπρόσωποι είναι οι εξισώσεις, τα δένδρα κατηγοριοποίησης (classification) και παλινδρόµησης (regression) καθώς και οι κανόνες συσχέτισης (association), κατηγοριοποίησης και παλινδρόµησης. Ένας συγκεκριµένος αλγόριθµος DM έχει συνήθως µια ενσωµατωµένη κατηγορία προτύπων που λαµβάνει υπόψη. Η συγκεκριµένη γλώσσα προτύπων που λαµβάνεται υπόψη εξαρτάται από το σύνολο των δεδοµένων (τα γνωρίσµατά τους και τις τιµές τους). Πολλοί αλγόριθµοι DM προέρχονται από το πεδίο της Μηχανικής Μάθησης (Machine Learning) και της Στατιστικής [74]. Μια συνηθισµένη προσέγγιση στη Μηχανική Μάθηση είναι ότι οι αλγόριθµοι Μηχανικής Μάθησης διενεργούν µια αναζήτηση µέσα σε ένα χώρο υποθέσεων (προτύπων) που επεξηγούν τα διαθέσιµα δεδοµένα. Υπό αυτή την έννοια, µπορούµε να δούµε τους αλγορίθµους ως µεθόδους αναζήτησης, εξαντλητικές ή ευριστικές, σε ένα χώρο προτύπων µε στόχο να βρεθούν ενδιαφέροντα πρότυπα που είναι έγκυρα στο σύνολο των δεδοµένων. 1.2 Εργασίες κατά την Εξόρυξη εδοµένων Σε αυτή την παράγραφο, δίνεται ένα παράδειγµα σχετικά µε το ποιοι τύποι δεδοµένων µπορούν να αποτελέσουν εισόδους στους αλγορίθµους DM. Στη συνέχεια, καθορίζονται οι κύριες εργασίες που πραγµατοποιούνται κατά τη διαδικασία της Εξόρυξης εδοµένων, αφού πρώτα δοθούν τα δεδοµένα. Αυτές οι εργασίες περιλαµβάνουν τη µοντελοποίηση πρόβλεψης (κατηγοριοποίηση και Ντάλλα Μιρέλα, Α.Μ

15 παλινδρόµηση), την τµηµατοποίηση-οµαδοποίηση πανοµοιότυπων αντικειµένων (clustering) και τη σύνοψη (summarization) εδοµένα Όπως προαναφέρθηκε, η είσοδος σε έναν αλγόριθµο DM είναι συνήθως ένας πίνακας που αποτελείται από ένα σύνολο πεδίων και εγγραφών. Σε γενικές γραµµές, κάθε γραµµή αναπαριστά ένα αντικείµενο και οι στήλες αναπαριστούν ιδιότητες του αντικειµένου. Ένα υποθετικό παράδειγµα ενός τέτοιου πίνακα παρουσιάζεται στον πίνακα 1.1. Σ αυτόν τον πίνακα, οι γραµµές αναφέρονται σε άτοµα που πρόσφατα επισκέφθηκαν ένα µικρό κατάστηµα και οι στήλες αναπαριστούν το τµήµα της πληροφορίας που συλλέχθηκε γι αυτά τα άτοµα (όπως η ηλικία τους, το φύλο τους και το ετήσιο εισόδηµά τους). Μεγάλο ενδιαφέρον για το κατάστηµα έχει το σύνολο των χρηµάτων που ξόδεψε κάθε πελάτης στο κατάστηµα τον τελευταίο χρόνο (πεδίο TotalSpent). Οι πελάτες που έχουν ξοδέψει περισσότερα από συνολικά έχουν ιδιαίτερη σηµασία για το συγκεκριµένο κατάστηµα. Γι αυτό το λόγο, έχει προστεθεί ένα επιπλέον πεδίο (Big Spender) που έχει την τιµή Υes αν ο πελάτης έχει ξοδέψει περισσότερα από και Νo σε διαφορετική περίπτωση. CustomerID Gender Age Income TotalSpent Bigspender c1 Male Yes c2 Female Yes c3 Male No c4 Female No c5 Male Yes c6 Male Yes c7 Male No c8 Male No c9 Male Yes c10 Male Yes c11 Male No c12 Female Yes c13 Male No c14 Female Yes c15 Male No c16 Male No c17 Female Yes c18 Male No c19 Female No c20 Female Yes Πίνακας 1.1: ένας πίνακας µε δεδοµένα πελατών Ντάλλα Μιρέλα, Α.Μ

16 Χρησιµοποιώντας όρους Μηχανικής Μάθησης, οι γραµµές αποκαλούνται παραδείγµατα (examples) και οι στήλες γνωρίσµατα (attributes) ή κάποιες φορές χαρακτηριστικά (features). Τα γνωρίσµατα που έχουν αριθµητικές τιµές αποκαλούνται συνεχή (continuous), όπως τα Age, Income και TotalSpent). Τα γνωρίσµατα που έχουν ονοµαστικές τιµές αποκαλούνται διακριτά (discrete) γνωρίσµατα (όπως τα Gender και Bigspender) Κατηγοριοποίηση και Παλινδρόµηση (classification & regression) Οι εργασίες της κατηγοριοποίησης και της παλινδρόµησης σχετίζονται µε την πρόβλεψη της τιµής ενός πεδίου µε βάση τις τιµές άλλων πεδίων. Το πεδίο στόχος αποκαλείται κατηγορία (class) ή εξαρτηµένη µεταβλητή στη γλώσσα της στατιστικής. Τα υπόλοιπα πεδία καλούνται γνωρίσµατα (attributes) ή, σε ορολογία στατιστικής, ανεξάρτητες µεταβλητές. Αν η κατηγορία είναι συνεχής, η εργασία αποκαλείται παλινδρόµηση. Αν η κατηγορία είναι διακριτή, η εργασία αποκαλείται κατηγοριοποίηση. Και στις δύο περιπτώσεις, η είσοδος είναι ένα σύνολο δεδοµένων και παράγεται ένα µοντέλο (πρότυπο ή σύνολο προτύπων). Αυτό το µοντέλο µπορεί στη συνέχεια να χρησιµοποιηθεί για να προβλέψει τις τιµές της κατηγορίας για τα νέα δεδοµένα. Ο συνήθης όρος «µοντελοποίηση πρόβλεψης» (predictive modeling) αναφέρεται τόσο στην κατηγοριοποίηση όσο και στην παλινδρόµηση. εδοµένου ενός συνόλου δεδοµένων (ενός πίνακα), µόνο ένα τµήµα του χρησιµοποιείται για το µοντέλο πρόβλεψης. Αυτό το τµήµα των δεδοµένων αποτελεί το σύνολο εκπαίδευσης (training set). Το σύνολο των δεδοµένων που αποµένει χρησιµοποιείται για την αξιολόγηση της ικανότητας πρόβλεψης του µοντέλου και αποκαλείται σύνολο δοκιµής (testing set). Το σύνολο δοκιµής χρησιµοποιείται για να υπολογιστεί η απόδοση του µοντέλου πάνω σε νέα, άγνωστα δεδοµένα, ή, διαφορετικά, για να υπολογιστεί η εγκυρότητα των προτύπων σε νέα δεδοµένα Tµηµατοποίηση (clustering) H τµηµατοποίηση περιλαµβάνει την οµαδοποίηση αντικειµένων σε κατηγορίες παρόµοιων αντικειµένων [18]. Ένα τµήµα (cluster) είναι µια συλλογή αντικειµένων που είναι πανοµοιότυπα και διαφέρουν από τα υπόλοιπα αντικείµενα των υπολοίπων τµηµάτων. εδοµένου ενός συνόλου παραδειγµάτων, η διαδικασία της τµηµατοποίησης περιλαµβάνει την κατάτµηση των παραδειγµάτων σε υποσύνολα/τµήµατα. Ο στόχος είναι να επιτευχθεί υψηλή οµοιότητα µεταξύ των αντικειµένων εντός των τµηµάτων και χαµηλή οµοιότητα µεταξύ των αντικειµένων που ανήκουν σε διαφορετικά τµήµατα. Η τµηµατοποίηση είναι γνωστή σαν ανάλυση τµηµάτων (clustering analysis) στη Στατιστική, σαν τµηµατοποίηση πελατών (customer clustering segmentation) και διαχείριση των συσχετίσεων των Ντάλλα Μιρέλα, Α.Μ

17 πελατών (customer relationship management) στο marketing και σαν µη επιβλεπόµενη µάθηση (unsupervised learning) στη Μηχανική Μάθηση. Η συµβατική τµηµατοποίηση εστιάζει στην ανάλυση τµηµάτων που βασίζονται στην απόσταση. Η έννοια της απόστασης (ή της οµοιότητας) είναι καθοριστική σε αυτό το σηµείο. Τα αντικείµενα θεωρείται ότι είναι σηµεία σε ένα χώρο µε µέτρο την απόσταση. Στην τµηµατοποίηση µε βάση τις αρχές (conceptual clustering), παράγεται µια συµβολική αναπαράσταση των τµηµάτων που προκύπτουν σε συνδυασµό µε την κατάτµηση σε τµήµατα. Εποµένως, µπορούµε να σκεφτούµε ότι κάθε τµήµα είναι µια αρχή (όπως περίπου µια κατηγορία σε µια κατηγοριοποίηση) Ανάλυση της συσχέτισης (association analysis) Η ανάλυση της συσχέτισης [16] είναι η διαδικασία της ανακάλυψης κανόνων συσχέτισης. Η ανάλυση του «καλαθιού της αγοράς» (market basket analysis) ήταν ένα ισχυρό κίνητρο για την ανάπτυξη της ανάλυσης της συσχέτισης. Οι κανόνες συσχέτισης καθορίζουν τις συσχετίσεις µεταξύ των περισσότερο συνηθισµένων υποσυνόλων στοιχείων (πρόκειται για σύνολα από στοιχεία που συχνά εµφανίζονται µαζί σε µια συναλλαγή, όπως για παράδειγµα το ψωµί και το βούτυρο στο καλάθι ενός αγοραστή). Η ανάλυση της συσχέτισης συνήθως περιλαµβάνει δύο βήµατα: Πρώτα, βρίσκονται όλα τα συνηθισµένα υποσύνολα στοιχείων. Ένα υποσύνολο είναι συνηθισµένο αν εµφανίζεται τουλάχιστον σε ένα προκαθορισµένο ποσοστό s (το οποίο αποκαλείται υποστήριξη - support) σε όλες τις συναλλαγές (transactions). Στη συνέχεια, δηµιουργούνται κανόνες συσχέτισης του τύπου Χ Υ, όπου τα Χ και Υ είναι συνηθισµένα υποσύνολα στοιχείων, αν η βεβαιότητα του κανόνα (το ποσοστό των συναλλαγών που περιέχουν το Χ και το Υ) περνά ένα κατώφλι c Άλλες εργασίες που σχετίζονται µε την Εξόρυξη εδοµένων Οι παραπάνω τρεις εργασίες Εξόρυξης εδοµένων συγκεντρώνουν τη µεγαλύτερη προσοχή από τις εργασίες που σχετίζονται µε την Εξόρυξη εδοµένων. Οι αλγόριθµοι που εκτελούν αυτές τις εργασίες συµπεριλαµβάνονται συνήθως στα εργαλεία DM. Η κατηγοριοποίηση και η παλινδρόµηση έχουν ως στόχο την πρόβλεψη ενώ η ανάλυση τµηµάτων και η ανάλυση συσχέτισης έχουν ως στόχο την περιγραφή. Η αποκάλυψη των υποοµάδων είναι το όριο µεταξύ των εργασιών που έχουν ως στόχο την πρόβλεψη και αυτών που έχουν ως στόχο την περιγραφή. Πολλές επιπλέον εργασίες που σχετίζονται µε την Εξόρυξη εδοµένων, αποσκοπούν στην περιγραφή, π.χ. ο χαρακτηρισµός και η διάκριση των δεδοµένων (characterization and discrimination), η outlier ανάλυση (outlier analysis) καθώς και η ανάλυση της εξέλιξης (evolution analysis). Στη συνέχεια, παρέχεται µια µικρή περιγραφή καθενός από τα προαναφερόµενα. Ντάλλα Μιρέλα, Α.Μ

18 Ο χαρακτηρισµός των δεδοµένων συγκεντρώνει τα γενικά χαρακτηριστικά (ή γνωρίσµατα) της κατηγορίας στόχου των δεδοµένων. Αυτή η κατηγορία κατά βάση σχηµατίζεται µε τη βοήθεια ενός ερωτήµατος στη βάση δεδοµένων (query). Τα δεδοµένα σύνοψης (summarization data) συνήθως παράγονται χρησιµοποιώντας βασικές στατιστικές µεθόδους ή µε χρήση συνάθροισης (aggregation) στο OLAP (On Line Analytical Processing) και µπορούν να αναπαρασταθούν µε πολλούς γραφικούς τρόπους, όπως τα διαγράµµατα πίτας ή τα ραβδογράµµατα. Η διάκριση των δεδοµένων συγκρίνει τα γενικά χαρακτηριστικά (όπως αυτά παράγονται από τον χαρακτηρισµό τους) της κατηγορίας στόχου µε εκείνα µιας δεδοµένης αντίθετης κατηγορίας (ή καθεµιάς από τις κατηγορίες ενός συνόλου από αντίθετες κατηγορίες). Η outlier ανάλυση ασχολείται µε την εύρεση αντικειµένων µέσα στα δεδοµένα τα οποία δεν ταιριάζουν µε την συµπεριφορά ή το µοντέλο των δεδοµένων. Αυτά τα αντικείµενα καλούνται outliers. Οι outliers παρουσιάζουν ενδιαφέρον διότι µπορούν να χρησιµοποιηθούν, για παράδειγµα, στην περίπτωση ψευδούς ανίχνευσης. Μπορούν να εντοπισθούν όταν, εξετάζοντας όλα τα αντικείµενα, διαπιστωθεί ότι υπάρχουν αντικείµενα που είτε βρίσκονται σε αρκετά µεγάλη απόσταση από τα τµήµατα των δεδοµένων είτε δείχνουν µεγάλες διαφορές στα χαρακτηριστικά που παρατηρούνται κατά µέσο όρο στα αντικείµενα του συνόλου των δεδοµένων. Η ανάλυση εξέλιξης περιγράφει και µοντελοποιεί την κανονικότητα (regularity) ή τις τάσεις των οποίων η συµπεριφορά αλλάζει κατά την πάροδο του χρόνου. Περιλαµβάνει αλλαγή και ανίχνευση της απόκλισης, η οποία επικεντρώνει στην αποκάλυψη των περισσότερο σηµαντικών αλλαγών στα δεδοµένα σε σχέση µε τις προηγούµενες τιµές που µετρήθηκαν. 1.3 Πρότυπα (patterns) Τα πρότυπα (patterns) είναι ιδιαίτερα σηµαντικά τόσο για το πεδίο του DM όσο και για το πεδίο της KDD. Οι αλγόριθµοι DM αναζητούν πρότυπα σε σύνολα από δεδοµένα. Τα πρότυπα που αποκαλύπτονται και είναι έγκυρα, ενδιαφέροντα και χρήσιµα µπορούν να αποκαλούνται γνώση. Οι Frawley et. al. [14] ορίζουν ότι ένα πρότυπο σε ένα σύνολο δεδοµένων είναι µια δήλωση που περιγράφει συσχετίσεις σε ένα υποσύνολο του συνόλου δεδοµένων µε κάποια βεβαιότητα, έτσι ώστε η δήλωση να είναι µε κάποιο τρόπο περισσότερο απλή από την απαρίθµηση όλων των γεγονότων στο σύνολο των δεδοµένων. Εποµένως, ένα πρότυπο υποδιαιρεί το σύνολο των δεδοµένων, καθώς αναφέρεται σε ένα τµήµα αυτών, και περιλαµβάνει µια χωρική όψη η οποία µπορεί να αναπαρασταθεί. Ο ίδιος τύπος προτύπου µπορεί να χρησιµοποιηθεί σε διαφορετικούς αλγορίθµους DM που αντιµετωπίζουν διαφορετικά προβλήµατα. Για παράδειγµα τα δέντρα µπορούν να χρησιµοποιηθούν για κατηγοριοποίηση, παλινδρόµηση ή τµηµατοποίηση και, οµοίως, µπορούν να χρησιµοποιηθούν πρότυπα που βασίζονται στην απόσταση. Ντάλλα Μιρέλα, Α.Μ

19 1.3.1 Εξισώσεις Η Στατιστική είναι ένας από τους κυριότερους επιστηµονικούς κλάδους στους οποίους βρίσκουν εφαρµογή οι αλγόριθµοι Εξόρυξης εδοµένων. Ένα µοντέλο πρόβλεψης στη Στατιστική συνήθως παίρνει την µορφή µιας εξίσωσης. Τα Γραµµικά Μοντέλα προβλέπουν την τιµή µιας µεταβλητής στόχου (εξαρτηµένης) µε ένα γραµµικό συνδυασµό των µεταβλητών εισόδου (ανεξάρτητων). Τρία γραµµικά µοντέλα που προβλέπουν την τιµή της µεταβλητής TotalSpent αναπαρίστανται από τις Εξισώσεις Αυτές έχουν προκύψει χρησιµοποιώντας γραµµική παλινδρόµηση στα δεδοµένα του Πίνακα 1.1. TotalSpent = 189,5275*Age +7146,89 (1.1) TotalSpent = 0,093*Income +6119,74 (1.2) TotalSpent = 189,126* Age +0,0932*Income -2420,67 (1.3) Οι γραµµικές εξισώσεις που περιλαµβάνουν δύο µεταβλητές (όπως οι 1.1 και 1.2) µπορούν να αναπαρασταθούν σαν ευθείες γραµµές σε ένα χώρο δύο διαστάσεων (Εικ. 1.1). Οι γραµµικές εξισώσεις που περιλαµβάνουν τρεις µεταβλητές (όπως η 1.3) µπορούν να αναπαρασταθούν σαν επίπεδες επιφάνειες σε ένα χώρο τριών διαστάσεων. Οι γραµµικές εξισώσεις, σε γενικές γραµµές, αναπαρίστανται σαν υπερεπίπεδα σε πολυδιάστατους χώρους. Οι µη-γραµµικές εξισώσεις αναπαρίστανται από καµπύλες, επιφάνειες και υπερεπιφάνειες. Σηµειώνεται ότι οι εξισώσεις (ή ακόµη και οι ανισότητες) µπορούν να χρησιµοποιηθούν και για κατηγοριοποίηση. Αν η τιµή της έκφρασης 0,093*Income +6119,74 είναι µεγαλύτερη από 15000, µπορούµε να προβλέψουµε ότι η τιµή της µεταβλητής BigSpender θα είναι Yes. Τα σηµεία για τα οποία προβλέπεται η απάντηση Yes είναι αυτά τα οποία βρίσκονται πάνω από τη γραµµή παλινδρόµησης στο αριστερό τµήµα της εικόνας T o t a l s p e n t T o t a l s p e n t Age Income Εικόνα 1.1 : ύο γραµµές παλινδρόµησης οι οποίες προβλέπουν την τιµή της µεταβλητής TotalSpent από κάθε µία από τις µεταβλητές Age και Income αντίστοιχα. Τα σηµεία αντιστοιχούν στα παραδείγµατα εκµάθησης (training examples). Ντάλλα Μιρέλα, Α.Μ

20 1.3.2 έντρα απόφασης Τα δέντρα απόφασης είναι ιεραρχικές δοµές όπου κάθε εσωτερικός κόµβος περιλαµβάνει έναν έλεγχο πάνω σε ένα γνώρισµα, κάθε κλαδί αντιστοιχεί στο αποτέλεσµα αυτού του ελέγχου και κάθε φύλλο δίνει µια πρόγνωση για την τιµή της µεταβλητής της κατηγορίας. Ανάλογα µε το αν ασχολούµαστε µε ένα πρόβληµα κατηγοριοποίησης ή παλινδρόµησης, το δέντρο απόφασης καλείται δέντρο κατηγοριοποίησης ή παλινδρόµησης αντίστοιχα. ύο δέντρα κατηγοριοποίησης που προκύπτουν από το σύνολο δεδοµένων του πίνακα 1.1 παρουσιάζονται στην εικόνα 1.2. Ένα παράδειγµα ενός δέντρου παλινδρόµησης που επίσης προκύπτει από το σύνολο δεδοµένων του πίνακα 1.1 παρουσιάζεται στην εικόνα 1.3. Income Gender > = Female = Male Age Yes Age No 58 >58 49 >49 No Yes No Yes Εικόνα 1.2: ύο δέντρα κατηγοριοποίησης που προβλέπουν την τιµή της µεταβλητής BigSpender από τις µεταβλητές Age και Income, και Age και Gender, αντίστοιχα. Τα φύλλα των δέντρων παλινδρόµησης περιλαµβάνουν σταθερές τιµές σαν προβλέψεις για την τιµή της κατηγορίας. Εποµένως, αναπαριστούν σταθερές συναρτήσεις. Τα δέντρα µοντελοποίησης, όπου τα φύλλα µπορούν να περιέχουν γραµµικά µοντέλα που προβλέπουν την τιµή της κατηγορίας, αναπαριστούν γραµµικές συναρτήσεις. Σηµειώνεται ότι τα δέντρα απόφασης αναπαριστούν ολικές κατατµήσεις του χώρου δεδοµένων όπου κάθε έλεγχος αντιστοιχεί σε µια διαµέριση παράλληλη προς έναν άξονα. Αυτό απεικονίζεται στην Εικόνα 1.3. Οι περισσότεροι αλγόριθµοι επαγωγής σε δέντρα απόφασης χρησιµοποιούν τέτοιες διαµερίσεις παράλληλους προς έναν άξονα αλλά υπάρχουν και λίγοι αλγόριθµοι που χρησιµοποιούν διαµερίσεις κατά µήκος γραµµών που δεν απαιτείται να είναι παράλληλες προς κάποιον άξονα ή διαµοιράζουν τα δεδοµένα κατά µήκος µη-γραµµικών καµπυλών. Ντάλλα Μιρέλα, Α.Μ

21 Income Age > Age > Income Εικόνα 1.3: Ένα δέντρο παλινδρόµησης και η κατάτµηση του χώρου δεδοµένων όπως αυτή επιβάλλεται από το δέντρο. Το δέντρο προβλέπει την τιµή της µεταβλητής TotalSpent από τις µεταβλητές Age και Income Κανόνες πρόβλεψης Θα χρησιµοποιήσουµε τη λέξη «κανόνας» για να αναφερθούµε σε πρότυπα της µορφής «ΑΝ σύζευξη υποθέσεων ΤΟΤΕ συµπέρασµα». Οι διακριτές συνθήκες της σύζευξης θα είναι έλεγχοι που αφορούν τις τιµές των διακριτών ορισµάτων, όπως «Income <= » ή «Gender = άνδρας». Για τους κανόνες πρόβλεψης, το συµπέρασµα δίνει µια πρόβλεψη για την τιµή της µεταβλητής-στόχου (κατηγορία). Αν έχουµε να αντιµετωπίσουµε ένα πρόβληµα κατηγοριοποίησης, το συµπέρασµα αναθέτει µια από τις πιθανές διακριτές τιµές στην κατηγορία, για παράδειγµα «BigSpender = No». Ένας κανόνας έχει εφαρµογή σε ένα παράδειγµα αν η σύζευξη των υποθέσεων πάνω στα γνωρίσµατα ικανοποιείται από τις συγκεκριµένες τιµές των γνωρισµάτων αυτών στο συγκεκριµένο παράδειγµα. Κάθε κανόνας αντιστοιχεί σε ένα υπερορθογώνιο στο χώρο δεδοµένων, όπως φαίνεται στην εικόνα 1.4. Οι κανόνες πρόβλεψης µπορεί να είναι ταξινοµηµένοι ή µη ταξινοµηµένοι. Οι µη ταξινοµηµένοι κανόνες εξετάζονται ξεχωριστά και πολλοί από αυτούς µπορεί να εφαρµόζονται σε ένα νέο παράδειγµα το οποίο χρειάζεται να ταξινοµήσουµε. Στην περίπτωση που δύο κανόνες, οι οποίοι υποδηλώνουν διαφορετικές κατηγορίες, εφαρµόζονται στον ίδιο αριθµό παραδειγµάτων, απαιτείται ένας µηχανισµός επίλυσης συγκρούσεων. Συνήθως υπάρχει ένας προκαθορισµένος κανόνας του οποίου η πρόταση λαµβάνεται υπόψη αν δεν εφαρµόζεται κανένας άλλος κανόνας. Οι ταξινοµηµένοι κανόνες σχηµατίζουν µία λίστα αποφάσεων, όπως αυτή αποκαλείται. Οι κανόνες στη λίστα εξετάζονται από την αρχή προς το τέλος της λίστας. Ο πρώτος κανόνας που έχει εφαρµογή στο συγκεκριµένο παράδειγµα χρησιµοποιείται για να προβλέψει την τιµή της κατηγορίας. Και πάλι, υπάρχει ένας προκαθορισµένος κανόνας (ο τελευταίος κανόνας στη λίστα των αποφάσεων) µε µία κενή προϋπόθεση, ο οποίος εφαρµόζεται σε ένα παράδειγµα όταν δεν είναι εφαρµόσιµος κανένας άλλος κανόνας. Ντάλλα Μιρέλα, Α.Μ

22 IF Income AND Age 58 THEN BigSpender = No ELSE Default BigSpender = Yes Age Yes 58 No Εικόνα 1.4: Μία κατάτµηση του χώρου δεδοµένων επαγόµενη από µια ταξινοµηµένη λίστα κανόνων, όπως αυτή προκύπτει από τα δεδοµένα του πίνακα 1.1. Η γραµµοσκιασµένη περιοχή αντιστοιχεί στον πρώτο κανόνα της λίστας «αν Income <= και Age <=58 τότε BigSpender=Νο», ενώ το υπόλοιπο του χώρου δεδοµένων καλύπτεται από τον κανόνα BigSpender = Yes. Μία ταξινοµηµένη και µία µη-ταξινοµηµένη λίστα κανόνων δίνεται στον πίνακα 1.2 και οι δύο λίστες προκύπτουν µε χρήση ενός αλγορίθµου κάλυψης (covering algorithm). Η ταξινοµηµένη λίστα κανόνων της εικόνας 1.4 έχει προκύψει από το δέντρο απόφασης στο αριστερό µέρος της εικόνας 1.2. Σηµειώνεται ότι κάθε ένα από τα φύλλα του δέντρου κατηγοριοποίησης αντιστοιχεί σε έναν κανόνα κατηγοριοποίησης. Υπάρχουν επίσης κανόνες παλινδρόµησης, αν και είναι λιγότερο συνηθισµένοι στην πράξη, που, για παράδειγµα, µπορούν να προκύψουν µετασχηµατίζοντας τα δέντρα παλινδρόµησης σε κανόνες. Ταξινοµηµένοι κανόνες IF Age <60 AND Income <81000 THEN BigSpender = No ELSE IF Age>42 THEN BigSpender = Yes ELSE IF Income> THEN BigSpender = Yes ELSE DEFAULT BigSpender = No Μη-Ταξινοµηµένοι κανόνες IF Income > THEN BigSpender = Yes IF Age 49 AND Income > THEN BigSpender = Yes IF Age 56 AND Income < THEN BigSpender = No IF Income <51000 THEN BigSpender = No IF 33<Age 42 THEN BigSpender = No DEFAULT BigSpender = Yes Πίνακας 1.2 Μία ταξινοµηµένη και µία µη-ταξινοµηµένη λίστα κανόνων κατηγοριοποίησης οι οποίοι προκύπτουν από τα δεδοµένα του πίνακα 1.1. Ντάλλα Μιρέλα, Α.Μ

23 1.3.4 Κανόνες συσχέτισης Αντίθετα από τους κανόνες πρόβλεψης, οι κανόνες συσχέτισης δεν εστιάζουν στην πρόβλεψη της τιµής µιας µεταβλητής-στόχου. Αυτό σηµαίνει ότι τα τµήµατα συµπεράσµατος διαφορετικών κανόνων συσχέτισης τα οποία προέρχονται από τα ίδια δεδοµένα είναι πιθανό να αφορούν διαφορετικά γνωρίσµατα/µεταβλητές ή ακόµη πολλαπλές µεταβλητές. Οι κανόνες συσχέτισης έχουν τη µορφή X Y, όπου τα X, Y είναι συζεύξεις από συνθήκες. Στην αρχική µορφή των κανόνων συσχέτισης, τα X και Y είναι σύνολα, όπως για παράδειγµα X = {λουκάνικα, µουστάρδα} και Y = {µπίρα}, µε το Χ Υ να υποδηλώνει ότι το καλάθι µιας αγοράς που περιέχει όλα τα στοιχεία του Χ είναι πιθανό να περιέχει και όλα τα στοιχεία του Υ. Αυτό υποθέτει µια αραιή σχεσιακή αναπαράσταση: Κάθε καλάθι θα περιέχει µόνο µερικά στοιχεία από το συνολικά µεγάλο αριθµό των πιθανών στοιχείων. Μία αναπαράσταση σε πίνακα θα είχε ένα γνώρισµα για κάθε πιθανό στοιχείο, το οποίο θα είχε την τιµή 1 αν το στοιχείο ήταν στο καλάθι και την τιµή 0 διαφορετικά. 1. {Gender = Male, Income= (-inf-73250] } {BigSpender = No} 2. {Gender=Female, Age= (52-inf) } {BigSpender=Yes} 3. {Income= ( inf) } {BigSpender=Yes} 4. {Age= (52-inf), BigSpender=No} {Gender=Male, Income= (-inf-73250] } 5. {Gender = Male, Age= (52-inf), Income= (-inf-73250] } {BigSpender= No} 6. {Gender = Male, Age= (52-inf), BigSpender= No } { Income= (-inf-73250] } 7. {Age= (52-inf), Income= (-inf-73250], BigSpender=No} {Gender=Male} 8. {Age= (52-inf), Income= ( inf) } {BigSpender=Yes } 9. {Age= (52-inf), BigSpender=No} {Income= (-inf-73250] } 10. {Age= (52-inf), BigSpender=No} {Gender=Male} Πίνακας 1.3: Ένα σύνολο από κανόνες συσχέτισης όπως προκύπτει από τα δεδοµένα του πίνακα 1.1. Οι συνεχείς µεταβλητές Age και Income έχουν διακριτοποιηθεί σε τέσσερα διαστήµατα η κάθε µία. Η ανακάλυψη κανόνων συσχέτισης σε έναν πίνακα µε δυαδικά γνωρίσµατα είναι, εποµένως, εννοιολογικά, το ίδιο σαν να τους ανακαλύπτουµε σε µία αραιή σχεσιακή αναπαράσταση. Οι αλγόριθµοι για την ανακάλυψη κανόνων συσχέτισης µπορούν εύκολα να επεκταθούν για να διαχειριστούν γνωρίσµατα µε περισσότερες από δύο τιµές. Ωστόσο, τα συνεχή γνωρίσµατα πρέπει να διακριτοποιηθούν πριν την εφαρµογή της ανακάλυψης κανόνων συσχέτισης. Ένα σύνολο από κανόνες συσχέτισης που ανακαλύφθηκαν στα δεδοµένα του πίνακα 1.1, µετά τη διακριτοποίηση των γνωρισµάτων Age και Income δίνεται στον Πίνακα 1.3. Όλοι οι κανόνες έχουν µια βεβαιότητα 100% και υποστήριξη τουλάχιστον 15%: για κάθε ένα από τα σύνολα στοιχείων Χ, Υ έτσι ώστε Χ Υ να είναι στον Πίνακα 1.3. Το Υ εµφανίζεται σε όλες τις συναλλαγές (transactions) που εµφανίζεται το Χ και το ΧUΥ εµφανίζεται τουλάχιστον σε τρεις (=15%*20) συναλλαγές. Σηµειώνεται ότι ένα σύνολο στοιχείων αντιστοιχεί σε µία σύζευξη από συνθήκες και µια συναλλαγή αντιστοιχεί σε ένα παράδειγµα. Ένα σύνολο στοιχείων που εµφανίζεται σε µία συναλλαγή αντιστοιχεί σε µία σύζευξη από συνθήκες οι οποίες είναι αληθείς για ένα παράδειγµα. Ντάλλα Μιρέλα, Α.Μ

24 Οι µισοί από τους κανόνες συσχέτισης του Πίνακα 1.3 είναι κανόνες ταξινόµησης που προβλέπουν την τιµή της κατηγορίας BigSpender (κανόνες 1, 2, 3, 5 και 8). Ωστόσο, οι υπόλοιποι µισοί, προβλέπουν τις τιµές των µεταβλητών Gender και Income, µε τον κανόνα 4 να προβλέπει τις τιµές και των δύο. Ο κανόνας 4 συνεπάγεται ότι ένα άτοµο µε ηλικία µεγαλύτερη από 52 το οποίο δεν είναι BigSpender θα είναι άντρας µε εισόδηµα λιγότερο από Στιγµιότυπα, αποστάσεις και διαµερίσεις Οι µέθοδοι για πρόβλεψη που βασίζονται στα στιγµιότυπα ή στον κοντινότερο γείτονα απλά αποθηκεύουν όλα τα παραδείγµατα εκπαίδευσης και δεν επιτελούν κάποια γενίκευση κατά τη διάρκεια του χρόνου εκπαίδευσης. Τα δεδοµένα από την πλευρά τους δεν αποτελούν ουσιαστικά ένα πρότυπο, καθώς τα πρότυπα απαιτείται να είναι πιο απλά από την απλή απαρίθµηση όλων των γεγονότων στα δεδοµένα [14]. Σε τέτοιες µεθόδους, ιδιαίτερη σηµασία έχει η έννοια της απόστασης (ή αντίστροφα, της οµοιότητας) µεταξύ δύο παραδειγµάτων. Η απόσταση είναι επίσης ιδιαίτερα σηµαντική για την τµηµατοποίηση, όπου τα πρότυπα τα οποία αποκαλύπτονται από τους αλγορίθµους Εξόρυξης εδοµένων είναι διαµερίσεις του συνόλου των δεδοµένων εκπαίδευσης. Αν τα παραδείγµατα έχουν µόνο συνεχή γνωρίσµατα, τότε µπορεί να θεωρηθούν σαν σηµεία σε έναν ευκλείδειο χώρο και µπορεί να εφαρµοστεί η µέτρηση της ευκλείδειας απόστασης. εδοµένων δύο παραδειγµάτων x= ( x,...,x ) και y ( y,..., y ) d(x,y)= ( ) 2 1 n = η ευκλείδεια απόστασή τους υπολογίζεται σαν 1 n n xi y i. Σηµειώνεται ότι αυτό δεν ισχύει για διακριτά γνωρίσµατα και επίσης δεν i= 1 λαµβάνονται υπόψη διαφορές στην κλίµακα µεταξύ των γνωρισµάτων. Ένας πιο γενικός ορισµός υπολογίζει την απόσταση σαν n distance = difference ( x.y) w ( x, y ) 2 i= 1 i i i όπου w i είναι ένα µη αρνητικό βάρος το οποίο ανατίθεται στο γνώρισµα των τιµών των γνωρισµάτων καθορίζεται ως ακολούθως. xi yi, αν το γνώρισµα Ai είναι συνεχές, difference ( xi, yi) = 0, αν το γνώρισµα Ai είναι διακριτό και xi = yi, 1, διαφορετικά. A i και η διαφορά µεταξύ Τα βάρη επιτρέπουν να λαµβάνεται υπόψη η διαφορετική σηµασία των γνωρισµάτων σε σχέση µε την εργασία που εκτελείται κάθε φορά, µετά την κανονικοποίηση των συνεχών γνωρισµάτων. Η έννοια της απόστασης χρησιµοποιείται τόσο για πρόβλεψη (µέθοδοι που βασίζονται στα στιγµιότυπα και στον πιο κοντινό γείτονα) όσο και για τµηµατοποίηση (ειδικά για τµηµατοποίηση Ντάλλα Μιρέλα, Α.Μ

25 που βασίζεται στην απόσταση αλλά και για εννοιολογική τµηµατοποίηση). Το αποτέλεσµα της τµηµατοποίησης είναι µια διαµέριση του συνόλου εκπαίδευσης σε υποσύνολα. Αυτό µπορεί να είναι µια επίπεδη διαµέριση (για παράδειγµα µια διαµέριση µε ένα σταθερό αριθµό τµηµάτων) ή ένα σύνολο από διαµερίσεις ιεραρχικά οργανωµένες σε ένα δέντρο (όπου ένα τµήµα σε µια διαµέριση υποδιαιρείται σε διάφορετικά υποτµήµατα από ότι σε µια άλλη διαµέριση). Ένα παράδειγµα του τελευταίου δίνεται στην εικόνα 1.5 όπου η διαµέριση του κορυφαίου επιπέδου περιλαµβάνει µόνο ένα τµήµα και η διαµέριση του επόµενου επιπέδου περιλαµβάνει δύο τµήµατα (ένα από τα οποία είναι [c1, c5, c17, c20]). Ένα γράφηµα σαν και αυτό της εικόνας 1.5 καλείται δενδρόγραµµα και προκύπτει από την ιεραρχική συσσωρευτική τµηµατοποίηση c5 c4 c2 c17 c1 c20 c8 c7 c11 c3 c15 c6 c10 c12 c13 c18 c9 c16 c14 c19 Εικόνα 1.5: Ένα δενδρόγραµµα που αναπαριστά την ιεραρχική τµηµατοποίηση του συνόλου δεδοµένων του πίνακα 1.1. Η µέτρηση της απόστασης λαµβάνει υπόψη τα Gender, Age και Income (µη κανονικοποιηµένο). Η απόσταση στην οποία ενώνονται δύο τµήµατα µπορεί να βρεθεί από τον κάθετο άξονα Πιθανοτικά µοντέλα Τα πιθανοτικά µοντέλα περιγράφουν πιθανοτικές αλληλοεξαρτήσεις µεταξύ των µεταβλητών. Τα Bayesian δίκτυα είναι µια πολύ διάσηµη κατηγορία πιθανοτικών µοντέλων, εξαιτίας του ισχυρού φορµαλισµού στην αναπαράσταση και της διαισθητικής γραφικής αναπαράστασης. Τα Bayesian δίκτυα είναι επίσης γνωστά σαν δίκτυα πίστης, πιθανοτικά δίκτυα και πιθανοτικά γραφικά µοντέλα. Στη συνέχεια παρατίθεται µια σύνοψη των Bayesian δικτύων και του Bayesian ταξινοµητή (µια ειδική περίπτωση Bayesian δικτύων), ο οποίος χρησιµοποιείται πολύ συχνά. Ένα Bayesian δίκτυο είναι ένα κατευθυνόµενο άκυκλο γράφηµα όπου οι κόµβοι αναπαριστούν τυχαίες µεταβλητές και τα τόξα αναπαριστούν πιθανοτικές αλληλοεξαρτήσεις. Αν ένα τόξο είναι σχεδιασµένο από τον κόµβο Α στον κόµβο Β τότε ο κόµβος Α είναι ένας πατέρας του κόµβου Β. Κάθε µεταβλητή εξαρτάται πιθανοτικά από τους απογόνους της. Κάθε µεταβλητή είναι υπό Ντάλλα Μιρέλα, Α.Μ

26 συνθήκες ανεξάρτητη από τους µη απογόνους της, δεδοµένων των τιµών των γονέων της. Ένας πίνακας δεσµευµένων πιθανοτήτων συσχετίζεται µε κάθε µεταβλητή, καθορίζοντας την κατανοµή της δεσµευµένης πιθανότητας P( B A ), όπου A { A,...,A} = είναι το σύνολο των γονέων του B. 1 n Τα παραπάνω δύο γνωρίσµατα των Bayesian δικτύων επιτρέπουν τη συµπαγή αναπαράσταση των δεσµευµένων πιθανοτικών κατανοµών πάνω σε ένα δεδοµένο σύνολο µεταβλητών, δεδοµένου ότι κάθε µεταβλητή έχει ένα σχετικά µικρό αριθµό από γονείς. Τα Bayesian δίκτυα επιτρέπουν την εξαγωγή συµπερασµάτων για οποιοδήποτε υποσύνολο µεταβλητών, δεδοµένων στοιχείων που σχετίζονται µε οποιοδήποτε άλλο υποσύνολο. Για την κατηγοριοποίηση χρησιµοποιούνται πολύ περισσότερο τα πιθανοτικά µοντέλα όπου µπορούν να εξαχθούν συµπεράσµατα µόνο σε σχέση µε τη µεταβλητή της κατηγορίας, δεδοµένων στοιχείων που σχετίζονται µε τα γνωρίσµατα. Ένα τέτοιο µοντέλο είναι και ο απλός Bayesian ταξινοµητής. Ο απλός ταξινοµητής αντιστοιχεί σε ένα Bayesian δίκτυο όπου υπάρχουν τόξα από τη µεταβλητή της κατηγορίας σε καθένα από τα γνωρίσµατα, όπως φαίνεται στην Eικόνα 1.6. BigSpender Yes No Age Group Gender Group BigSpender Male Female Yes No BigSpender < >52 Yes No Income Group BigSpender < > Yes No Εικόνα 1.6 Ένας απλός ταξινοµητής Bayesian όπως αυτός αναπαρίσταται σαν δίκτυο Bayesian. Οι αριθµοί στον πίνακα BigSpender αναπαριστούν τις πιθανότητες για τις δύο τιµές τις κατηγορίας. Οι αριθµοί στους άλλους πίνακες τις υπό συνθήκη πιθανότητες των Gender, Age και Income δεδοµένης της τιµής του BigSpender. Τα Age και Income έχουν διακριτοποιηθεί σε τέσσερα διαστήµατα το καθένα. Ντάλλα Μιρέλα, Α.Μ

27 Η Eικόνα 1.6 αναπαριστά τις πιθανοτικές κατανοµές της κατηγορίας P( C ) και τις κατανοµές της υπό συνθήκη πιθανότητας P( A C ) για τα γνωρίσµατα, δεδοµένης της κατηγορίας για το πρόβληµα ταξινόµησης που σχετίζεται µε την πρόβλεψη του BigSpender από τα Gender, Age και Income όπως υπολογίσθηκε από τα δεδοµένα εκπαίδευσης. Οι δύο κατηγορίες (Yes και No) είναι εξαρχής ισοπίθανες (πίνακας BigSpender). Ένα άτοµο το οποίο είναι BigSpender είναι ισοπίθανο να είναι άντρας ή γυναίκα, αλλά ένα άτοµο που δεν είναι BigSpender είναι περισσότερο πιθανό να είναι άντρας (0,75) απ ότι γυναίκα (0,25) (Πίνακας Gender). Για τα συνεχή γνωρίσµατα, έχουµε δύο επιλογές. Η µία είναι να τα διακριτοποιήσουµε και να αναπαραστήσουµε τους πίνακες µε τις υπό συνθήκη πιθανότητες, όπως στην Eικόνα 1.6. Η άλλη επιλογή είναι να γίνουν υποθέσεις σχετικά µε την κατανοµή: για παράδειγµα να υποθέσουµε ότι οι κατανοµές των υπό συνθήκη πιθανοτήτων είναι κανονικές και να αποθηκεύσουµε τις παραµέτρους (µέση τιµή και τυπική απόκλιση) αυτών των κατανοµών. Κάνοντας αυτήν την υπόθεση βρίσκουµε ότι για BigSpender = Yes, η µεταβλητή Age έχει µέση τιµή µ = 47, 8 και τυπική απόκλιση σ= 18, 1, ενώ η µεταβλητή Income έχει µ= και σ= Για BigSpender = No, η µεταβλητή Age έχει µέση τιµή µ = 42, 3 και τυπική απόκλιση σ = 13, 1, ενώ η µεταβλητή Income έχει µ= και σ= Βασικοί αλγόριθµοι Στο προηγούµενο κοµµάτι περιγράφηκαν διάφοροι τύποι προτύπων που µπορούν να βρεθούν στα δεδοµένα. Αυτό το κοµµάτι περιγράφει µερικούς βασικούς αλγορίθµους που µπορούν να χρησιµοποιηθούν για να βρεθούν πρότυπα µέσα στα δεδοµένα. Στις περισσότερες περιπτώσεις, αυτό περιλαµβάνει ευριστική αναζήτηση σε ένα χώρο πιθανών προτύπων του επιλεγµένου τύπου Γραµµική και πολλαπλή παλινδρόµηση Η γραµµική παλινδρόµηση είναι η πιο απλή µορφή παλινδρόµησης [17]. H παλινδρόµηση δύο µεταβλητών (bivariate regression) υποθέτει ότι η µεταβλητή κατηγορίας µπορεί να εκφραστεί σαν γραµµική συνάρτηση ενός γνωρίσµατος, για παράδειγµα C= a+β A. εδοµένου ενός συνόλου δεδοµένων, οι συντελεστές a και β µπορούν να υπολογιστούν χρησιµοποιώντας τη µέθοδο ελαχίστων τετραγώνων, η οποία ελαχιστοποιεί το σφάλµα ( ) 2 n i= 1 c i a που µετρήθηκαν για το C και των τιµών που υπολογίστηκαν µε τις τιµές µετρήθηκαν µε χρήση της παραπάνω εξίσωσης). Εποµένως έχουµε: βα i µεταξύ των τιµών i a i του A (οι οποίες και c Ντάλλα Μιρέλα, Α.Μ

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού

Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΥΠΟΛΟΓΙΣΤΩΝ Κεφάλαιο 7 : Είδη, Τεχνικές, και Περιβάλλοντα Προγραµµατισµού ( Απαντήσεις & Λύσεις Βιβλίου) 1. Σκοποί κεφαλαίου Κύκλος ανάπτυξης προγράµµατος Κατηγορίες γλωσσών προγραµµατισµού

Διαβάστε περισσότερα

Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος

Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος Εισαγωγή στους Αλγόριθµους Αλγόριθµοι Τι είναι αλγόριθµος; Τι µπορεί να υπολογίσει ένας αλγόριθµος; Πως αξιολογείται ένας αλγόριθµος; Παύλος Εφραιµίδης pefraimi@ee.duth.gr Αλγόριθµοι Εισαγωγικές Έννοιες

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Κουγιουμτζής Δημήτρης Τμήμα Πολιτικών Μηχανικών Α.Π.Θ. Θεσσαλονίκη, Μάρτιος 4 Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ ΕΠΛ 035 - ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΓΙΑ ΗΛΕΚΤΡΟΛΟΓΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΚΑΙ ΜΗΧΑΝΙΚΟΥΣ ΥΠΟΛΟΓΙΣΤΩΝ Ακαδηµαϊκό έτος 2017-2018 Υπεύθυνος εργαστηρίου: Γεώργιος

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Μεθοδολογίες παρεµβολής σε DTM.

Μεθοδολογίες παρεµβολής σε DTM. Μάθηµα : Αλγοριθµικές Βάσεις στη Γεωπληροφορική ιδάσκων : Συµεών Κατσουγιαννόπουλος Μεθοδολογίες παρεµβολής σε DTM.. Μέθοδοι παρεµβολής. Η παρεµβολή σε ψηφιακό µοντέλο εδάφους (DTM) είναι η διαδικασία

Διαβάστε περισσότερα

Μονοπάτια και Κυκλώµατα Euler. Στοιχεία Θεωρίας Γραφηµάτων (3,4) Παραδείγµατα. Κριτήρια Υπαρξης.

Μονοπάτια και Κυκλώµατα Euler. Στοιχεία Θεωρίας Γραφηµάτων (3,4) Παραδείγµατα. Κριτήρια Υπαρξης. Μονοπάτια και Κυκλώµατα Eulr Σε γράφηµα G(V, E): Στοιχεία Θεωρίας Γραφηµάτων (3,4) Ορέστης Τελέλης tllis@unipi.r Κύκλωµα Eulr: Απλό κύκλωµα που διασχίζει κάθε ακµή του G. Μονοπάτι Eulr: Απλό µονοπάτι που

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (data mining)

Εξόρυξη Γνώσης από εδοµένα (data mining) Εξόρυξη νώσης από εδοµένα (data mining) Ε.Κ.Ε.Φ.Ε. ηµόκριτος Ινστ. Πληροφορικής και Τηλεπικοινωνιών εώργιος Παλιούρας Email: paliourg@iit.demokritos.gr WWW: http://www.iit.demokritos.gr/~paliourg Περιεχόµενα

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ 1.1 Πίνακες, κατανομές, ιστογράμματα... 1 1.2 Πυκνότητα πιθανότητας, καμπύλη συχνοτήτων... 5 1.3

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος ΑΛΓΟΡΙΘΜΟΙ Στο σηµείωµα αυτό αρχικά εξηγείται η έννοια αλγόριθµος και παραθέτονται τα σπουδαιότερα κριτήρια που πρέπει να πληρεί κάθε αλγόριθµος. Στη συνέχεια, η σπουδαιότητα των αλγορίθµων συνδυάζεται

Διαβάστε περισσότερα

Επιµέλεια Θοδωρής Πιερράτος

Επιµέλεια Θοδωρής Πιερράτος εδοµένα οµές δεδοµένων και αλγόριθµοι Τα δεδοµένα είναι ακατέργαστα γεγονότα. Η συλλογή των ακατέργαστων δεδοµένων και ο συσχετισµός τους δίνει ως αποτέλεσµα την πληροφορία. Η µέτρηση, η κωδικοποίηση,

Διαβάστε περισσότερα

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ Εισαγωγή Ηεµφάνιση ηλεκτρονικών υπολογιστών και λογισµικού σε εφαρµογές µε υψηλές απαιτήσεις αξιοπιστίας, όπως είναι διαστηµικά προγράµµατα, στρατιωτικές τηλεπικοινωνίες,

Διαβάστε περισσότερα

Αναζήτηση Κατά Πλάτος

Αναζήτηση Κατά Πλάτος Αναζήτηση Κατά Πλάτος Επιµέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Γραφήµατα Μοντελοποίηση πολλών σηµαντικών προβληµάτων (π.χ. δίκτυα

Διαβάστε περισσότερα

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Αριάδνη Αργυράκη ΣΤΑΔΙΑ ΕΚΤΕΛΕΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΓΕΩΧΗΜΙΚΩΝ ΕΡΕΥΝΩΝ 1.ΣΧΕΔΙΑΣΜΟΣ: - Καθορισμός στόχων έρευνας - Ιστορικό περιοχής 2 4.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to Κεφάλαιο 2 Δοµές Δεδοµένων Ι Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Δοµές Δεδοµένων Ι Στην ενότητα αυτή θα γνωρίσουµε ορισµένες Δοµές Δεδοµένων και θα τις χρησιµοποιήσουµε

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών 6 εκεµβρίου 2008 ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος 2008-09 Παναγιώτα Φατούρου Προγραµµατιστική Εργασία 3 ο Μέρος Ηµεροµηνία Παράδοσης:

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Αλγόριθµοι Γραφηµάτων

Αλγόριθµοι Γραφηµάτων Αλγόριθµοι Γραφηµάτων Παύλος Σπυράκης Πανεπιστήµιο Πατρών Τοµέας Θεµελιώσεων και Εφαρµογών της Επιστήµης των Υπολογιστών Ερευνητικό Ακαδηµαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών Γραφήµατα Μοντελοποίηση

Διαβάστε περισσότερα

3η Ενότητα Προβλέψεις

3η Ενότητα Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων 3η Ενότητα Προβλέψεις (Μέρος 4 ο ) http://www.fsu.gr

Διαβάστε περισσότερα

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΡΧΗ 1ης ΣΕΛΙ ΑΣ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΓΩΝΙΣΜΑ ΠΕΡΙΟΔΟΥ : ΦΕΒΡΟΥΑΡΙΟΥ ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ : 7 ΘΕΜΑ Α :

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΟΝ ΕΝΤΟΠΙΣΜΟ ΓΕΩΧΗΜΙΚΗΣ ΑΝΩΜΑΛΙΑΣ Στατιστική ανάλυση του γεωχημικού δείγματος μας δίνει πληροφορίες για τον

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ Ενότητα 3: Ασυμπτωτικός συμβολισμός Μαρία Σατρατζέμη Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

Ενδεικτικές Ερωτήσεις Θεωρίας

Ενδεικτικές Ερωτήσεις Θεωρίας Ενδεικτικές Ερωτήσεις Θεωρίας Κεφάλαιο 2 1. Τι καλούμε αλγόριθμο; 2. Ποια κριτήρια πρέπει οπωσδήποτε να ικανοποιεί ένας αλγόριθμος; 3. Πώς ονομάζεται μια διαδικασία που δεν περατώνεται μετά από συγκεκριμένο

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική Δέσποινα Πόταρη Πανεπιστήμιο Πατρών Η έννοια της δραστηριότητας Δραστηριότητα είναι κάθε ανθρώπινη δράση που έχει ένα κίνητρο και ένα

Διαβάστε περισσότερα

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση Πέρα όµως από την Γνωσιακή/Εννοιολογική ανάλυση της δοµής και του περιεχοµένου των σχολικών εγχειριδίων των Μαθηµατικών του Δηµοτικού ως προς τις έννοιες

Διαβάστε περισσότερα

Συνοπτικά περιεχόμενα

Συνοπτικά περιεχόμενα b Συνοπτικά περιεχόμενα 1 Τι είναι η στατιστική;... 25 2 Περιγραφικές τεχνικές... 37 3 Επιστήμη και τέχνη των διαγραμματικών παρουσιάσεων... 119 4 Αριθμητικές μέθοδοι της περιγραφικής στατιστικής... 141

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακή Εργασία Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα Ειρήνη Ντούτση Μηχανικός Η/Υ και Πληροφορικής

Διαβάστε περισσότερα

Εργασία στο µάθηµα Ανάλυση εδοµένων

Εργασία στο µάθηµα Ανάλυση εδοµένων Μεταπτυχιακό Υπολογιστικής Φυσικής Εργασία στο µάθηµα Ανάλυση εδοµένων ηµήτρης Κουγιουµτζής E-mail: dkugiu@auth.gr 30 Ιανουαρίου 2018 Οδηγίες : Σχετικά µε την παράδοση της εργασίας ϑα πρέπει : Το κείµενο

Διαβάστε περισσότερα

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

Γ. Κορίλη Αλγόριθµοι ροµολόγησης - Γ. Κορίλη Αλγόριθµοι ροµολόγησης http://www.seas.upenn.edu/~tcom50/lectures/lecture.pdf ροµολόγηση σε ίκτυα εδοµένων Αναπαράσταση ικτύου µε Γράφο Μη Κατευθυνόµενοι Γράφοι Εκτεταµένα έντρα Κατευθυνόµενοι

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη Επιλογή και επανάληψη Η ύλη που αναπτύσσεται σε αυτό το κεφάλαιο είναι συναφής µε την ύλη που αναπτύσσεται στο 2 ο κεφάλαιο. Όπου υπάρχουν διαφορές αναφέρονται ρητά. Προσέξτε ιδιαίτερα, πάντως, ότι στο

Διαβάστε περισσότερα

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Στατιστική Ι. Ανάλυση Παλινδρόμησης Στατιστική Ι Ανάλυση Παλινδρόμησης Ανάλυση παλινδρόμησης Η πρόβλεψη πωλήσεων, εσόδων, κόστους, παραγωγής, κτλ. είναι η βάση του επιχειρηματικού σχεδιασμού. Η ανάλυση παλινδρόμησης και συσχέτισης είναι

Διαβάστε περισσότερα

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι Σχέσεις ιδάσκοντες: Φ. Αφράτη, Σ. Ζάχος,. Σούλιου Επιµέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιµελής Σχέση ιατεταγµένο ζεύγος (α, β):

Διαβάστε περισσότερα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα Κεφάλαιο 7. 7.1 ομές εδομένων για Γραφικά Υπολογιστών. Οι δομές δεδομένων αποτελούν αντικείμενο της επιστήμης υπολογιστών. Κατά συνέπεια πρέπει να γνωρίζουμε πώς οργανώνονται τα γεωμετρικά δεδομένα, προκειμένου

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 4: Πολυδιάστατες Τυχαίες Μεταβλητές Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων Άδειες

Διαβάστε περισσότερα

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. AeppAcademy.com facebook.com/aeppacademy Γεια. Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. Καλή Ανάγνωση & Καλή Επιτυχία

Διαβάστε περισσότερα

Στοιχεία Αλγορίθµων και Πολυπλοκότητας

Στοιχεία Αλγορίθµων και Πολυπλοκότητας Στοιχεία Αλγορίθµων και Πολυπλοκότητας Ορέστης Τελέλης telelis@unipi.gr Τµήµα Ψηφιακών Συστηµάτων, Πανεπιστήµιο Πειραιώς Ο. Τελέλης Πανεπιστήµιο Πειραιώς Πολυπλοκότητα 1 / 16 «Ζέσταµα» Να γράψετε τις συναρτήσεις

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων Λουκάς Γεωργιάδης loukas@cs.uoi.gr www.cs.uoi.gr/~loukas Βασικές έννοιες και εφαρμογές Αλγόριθμος: Μέθοδος για την επίλυση ενός προβλήματος Δομή

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ ) TEΛΙΚΕΣ ΕΞΕΤΑΣΕΙΣ 4 Ιουνίου 7 Από τα κάτωθι Θέµατα καλείστε να λύσετε το ο που περιλαµβάνει ερωτήµατα από όλη την ύλη

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 21/10/2016

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Ο ΗΓΙΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΓΡΑΦΗΣ ΤΗΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ ΙΙ

Ο ΗΓΙΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΓΡΑΦΗΣ ΤΗΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ ΙΙ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τ. Ε. Ι. Σ Ε Ρ Ρ Ω Ν Ο ΗΓΙΕΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Ε ΟΜΕΝΩΝ ΚΑΙ ΣΥΓΓΡΑΦΗΣ ΤΗΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΕΡΓΑΣΤΗΡΙΟΥ ΦΥΣΙΚΗΣ ΙΙ Προετοιµασία ιαβάστε καλά

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΝΕΩΝ ΟΔΗΓΩΝ ΣΕ ΣΥΝΘΗΚΕΣ ΚΑΝΟΝΙΚΕΣ ΚΑΙ ΠΡΟΣΟΜΟΙΩΣΗΣ ΣΕ ΑΣΤΙΚΗ ΟΔΟ. Δανάη Βουτσινά

ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΝΕΩΝ ΟΔΗΓΩΝ ΣΕ ΣΥΝΘΗΚΕΣ ΚΑΝΟΝΙΚΕΣ ΚΑΙ ΠΡΟΣΟΜΟΙΩΣΗΣ ΣΕ ΑΣΤΙΚΗ ΟΔΟ. Δανάη Βουτσινά Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Πολιτικών Μηχανικών Τομέας Μεταφορών και Συγκοινωνιακής Υποδομής ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΝΕΩΝ ΟΔΗΓΩΝ ΣΕ ΣΥΝΘΗΚΕΣ ΚΑΝΟΝΙΚΕΣ ΚΑΙ ΠΡΟΣΟΜΟΙΩΣΗΣ ΣΕ ΑΣΤΙΚΗ ΟΔΟ Δανάη

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου)

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου) ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου) 1. Εισαγωγή Χαρακτηριστικά της γλώσσας Τύποι δεδοµένων Γλώσσα προγραµµατισµού

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

Μοντέλο Οντοτήτων-Συσχετίσεων

Μοντέλο Οντοτήτων-Συσχετίσεων Εισαγωγή Σχεδιασµός µιας Β : Βήµατα Ανάλυση Απαιτήσεων Τι δεδοµένα θα αποθηκευτούν, ποιες εφαρµογές θα κτιστούν πάνω στα δεδοµένα, ποιες λειτουργίες είναι συχνές Εννοιολογικός Σχεδιασµός Υψηλού-επιπέδου

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης Κεφάλαιο 13 Εισαγωγή στην Ανάλυση ιακύµανσης 1 Η Ανάλυση ιακύµανσης Από τα πιο συχνά χρησιµοποιούµενα στατιστικά κριτήρια στην κοινωνική έρευνα Γιατί; 1. Ενώ αναφέρεται σε διαφορές µέσων όρων, όπως και

Διαβάστε περισσότερα

Αλγόριθμοι. Σενάριο για μαθητές της Γ γυμνασίου, διάρκειας 4 ωρών διδασκαλίας

Αλγόριθμοι. Σενάριο για μαθητές της Γ γυμνασίου, διάρκειας 4 ωρών διδασκαλίας Αλγόριθμοι Σενάριο για μαθητές της Γ γυμνασίου, διάρκειας 4 ωρών διδασκαλίας Αλγόριθμοι Κύριος στόχος Παρουσίαση της έννοιας του αλγορίθμου υπό την οπτική της Επιστήμης των Υπολογιστών Αλγόριθμοι Επιμέρους

Διαβάστε περισσότερα