Μελέτη και υλοποίηση αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μελέτη και υλοποίηση αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Μελέτη και υλοποίηση αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου Διπλωματική Εργασία του Παπαδόπουλου Σάββα (ΑΕΜ: 783) Επιβλέπουσα Καθηγήτρια: ΒΑΚΑΛΗ ΑΘΗΝΑ ΘΕΣΣΑΛΟΝΙΚΗ ΙΑΝΟΥΑΡΙΟΣ 2007

2 ΠΡΟΛΟΓΟΣ ΠΡΟΛΟΓΟΣ Οι υπολογιστές αποτελούν αναπόσπαστο κομμάτι της σύγχρονης ζωής. Το ποσό πληροφορίας (οποιουδήποτε τύπου και να είναι αυτή) που υπάρχει σε ηλεκτρονική μορφή, και διακινείται είτε μέσω διαδικτύου είτε απευθείας μεταξύ προσωπικών ηλεκτρονικών υπολογιστών είναι τεράστιο. Τα τελευταία χρόνια έχουν αναπτυχθεί μέθοδοι για την οργάνωση και ανάλυση αυτής της πληροφορίας καθώς και για την εξαγωγή νέας, άγνωστης πληροφορίας από την ήδη γνωστή. Μία από αυτές τις μεθόδους είναι το Text Mining. Ένα από τα σημαντικότερα βήματα του Text Mining είναι η ομαδοποίηση. Οργανώνει την εξηγμένη πληροφορία σε ομάδες, βοηθώντας καθοριστικά στην ανάλυση της και στην εξαγωγή συμπερασμάτων από αυτή. Αντικείμενο της πτυχιακής εργασίας είναι η μελέτη και υλοποίηση ενός αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου. Πρόκειται για ένα αλγόριθμο που πραγματοποιεί ταυτόχρονη ομαδοποίηση αρχείων κειμένων και των λέξεων που περιέχονται σε αυτά. Συγκεκριμένα, ο αλγόριθμος υλοποιείται προγραμματιστικά και έπειτα δοκιμάζεται μέσω πραγματοποίησης πειραμάτων πάνω σε ένα σύνολο δεδομένων. Τα δεδομένα αυτά, που αποτελούνται από αρχεία κειμένου, υφίστανται κατάλληλη επεξεργασία ώστε να πληρούν τα κριτήρια που θέτει ο αλγόριθμος και έπειτα οργανώνονται στη μορφή ενός πίνακα λέξεων-εγγράφων. Ο πίνακας αυτός έπειτα, μέσω του αλγορίθμου συνομαδοποίησης παράγει τους επιθυμητούς clusters. Επιπλέον πραγματοποιείται και αξιολόγηση του αλγορίθμου μέσω της υλοποίησης μετρικών που ερευνούν την εγκυρότητα των αποτελεσμάτων του. Θα ήθελα να ευχαριστήσω την επιβλέπουσα καθηγήτρια κα. Αθηνά Βακάλη για την πολύτιμη συμβολή της στην διεκπεραίωση αυτής της διπλωματικής καθώς και την υποψήφια διδάκτωρ κα. Βασιλική Κουτσονικόλα για την πολύτιμη βοήθεια και συνεργασία της καθ όλη τη διάρκεια υλοποίησης της διπλωματικής εργασίας. 2

3 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Εισαγωγή στο Text mining Μέθοδοι του Text Mining Βήματα του Text Mining Εφαρμογές Text Mining Ιατρική Γενικές εφαρμογές Εφαρμογές στις επιχειρήσεις...17 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Εισαγωγή στην ομαδοποίηση Οι στόχοι Προβλήματα Πιθανές εφαρμογές Κατηγοριοποίηση μεθόδων Ομαδοποίησης Αλγόριθμοι Ομαδοποίησης Partitional algorithms Ιεραρχικοί αλγόριθμοι (Hierarchical Algorithms) Αλγόριθμοι βασισμένοι-στην-πυκνότητα (Density-based algorithms) Αλγόριθμοι βασισμένοι-στo-πλέγμα (Grid-based Algorithms) Ασαφής ομαδοποίηση (Fuzzy Clustering) Σύγκριση των αλγορίθμων ομαδοποίησης Εγκυρότητα Ομαδοποίησης Αξιολόγηση της ομαδοποίησης Τεχνικές αξιολόγησης της ομαδοποίησης Μετρικές ομαδοποίησης Εσωτερικές Μετρικές Εξωτερικές Μετρικές...43 Κεφάλαιο 3 Συν-ομαδοποίηση λέξεων- εγγράφων Ορισμός προβλήματος Εισαγωγή Θεωρητικό υπόβαθρο του αλγορίθμου Συν-ομαδοποίηση Φασματικός Διαμερισμός του δίγραφου με ανάλυση ιδιαζουσών τιμών (SVD) Ο αλγόριθμος διαμερισμού σε 2 μέρη Ο αλγόριθμος διαμερισμού σε πολλά μέρη...52 Κεφάλαιο 4 Υλοποίηση co-clustering Δεδομένα Υλοποίηση Parser Εγγράφων Συν-ομαδοποιητής εγγράφων-λέξεων...58 Κεφάλαιο 5 Πειραματικά αποτελέσματα...61 Κεφάλαιο 6 Συμπεράσματα Μελλοντικές εξελίξεις...82 Κεφάλαιο 7 Βιβλιογραφία...83 ΠΑΡΑΡΤΗΜΑ...86 Α.Τεκμηρίωση εφαρμογής C Α.1 Βασικές δομές του προγράμματος...86 Α.2 Εκτέλεση του προγράμματος

4 ΠΕΡΙΕΧΟΜΕΝΑ Β. Κώδικας εφαρμογής C Γ. Τεκμηρίωση εφαρμογής Matlab Γ.1 Purity Γ.2 Entropy Γ.3 F-Measure Γ.4 Dunn s Index Δ. Κώδικας εφαρμογής Matlab

5 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) 1.1 Εισαγωγή στο Text mining Η εποχή της πληροφόρησης έχει καταστήσει εύκολη την αποθήκευση μεγάλων ποσών δεδομένων. Ο πολλαπλασιασμός των διαθέσιμων εγγράφων στο Web, στα εταιρικά intranets, στα δίκτυα ειδήσεων, και αλλού είναι συντριπτικός. Εντούτοις, ενώ το ποσό δεδομένων διαθέσιμο σε μας αυξάνεται συνεχώς, η δυνατότητά μας να απορροφήσουμε και να επεξεργαστούμε αυτές τις πληροφορίες παραμένει σταθερή. Οι μηχανές αναζήτησης επιδεινώνουν μόνο το πρόβλημα, με το να καθιστούν όλο και περισσότερα έγγραφα εύκολα και γρήγορα διαθέσιμα. Το Text Mining (μερικές φορές εναλλακτικά αποκαλούμενο και ως Text Data Mining) είναι ένας νέος και συναρπαστικός ερευνητικός τομέας, που προσπαθεί να λύσει το πρόβλημα υπερφόρτωσης πληροφοριών με τη χρησιμοποίηση τεχνικών από την ανάκτηση δεδομένων, την εκμάθηση μηχανών, την εξαγωγή πληροφοριών, την κατηγοριοποίηση κειμένων, την απεικόνιση και τη διαχείριση γνώσης. Κάποιοι ενδεικτικοί ορισμοί του Text Mining είναι οι παρακάτω: Text Mining είναι η διαδικασία δημιουργίας δικτύων διασυνδεμένων αντικειμένων μέσω διάφορων σχέσεων προκειμένου να ανακαλυφθούν πατέντες και τάσεις. Text Mining είναι η εξερεύνηση και ανάλυση των δεδομένων κειμένου (φυσικής γλώσσας) με αυτόματα και ημιαυτόματα μέσα προς ανακάλυψη νέας γνώσης. "Text Mining είναι η μη τετριμμένη εξαγωγή των υπονοούμενων, προηγουμένως άγνωστων, και ενδεχομένως χρήσιμων πληροφοριών από (μεγάλο ποσό) δεδομένων κειμένου". Τί ορίζεται ως προηγουμένως άγνωστη πληροφορία; Ένας αυστηρός ορισμός της θα ήταν πληροφορίες που ακόμη και ο συγγραφέας δε γνωρίζει, π.χ. η ανακάλυψη μιας νέας μεθόδου για αύξηση της τριχοφυΐας που περιγράφεται ως παρενέργεια για μια διαφορετική διαδικασία. Αν θελήσουμε να ορίσουμε την προηγουμένως άγνωστη πληροφορία με ένα πιο χαλαρό τρόπο, θα μπορούσαμε να την περιγράψουμε ως την ανακάλυψη ξανά της πληροφορίας που ο συντάκτης κωδικοποίησε στο κείμενο, π.χ. η αυτόματη εξαγωγή του ονόματος ενός προϊόντος από μια ιστοσελίδα. Το Text Mining, σύμφωνα και με τους παραπάνω ορισμούς ασχολείται με την ανακάλυψη προηγουμένως άγνωστης πληροφορίας σε αδόμητα ή ημί-δομημένα δεδομένα. Αυτό το διαχωρίζει από κάποια άλλα πεδία όπως το Data Mining, όπως φαίνεται και στο παρακάτω σχήμα: 5

6 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Σχήμα 1.1 Κατάταξη Text Mining Λαμβάνοντας υπ όψιν ότι περίπου 90% των παγκοσμίων δεδομένων διατηρείται σε αδόμητους τύπους (πηγή: Oracle Corporation), γίνεται αντιληπτό πως η σημασία του Text Mining είναι μεγάλη, καθότι ο συνήθης βασισμένος στη λογική (logicbased) προγραμματισμός αντιμετωπίζει μεγάλες δυσκολίες στη σύλληψη των ασαφών και πολλές φορές αμφίσημων σχέσεων που περιέχονται σε έγγραφα κειμένου. Σχήμα 1.2 Κατάταξη παγκόσμιων δεδομένων Οι κύριοι στόχοι του Text Mining είναι οι παρακάτω : Να εξάγει, να ανακαλύψει, και να συνδέσει αραιά δεδομένα προερχόμενα από απέραντες ποσότητες πηγών δεδομένων. Να αναπαραστήσει και να αξιολογήσει τη σημασία των σχετιζόμενων στοιχείων. Να εντοπίσει πατέντες που θα οδηγήσουν στην εξαγωγή, την ανακάλυψη, και τη σύνδεση οντοτήτων. Η Εξόρυξη δεδομένων (KDD) από αδόμητα η ημί-δομημένα δεδομένα. Η (Εταιρική) Διαχείριση Γνώσης. 1.2 Μέθοδοι του Text Mining Κάποιες από τις μεθόδους που χρησιμοποιεί το Text Mining προς την ανακάλυψη γνώσης είναι οι παρακάτω: 6

7 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Ανάκτηση Πληροφορίας (Information Retrieval, IR): Κατάταξη και ανάκτηση εγγράφων κειμένου Η Ανάκτηση Πληροφοριών είναι η εύρεση των εγγράφων που περιέχουν τις απαντήσεις στις ερωτήσεις και όχι η εύρεση των ίδιων των απαντήσεων[45]. Προκειμένου να επιτευχθεί αυτός ο στόχος, χρησιμοποιούνται στατιστικά μέτρα και μέθοδοι για την αυτόματη επεξεργασία των δεδομένων κειμένου και τη σύγκριση τους με τη δοθείσα ερώτηση. Η ανάκτηση πληροφοριών υπό την ευρύτερη έννοια εξετάζει ολόκληρο το εύρος της επεξεργασίας πληροφοριών, από την ανάκτηση πληροφορίας ως την ανάκτηση γνώσης (βλ. [46] για μια επισκόπηση). Αν και η ανάκτηση πληροφοριών είναι ένας σχετικά παλαιός ερευνητικός τομέας όπου οι πρώτες προσπάθειες για αυτόματη ευρετηρίαση έγιναν το 1975 [44], κέρδισε αυξανόμενη προσοχή με την άνοδο του World Wide Web και την ανάγκη για περίπλοκες μηχανές αναζήτησης. Παρόλο που ο ορισμός της ανάκτησης πληροφοριών είναι βασισμένος στην ιδέα των ερωτήσεων και των απαντήσεων, τα συστήματα που ανακτούν έγγραφα βασισμένα σε λέξεις κλειδιά, δηλ. συστήματα που εκτελούν ανάκτηση εγγράφων όπως οι περισσότερες μηχανές αναζήτησης, συχνά αποκαλούνται και αυτά συστήματα ανάκτησης πληροφοριών. Ως μέθοδος του Text Mining, η Ανάκτηση Πληροφορίας χρησιμοποιείται ως εξής: Σε ένα σύστημα Ανάκτησης Πληροφορίας δίδονται ως είσοδοι ένα σύνολο εγγράφων κειμένου και ένα ερώτημα (κείμενο). Το σύστημα ως έξοδο δίνει ένα σύνολο (καταταγμένων) εγγράφων σχετικά με το ερώτημα. Σχηματικά η διαδικασία παρουσιάζεται στο παρακάτω σχήμα: Σχήμα 1.3 Μέθοδος Ανάκτησης Πληροφορίας 7

8 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Ένα ευφυές σύστημα Ανάκτηση Πληροφορίας θα πρέπει να λαμβάνει υπ όψιν του τα παρακάτω θέματα: o Σημασία των λέξεων Συνώνυμα: buy / purchase Διφορούμενες έννοιες: bat (baseball, το θηλαστικό) o Σειρά των λέξεων στο ερώτημα hot dog stand in the amusement park hot amusement stand in the dog park o Αξιοπιστία της πηγής Η Microsoft είναι πιο πιθανό να είναι αξιόπιστη, από ότι ένας προσωπικός γνωστός. Εξαγωγή πληροφορίας (Information Extraction, IE) : Εξαγωγή μερικής γνώσης που περιέχεται στα έγγραφα κειμένου Το κείμενο φυσικής γλώσσας περιέχει πολλές πληροφορίες που δεν είναι άμεσα κατάλληλες για αυτόματη ανάλυση από έναν υπολογιστή. Εντούτοις, οι υπολογιστές μπορούν να χρησιμοποιηθούν για να κοσκινίσουν μεγάλες ποσότητες κειμένου και να εξάγουν χρήσιμες πληροφορίες από μεμονωμένες λέξεις, φράσεις ή εδάφια. Επομένως η εξαγωγή πληροφοριών μπορεί να θεωρηθεί ως μια περιορισμένη μορφή πλήρους κατανόησης της φυσικής γλώσσας, όπου ξέρουμε εκ των προτέρων ποιο είδος σημασιολογικής πληροφορίας ψάχνουμε. Ο κύριος στόχος είναι να εξαχθούν μέρη του κειμένου και να ανατεθούν συγκεκριμένες ιδιότητες σε αυτά. Η διαδικασία της εξαγωγής πληροφοριών αποσυντίθεται φυσικά σε μια σειρά βημάτων επεξεργασίας, τυπικά συμπεριλαμβανομένων των: tokenization (χωρισμός μιας συμβολοσειράς σε tokens, συνήθως λέξεις), κατάτμηση πρότασης, ανάθεση μέρος του λόγου και αναγνώριση των ονομασμένων οντοτήτων, δηλ. ονόματα προσώπων, ονόματα τοποθεσιών και ονόματα οργανώσεων. Σε πιο υψηλό επίπεδο, οι φράσεις και οι προτάσεις πρέπει να αναλυθούν (parsing), να ερμηνευτούν σημασιολογικά και να ενσωματωθούν. Τέλος, τα απαραίτητα κομμάτια πληροφορίας όπως "η θέση" και το "εισερχόμενο όνομα προσώπων" εισάγονται στη βάση δεδομένων. Αν και τα ακριβέστερα συστήματα εξαγωγής πληροφοριών περιλαμβάνουν συχνά χειροποίητα modules επεξεργασίας γλώσσας, έχει σημειωθεί ουσιαστική πρόοδος στην εφαρμογή μεθόδων εξόρυξης δεδομένων σε διάφορα από αυτά τα βήματα. Ως μέθοδος του Text Mining, η Εξαγωγή Πληροφορίας χρησιμοποιείται ως εξής: Σε ένα σύστημα Εξαγωγής Πληροφορίας δίδονται ως είσοδοι ένα σύνολο εγγράφων κειμένου και ένα καλά διατυπωμένο, περιορισμένο ερώτημα (κείμενο). Τα ζητούμενα από το σύστημα αυτό είναι: η εύρεση προτάσεων με σχετική πληροφορία, η εξαγωγή της σχετικής πληροφορίας και η απόρριψη της άσχετης, η σύνδεση της σχετικής πληροφορίας και η έξοδος της σε ένα 8

9 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) προκαθορισμένο format. Σχηματικά η διαδικασία παρουσιάζεται στο παρακάτω σχήμα: Σχήμα 1.4 Μέθοδος Εξαγωγής Πληροφορίας Web Mining: Κατάταξη και ανάκτηση εγγράφων κειμένου καθώς και εξαγωγή μερικής γνώσης με χρήση του διαδικτύου. Web Mining είναι η εφαρμογή τεχνικών της εξόρυξης δεδομένων προς ανακάλυψη πατεντών από το web. Σύμφωνα με τους στόχους της ανάλυσης, το Web Mining μπορεί να διαιρεθεί σε τρεις διαφορετικές κατηγορίες: Web Usage Mining, Web Content Mining και Web Structure Mining. Το Web Usage Mining είναι η εφαρμογή που χρησιμοποιεί την Εξόρυξη Δεδομένων (Data Mining) για να αναλύσει και να ανακαλύψει ενδιαφέροντα μοτίβα από τα στοιχεία χρήσης του χρήστη όσον αφορά στο Web. Το Web Content Mining είναι η διαδικασία ανακάλυψης χρήσιμων πληροφοριών από το περιεχόμενο μιας ιστοσελίδας. Το Web Structure Mining είναι η διαδικασία χρήσης της θεωρίας γράφων για την ανάλυση της δομής των κόμβων και των συνδέσεων ενός web site. Το Web Mining είναι από τις πιο σημαντικές μεθόδους του Text Mining. Αυτό οφείλεται κυρίως στο ότι: o Υπάρχει τεράστιος πλούτος πληροφορίας σε μορφή κειμένου στο web: Καταστήματα Βιβλίων/ CD/ Video (π.χ. Amazon) Πληροφορίες για ρεστοράν (π.χ. Zagats) Τιμές Αυτοκινήτων (π.χ. Carpoint) o Υπάρχουν πολλά δεδομένα στις πατέντες πρόσβασης των χρηστών (user access patterns) : Τα web logs περιέχουν ακολουθίες των URL s που επισκέφτηκαν οι χρήστες. 9

10 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) o Υπάρχει πιθανότητα ανάκτησης προηγουμένως άγνωστης πληροφορίας. Άνθρωποι που κάνουν σκι, επίσης σπάνε συχνά το πόδι τους. Σχηματικά η μέθοδος του Web Mining μπορεί να αποδοθεί ως εξής: Σχήμα 1.5 Μέθοδος Web Mining 1.3 Βήματα του Text Mining Τα βήματα που ακολουθεί το Text Mining προς την παραγωγή αποτελεσμάτων παρουσιάζονται στο παρακάτω σχήμα: Σχήμα 1.6 Βήματα Text Mining 10

11 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Τα βήματα αναλυτικά: 1. Text preprocessing: Συντακτική/Σημασιολογική ανάλυση κειμένου Αναγνώριση της κάθε λέξης ως προς το τί μέρος του λόγου είναι Αναγνώριση μέρος του λόγου (pos tagging ή POST), αποκαλούμενη επίσης και γραμματική αναγνώριση, είναι η διαδικασία της αντιστοίχισης καθεμίας από τις λέξεις σε ένα κείμενο με ένα συγκεκριμένο μέρος του λόγου. Η διαδικασία αυτή βασίζεται τόσο στον ορισμό της λέξης, όσο και στα συμφραζόμενα της δηλ. τη σχέση με τις παρακείμενες και σχετικές λέξεις σε μια φράση, μια πρόταση, ή μια παράγραφο. Μια απλουστευμένη μορφή αυτής διδάσκεται συνήθως στα σχολικής ηλικίας παιδιά, στον προσδιορισμό των λέξεων, όπως ουσιαστικά, ρήματα, επίθετα, επιρρήματα, κ.λπ. Το pos tagging διεξάγεται στα πλαίσια της υπολογιστικής γλωσσολογίας(computational linguistics), με χρήση αλγορίθμων που συνδέουν σύμφωνα με ένα σύνολο περιγραφικών ετικετών (tags) διακριτούς όρους, καθώς επίσης και κρυμμένα μέρη του λόγου. Η αναγνώριση μέρος του λόγου είναι δυσκολότερη από το να υπάρχει απλώς μια λίστα των λέξεων και μερών του λόγου τους, επειδή μερικές λέξεις μπορούν να αντιπροσωπεύσουν περισσότερα από ένα μέρη του λόγου σε διαφορετικές περιπτώσεις. Αυτό δεν είναι σπάνιο -- στις φυσικές γλώσσες (σε αντιδιαστολή με πολλές τεχνητές γλώσσες), ένα τεράστιο ποσοστό των λέξεωνμορφών είναι διφορούμενες. Ένα παράδειγμα της αναγνώρισης είναι το: John (ουσιαστικό) gave (ρήμα) the (άρθρο) ball (ουσιαστικό). Ανάλυση (Parsing) Μόλις αναγνωριστούν οι λέξεις και ετικετοποιηθούν, πολλές εφαρμογές αποκλίνουν. Πολλοί υπολογιστικοί γλωσσολόγοι(computational linguists) θεωρούν πως για την πλήρη κατανόηση της γλώσσας η ανάλυση πρότασης (sentence parsing) είναι απαραίτητη. Μια πρόταση μπορεί να αποσυντεθεί σε φράσεις προκειμένου να προσδιοριστούν η έννοια και η λειτουργία των λέξεων. Ένα δέντρο ανάλυσης (parse tree) μπορεί να παραχθεί από μια χειροποίητη γραμματική ή από μια παραχθείσα μέσω στατιστικής μάθησης. Για στατιστικές εφαρμογές απαιτούνται συλλογές ηχητικών στοιχείων γλώσσας (corpora). Οι PTB (Parameterizable Test Bed, επίσημο πλαίσιο αξιολόγησης προϊόντων φυσικής γλώσσας ανεπτυγμένο από το πρόγραμμα TEMAA το 1997, που υλοποιείται ως λογισμικό, [60]) και BNC (British National Corpus, μια συλλογή 100 εκατομμυρίων λέξεων που περιέχει δείγματα γραπτής και προφορικής γλώσσας από ένα ευρύ φάσμα πηγών, με σκοπό να αντιπροσωπεύει μια ευρεία διατομή των τρεχόντων βρετανικών αγγλικών, τόσο των προφορικών όσο και των γραπτών,[61]) χρησιμοποιούνται συχνά για εκμάθηση στις στατιστικές NLP (Natural Language Processing, Επεξεργασία Φυσικής Γλώσσας) 11

12 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) εφαρμογές. Οι χειροποίητες γραμματικές είναι συνήθως ελλιπείς, ενώ οι στατιστικά κατασκευασμένες γραμματικές παράγουν συχνά πολλά δέντρα ανάλυσης. Καμία μέθοδος δεν είναι σε θέση να αντιμετωπίσει και να διαχειριστεί τέλεια με τους λεπτούς δεσμούς και έννοιες που εμπεριέχονται στις ανθρώπινες κατασκευές. Η ομαδική κατάτμηση (chunking) χρησιμοποιείται συχνά αντί της πλήρους ανάλυσης. Η ομαδική κατάτμηση ή ρηχή ανάλυση διαιρεί κατά προσέγγιση μια πρόταση σε συστατικές φράσεις χωρίς παραγωγή πλήρους δέντρου ανάλυσης. Είναι γρηγορότερη από την ανάλυση παράλληλα εξακολουθώντας να παρέχει κάποιες πληροφορίες για το υποκείμενο, το ρήμα, και το αντικείμενο μιας πρότασης. 2. Feature Generation: Bag of words Στην προσέγγιση bag-of-words, αγνοείται η σειρά με την οποία εμφανίζονται οι λέξεις. Αντ' αυτού δίνεται έμφαση στις λέξεις και τις στατιστικές διανομές τους. Προκειμένου να χρησιμοποιηθούν οι άτακτες λέξεις είναι απαραίτητο να οργανωθεί ένας κατάλογος (index) του κειμένου σε ένα διάνυσμα δεδομένων. Παραδείγματος χάριν η πρόταση Lord of the rings διαμορφώνεται ως εξής: the, Lord, rings, of. Ο κατάλογος τείνει να είναι πολύ μεγάλος, έτσι όροι που είναι γραμματικά ο ένας κοντά στον άλλο (όπως "κύτταρο" και "κύτταρα") χαρτογραφούνται σε έναν όρο μέσω stemming των λέξεων και όροι που εμφανίζονται πολύ συχνά αφαιρούνται με τη σύνταξη καταλόγων κοινών λέξεων (stop words), έτσι ώστε να μην παρεμποδίζουν την ανάλυση των δεδομένων. Μέχρι τώρα έχει υλοποιηθεί ο αλγόριθμος stemming του Porter[47], οι κατάλογοι κοινών λέξεων μπορούν να συνταχθούν δυναμικά, και έχουν υλοποιηθεί βασικές αναπαραστάσεις του διανυσματικού χώρου (συχνότητα λέξης και TF IDF από [48]) και μέτρα ομοιότητας. Η προσέγγιση αυτή είναι πολύ αποδοτική και κάνει τη μάθηση πολύ πιο απλή και εύκολη. 3. Feature selection Η επιλογή χαρακτηριστικού γνωρίσματος (feature), είναι η διαδικασία κατά την οποία, βάσει κάποιων κριτηρίων, επιλέγεται ένα υποσύνολο γνωρισμάτων από το αρχικό σύνολο. Τα επιλεγμένα χαρακτηριστικά γνωρίσματα διατηρούν την αρχική φυσική τους έννοια και παρέχουν μια καλύτερη κατανόηση για τα δεδομένα και τη διαδικασία μάθησης. Ανάλογα με εάν απαιτούνται οι πληροφορίες ετικετών (label information) κλάσης, η επιλογή χαρακτηριστικών γνωρισμάτων μπορεί να είναι είτε ανεπίβλεπτη είτε επιβλεπόμενη. Για τις επιβλεπόμενες μεθόδους, ο συσχετισμός κάθε χαρακτηριστικού γνωρίσματος με την ετικέτα κλάσης υπολογίζεται με βάση την απόσταση(distance), την εξάρτηση πληροφοριών(information dependence), ή τις μετρικές συνέπειας(consistency measures) [49]. 12

13 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Όσον αφορά στην επιλογή χαρακτηριστικών γνωρισμάτων για την ομαδοποίηση, οποιαδήποτε παραδοσιακή μέθοδος επιλογής χαρακτηριστικών γνωρισμάτων που δεν χρειάζεται τις πληροφορίες κλάσης, όπως η συχνότητα εγγράφων(df) και η δύναμη όρου(ts) [51], μπορεί να εφαρμοστεί εύκολα στην ομαδοποίηση. Αφετέρου, υπάρχουν μερικές πρόσφατα προτεινόμενες μέθοδοι, παραδείγματος χάριν, η βασισμένη-στην-εντροπία μέθοδος κατάταξης χαρακτηριστικών γνωρισμάτων (En) που προτάθηκε από τους Dash και Liu ([50]) στην οποία η σημασία χαρακτηριστικών γνωρισμάτων μετριέται από τη συμβολή σε έναν δείκτη εντροπίας βασισμένο στην ομοιότητα δεδομένων. 4. Data Mining/ Pattern Discovery Κατάταξη (Classification): Η κατάταξη κειμένων στοχεύει στην ανάθεση των προκαθορισμένων κατηγοριών σε έγγραφα κειμένων [40]. Ένα παράδειγμα θα ήταν η αυτόματη ετικετοποίηση κάθε εισερχόμενης ιστορίας ειδήσεων με ένα θέμα όπως "αθλητισμός", "πολιτική", ή "τέχνη". Ανεξαρτήτως της μεθόδου που εφαρμόζεται, μια διαδικασία κατάταξης ξεκινά με ένα σύνολο κατάρτισης D = d,..., 1 dn των εγγράφων που έχουν ετικετοποιηθεί ήδη με μια κατηγορία L L (π.χ. αθλητισμός, πολιτική). Ο στόχος είναι έπειτα να καθοριστεί ένα πρότυπο ταξινόμησης f:d L f(d)=l το οποίο είναι σε θέση να ορίσει τη σωστή κατηγορία σε κάθε ένα νέο έγγραφο d του πεδίου. Για να μετρηθεί η απόδοση ενός προτύπου κατάταξης ένα τυχαίο κλάσμα των ετικετοποιημένων εγγράφων τίθεται κατά μέρος και δεν χρησιμοποιείται για την κατάρτιση. Μπορούμε να κατατάξουμε τα έγγραφα αυτού του συνόλου δοκιμής με το πρότυπο κατάταξης και να συγκρίνουμε τις εκτιμηθείσες ετικέτες με τις πραγματικές. Το κλάσμα των σωστά καταταχθέντων εγγράφων σε σχέση με το συνολικό αριθμό εγγράφων ονομάζεται ακρίβεια (accuracy) και είναι ένα πρώτο μέτρο απόδοσης. Συχνά, εντούτοις, η κλάση στόχος καλύπτει μόνο ένα μικρό ποσοστό των εγγράφων. Τότε λαμβάνουμε υψηλή ακρίβεια εάν κατατάσσουμε κάθε έγγραφο στην εναλλακτική κατηγορία. Για να αποφευχθεί αυτό το αποτέλεσμα, συχνά χρησιμοποιούνται διαφορετικές μετρικές της επιτυχίας της κατάταξης. Η ακρίβεια (precision) ποσοτικοποιεί το μέρος των ανακτημένων εγγράφων που είναι στην πραγματικότητα σχετικά, δηλ. ανήκουν στην κατηγορία στόχο. Η ανάκληση (recall) υποδεικνύει ποιο μέρος των σχετικών εγγράφων ανακτάται. 13

14 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) I I # σχετικά ανεκτημένα # σχετικά ανεκτημένα precision= recall= #ανεκτημένα #σχετικά Προφανώς υπάρχει μια ανταλλαγή μεταξύ της ακρίβειας και της ανάκλησης. Οι περισσότεροι ταξινομητές εσωτερικά καθορίζουν κάποιο "βαθμό συμμετοχής μέλους" στην κατηγορία στόχο. Εάν μόνο έγγραφα υψηλού βαθμού κατατάσσονται στην κατηγορία στόχο, η ακρίβεια είναι υψηλή. Εντούτοις, πολλά σχετικά έγγραφα έχουν αγνοηθεί, το οποίο αντιστοιχεί σε μια χαμηλή ανάκληση. Όταν από την άλλη μεριά η αναζήτηση είναι πιο εξαντλητική, η ανάκληση αυξάνεται και η ακρίβεια μειώνεται. Το F-score είναι ένας συμβιβασμός μεταξύ των δύο για τη μέτρηση της γενικής απόδοσης των ταξινομητών 2 F= 1 precision + 1 recall Ομαδοποίηση(Clustering) Η μέθοδος ομαδοποίησης μπορεί να χρησιμοποιηθεί προκειμένου να βρεθούν ομάδες εγγράφων με παρόμοιο περιεχόμενο. Το αποτέλεσμα της ομαδοποίησης είναι χαρακτηριστικά ένας διαμερισμός, επίσης αποκαλούμενος ομαδοποίηση P, ένα σύνολο από clusters, P. Κάθε cluster αποτελείται από έναν αριθμό εγγράφων d. Τα αντικείμενα στην περίπτωση μας έγγραφα ενός cluster πρέπει να είναι όμοια μεταξύ τους και ανόμοια με τα έγγραφα άλλων clusters. Συνήθως η ποιότητα των ομαδοποιήσεων θεωρείται καλύτερη εάν το περιεχόμενο των εγγράφων μέσα σε έναν cluster είναι περισσότερο όμοιο και μεταξύ των clusters περισσότερο ανόμοιο. Οι μέθοδοι ομαδοποίησης ομαδοποιούν τα έγγραφα μόνο με την εξέταση της διανομής τους στο χώρο των εγγράφων (παραδείγματος χάριν, ένα ν-διάστατο χώρο εάν χρησιμοποιούμε το πρότυπο διανυσματικού χώρου(vector space model) για τα έγγραφα κειμένων). Οι αλγόριθμοι ομαδοποίησης υπολογίζουν τους clusters βασισμένοι στις ιδιότητες των δεδομένων και στις μετρικές (αν)ομοιότητας. Εντούτοις, η ιδέα του πώς πρέπει να είναι μια ιδανική ομαδοποίηση ποικίλλει μεταξύ των εφαρμογών και μπορεί να είναι ακόμα και διαφορετική μεταξύ των χρηστών. Κάποιος μπορεί να ασκήσει επιρροή στα αποτελέσματα ενός αλγορίθμου ομαδοποίησης με τη χρησιμοποίηση μόνο υποσυνόλων των ιδιοτήτων ή με την προσαρμογή των χρησιμοποιημένων μετρικών ομοιότητας και να ελέγξει έτσι τη διαδικασία ομαδοποίησης. Μέχρι ποιο σημείο το αποτέλεσμα του αλγορίθμου ομαδοποίησης συμπίπτει με τις ιδέες του χρήστη μπορεί να αξιολογηθεί από τις μετρικές εγκυρότητας. 14

15 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) 5. Αξιολόγηση Κατάταξης Μια κατάταξη μπορεί να θεωρηθεί σωστή αν το γνωστό label του δείγματος τεστ είναι πανομοιότυπο με την προκύπτουσα από το μοντέλο κατάταξης κλάση. Επιπλέον μπορεί να υπολογιστεί ένα ποσοστό ακρίβειας για την αξιολόγηση της κατάταξης, που θα αντιστοιχεί στο ποσοστό δειγμάτων του συνόλου τεστ που κατατάχτηκαν σωστά. Τέλος μπορεί να χρησιμοποιηθεί ένα μέτρο απόστασης μεταξύ clusters: η κατάταξη ενός εγγράφου μπάσκετ ως ποδοσφαίρου δεν είναι τόσο κακή όσο η κατάταξη του ως εγκλήματος. Ομαδοποίησης Μια καλή μέθοδος ομαδοποίησης παράγει clusters με: μεγάλη ομοιότητα μέσα στους clusters, μικρή ομοιότητα μεταξύ των clusters. Η ποιότητα της ομαδοποίησης μπορεί επίσης να μετρηθεί από την ικανότητα της να ανακαλύπτει κάποιες ή όλες τις κρυμμένες πατέντες. 1.4 Εφαρμογές Text Mining Το Text Mining έχει πολλές εφαρμογές σε διάφορους τομείς, όπως η ιατρική, η βιολογία, ο χώρος των επιχειρήσεων κ.ά. Γενικά μπορεί να χρησιμοποιηθεί οπουδήποτε είναι επιθυμητή η ανακάλυψη προηγουμένως άγνωστης πληροφορίας. Ακολουθούν κάποια παραδείγματα εφαρμογών του Text Mining σε διάφορους τομείς Ιατρική Διεξάγεται μια ιατρική έρευνα, στόχος της οποίας είναι η μελέτη αλυσίδων αιτιωδών επιπτώσεων προς ανακάλυψη σχέσης μεταξύ των ημικρανιών και των επιπέδων των βιοχημικών. Δεδομένα της έρευνας είναι ιατρικά Papers και ιατρικά νέα, δηλαδή αδόμητη πληροφορία σε μορφή κειμένου. Κάποιοι από τους κύριους τύπους εννοιών που περιέχονται στα δεδομένα μας είναι συμπτώματα, φάρμακα, ασθένειες, χημικά, κ.ά. Με βάση αυτά τα δεδομένα θα μπορούσαμε να καταλήξουμε σε ένα τέτοιου είδους σχήμα: Το στρες συνδέεται με τις ημικρανίες Το στρες μπορεί να οδηγήσει σε απώλεια Μαγνησίου Τα ΚΜΑ (Κανάλια Μπλοκαρίσματος Ασβεστίου) αποτρέπουν κάποιες ημικρανίες Το Μαγνήσιο είναι ένα φυσικό ΚΜΑ Το SCD (spreading cortical depression) εμπλέκεται σε κάποιες ημικρανίες Υψηλά επίπεδα Μαγνησίου εμποδίζουν το SCD. 15

16 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Οι ασθενείς με ημικρανία έχουν υψηλή PA(platelet aggregability) To Μαγνήσιο μπορεί να καταστείλει την PA. Σχηματικά, η διαδικασία συγκέντρωσης αποδείξεων μέσω του Text Mining μπορεί να αποδοθεί ως εξής: Σχήμα 1.7 Απεικόνιση εξαγόμενων από το Text Mining σχέσεων Ή ολοκληρωμένα, Σχήμα 1.8 Τακτοποιημένη απεικόνιση των σχέσεων Γενικές εφαρμογές Κάποιες από τις γενικές εφαρμογές του Text Mining είναι η ανάλυση σχέσεων, π.χ. Αν το Α σχετίζεται με το Β και το Β με το Γ, τότε υπάρχει μια πιθανότητα να σχετίζεται και το Α με το Γ, η ανάλυση τάσεων, π.χ. oι εμφανίσεις του Α κορυφώνονται τον Οκτώβριο καθώς και ο συνδυασμός εφαρμογών, π.χ. οι κοινές εμφανίσεις των Α και Β κορυφώνονται τον Οκτώβριο. 16

17 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Εφαρμογές στις επιχειρήσεις Υποστήριξη αποφάσεων στο CRM Ο όρος Customer Relationship Management ή Marketing (CRM) δηλώνει την μεθοδολογία που βοηθά στην επισήμανση και την προσέλκυση των καταναλωτών, μέσα από τη διαδικασία ανάπτυξης διαπροσωπικών σχέσεων (επιχείρηση πελάτης). Το Text Mining μπορεί να βοηθήσει στη λήψη αποφάσεων για χάραξη μιας νέας βελτιωμένης στρατηγικής, τόσο για την προσέλκυση νέων πελατών όσο και για τη καλύτερη ικανοποίηση των ήδη υπαρχόντων. Για παράδειγμα σε μια τράπεζα, με βάση το αρχείο τηλεφωνικών κλήσεων της, θα μπορούσαν να απαντηθούν σημαντικά ερωτήματα όπως: Ποια είναι τα τυπικά παράπονα των πελατών; Ποια είναι η τάση στον αριθμό των ικανοποιημένων πελατών στην Πάτρα; Ποιο γραφείο λαμβάνει τα περισσότερα τηλεφωνήματα από θυμωμένους πελάτες; Ποια προϊόντα έχουν τους λιγότερο ικανοποιημένους πελάτες; ( ικανοποιημένος και θυμωμένος είναι αναγνωριζόμενα συναισθήματα). Η πηγή πληροφοριών είναι όπως είπαμε το αρχείο τηλεφωνικών κλήσεων της τράπεζας. Για παράδειγμα: Σχήμα 1.9 Παράδειγμα τηλεφωνικού αρχείου Μέσα από πολλές τέτοιες εγγραφές του αρχείου, μπορούν μέσω του Text Mining να εξαχθούν συγκεντρωτικά αποτελέσματα, δίνοντας βάση στα συναισθήματα των πελατών που εκφράζονται μέσω των τηλεφωνημάτων, κάνοντας χρήση μιας μεθόδου του Text Mining, της ανάλυσης συναισθήματος (sentiment analysis). Για παράδειγμα θα μπορούσε να προκύψει το παρακάτω γράφημα: 17

18 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Αρνητικά τηλεφωνήματα σχετικά με τις καταθέσεις στην τράπεζα Θεσσαλονίκη Πάτρα Αθήνα Προσωποποιημένος ταιριαστής ταινιών Στόχος είναι το ταίριασμα του κάθε ατόμου προσωπικά με ταινίες, βασιζόμενοι στο προφίλ με τις προτιμήσεις. Πηγή πληροφοριών θα είναι οι κριτικές των ταινιών καθώς και οι λίστες των χρηστών με τις αγαπημένες τους ταινίες. Η διαδικασία που μπορεί να ακολουθηθεί είναι η εξής: Σχήμα 1.10 Διαδικασία τυποποίησης ταινιών και θα μπορούσε να οδηγήσει σε ένα γράφημα σαν το παρακάτω: Σχήμα 1.11 Σχηματική απεικόνιση των εξαγόμενων από τις κριτικές συναισθημάτων 18

19 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Παρατηρούμε λοιπόν, πως το Text Mining έχει πολλές (ως ατελείωτες) εφαρμογές, και αποτελεί ένα σημαντικό εργαλείο, προς την ανακάλυψη γνώσης, την εξαγωγή συμπερασμάτων με βάση την πληροφορία που ήδη κατέχουμε αλλά είναι ακατέργαστη και τη λήψη αποφάσεων με βάση τα συμπεράσματα που έχουν εξαχθεί. 19

20 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Κεφάλαιο 2 Ομαδοποίηση δεδομένων Η ομαδοποίηση κειμένου είναι ένα από τα κεντρικά προβλήματα στο Text Mining και το πεδίο της ανάκτησης πληροφορίας. Ο στόχος της ομαδοποίησης κειμένου είναι να τοποθετηθούν σε ομάδες τα παρόμοια έγγραφα. Έχει εφαρμοστεί σε διάφορες εφαρμογές, συμπεριλαμβανομένης της βελτίωσης της αποδοτικότητας ανάκτησης των συστημάτων ανάκτησης πληροφοριών [52], της οργάνωσης των αποτελεσμάτων που επιστράφηκαν από μια μηχανή αναζήτησης ως απάντηση σε ερώτημα (query) του χρήστη [53], της περιήγησης σε μεγάλες συλλογές εγγράφων [54], της παραγωγής της ταξινόμησης των web εγγράφων [55], κ.ά. 2.1 Εισαγωγή στην ομαδοποίηση Η ομαδοποίηση μπορεί να θεωρηθεί το σημαντικότερο ανεπίβλεπτο μαθησιακό πρόβλημα. Έτσι, όπως κάθε άλλο πρόβλημα αυτού του είδους, εξετάζει την εύρεση μιας δομής σε μια συλλογή unlabeled (μη ετικετοποιημένων, μη καταταγμένων) δεδομένων. Ένας χαλαρός ορισμός της ομαδοποίησης θα μπορούσε να είναι η διαδικασία οργάνωσης αντικειμένων σε ομάδες, των οποίων μέλη είναι παρόμοια κατά κάποιο τρόπο. Ένας cluster είναι επομένως μια συλλογή αντικειμένων που είναι όμοια μεταξύ τους και είναι ανόμοια με τα αντικείμενα που ανήκουν σε άλλους clusters. Το παραπάνω μπορεί να παρουσιαστεί με ένα απλό γραφικό παράδειγμα: Σχήμα 2.1 Παράδειγμα ομαδοποίησης Οι στόχοι Έτσι, ο στόχος είναι να καθοριστεί η εγγενής ομαδοποίηση σε ένα σύνολο unlabeled δεδομένων. Αλλά πώς να αποφασιστεί τι αποτελεί μια καλή ομαδοποίηση; Μπορεί να αποδειχθεί ότι δεν υπάρχει κάποιο απόλυτα βέλτιστο κριτήριο που θα 20

21 Κεφάλαιο 2 Ομαδοποίηση δεδομένων ήταν ανεξάρτητο από τον τελικό στόχο της ομαδοποίησης. Συνεπώς, είναι ο χρήστης που πρέπει να παρέχει αυτό το κριτήριο, κατά τέτοιο τρόπο ώστε το αποτέλεσμα της ομαδοποίησης να ανταποκρίνεται στις ανάγκες του. Παραδείγματος χάριν, θα μπορούσαμε να ενδιαφερθούμε για την εύρεση αντιπροσώπων για ομοιογενείς ομάδες (μείωση δεδομένων), για την εύρεση φυσικών clusters και την περιγραφή των άγνωστων ιδιοτήτων τους ( φυσικοί τύποι δεδομένων), για την εύρεση χρήσιμων και κατάλληλων σχηματισμών ομάδας ( χρήσιμες κλάσεις δεδομένων) ή για την εύρεση ασυνήθιστων αντικειμένων δεδομένων (ανίχνευση outliers) Προβλήματα Υπάρχουν διάφορα προβλήματα με τη ομαδοποίηση. Μεταξύ αυτών: οι τρέχουσες τεχνικές ομαδοποίησης δεν αντιμετωπίζουν όλες τις απαιτήσεις επαρκώς (και ταυτόχρονα). η εξέταση μεγάλου αριθμού διαστάσεων και μεγάλου αριθμού δεδομένων μπορεί να είναι προβληματική λόγω της χρονικής πολυπλοκότητας. η αποτελεσματικότητα της μεθόδου εξαρτάται από τον καθορισμό της απόστασης (για την ομαδοποίηση βασισμένη-στην-απόσταση) εάν δεν υπάρχει ένα προφανές μέτρο απόστασης, πρέπει να το ορίσουμε, που δεν είναι πάντα εύκολο, ειδικά στους πολυδιάστατους χώρους. το αποτέλεσμα του αλγορίθμου ομαδοποίησης (ότι σε πολλές περιπτώσεις μπορεί να είναι αυθαίρετο το ίδιο) μπορεί να ερμηνευθεί με διαφορετικούς τρόπους Πιθανές εφαρμογές Οι αλγόριθμοι ομαδοποίησης μπορούν να εφαρμοστούν σε πολλούς τομείς, παραδείγματος χάριν: Μάρκετινγκ: εύρεση ομάδων πελατών με παρόμοια συμπεριφορά, δοθείσης μιας μεγάλης βάσης δεδομένων με δεδομένα πελατών που περιέχουν τις ιδιότητες τους και παρελθόντα αρχεία αγοράς. Βιολογία: ταξινόμηση των φυτών και τα ζώων με βάση τα χαρακτηριστικά γνωρίσματα τους. Βιβλιοθήκες: Ταξινόμηση βιβλίων. Ασφάλεια: προσδιορισμός των ομάδων κατόχων πολιτικών ασφάλειας μηχανοκίνητων οχημάτων με υψηλό μέσο κόστος αξίωσης, προσδιορισμός απατών. Προγραμματισμός πόλης: προσδιορισμός των ομάδων σπιτιών σύμφωνα με τον τύπο σπιτιών, την αξία και τη γεωγραφική θέση τους Μελέτες σεισμού: ομαδοποίηση των παρατηρηθέντων επίκεντρων σεισμού προς προσδιορισμό των επικίνδυνων ζωνών. 21

22 Κεφάλαιο 2 Ομαδοποίηση δεδομένων WWW: ταξινόμηση εγγράφων, ομαδοποίηση των δεδομένων των weblogs προς ανακάλυψη των ομάδων παρόμοιων σχεδίων πρόσβασης Κατηγοριοποίηση μεθόδων Ομαδοποίησης Ένα πλήθος μεθόδων ομαδοποίησης προτείνεται στη βιβλιογραφία. Οι αλγόριθμοι ομαδοποίησης μπορούν να ταξινομηθούν με βάση: Τον τύπο δεδομένων εισόδου του αλγορίθμου. Το κριτήριο ομαδοποίησης που ορίζει την ομοιότητα μεταξύ data points. Π.χ.: o Απόσταση: δύο ή περισσότερα αντικείμενα ανήκουν στον ίδιο cluster εάν είναι κοντά σύμφωνα με μια δεδομένη απόσταση (σε αυτήν την περίπτωση γεωμετρική απόσταση). Αυτό καλείται ομαδοποίηση βασισμένη-στην-απόσταση(distance-based clustering). o Έννοια: δύο ή περισσότερα αντικείμενα ανήκουν στον ίδιο cluster εάν αυτός καθορίζει μια έννοια κοινή για όλα αυτά τα αντικείμενα. Με άλλα λόγια, τα αντικείμενα ομαδοποιούνται σύμφωνα με τη συμφωνία τους με περιγραφικές έννοιες, όχι σύμφωνα με απλά μέτρα ομοιότητας. Αυτό καλείται εννοιολογική ομαδοποίηση(conceptual clustering). Τη θεωρία και τις θεμελιώδεις έννοιες πάνω στις οποίες οι τεχνικές ανάλυσης της ομαδοποίησης είναι βασισμένες (π.χ. ασαφής θεωρία(fuzzy theory), στατιστικές). Κατά συνέπεια σύμφωνα με τη μέθοδο που υιοθετείται για τον ορισμό των clusters, οι αλγόριθμοι μπορούν ευρέως να ταξινομηθούν στους ακόλουθους τύπους [23]: Το Partitional clustering, που προσπαθεί να αποσυνθέσει ευθέως το σύνολο δεδομένων σε ένα σύνολο από ασύνδετους clusters.. Πιο συγκεκριμένα προσπαθεί να καθορίσει έναν ακέραιο αριθμό partitions που βελτιστοποιούν μια ορισμένη συνάρτηση κριτηρίου. Η συνάρτηση κριτηρίου μπορεί να υπογραμμίσει την τοπική ή σφαιρική δομή των δεδομένων και η βελτιστοποίησή της είναι μια επαναληπτική διαδικασία. Την Ιεραρχική ομαδοποίηση (Hierarchical Clustering), που προχωρά διαδοχικά είτε συγχωνεύοντας μικρότερους clusters σε μεγαλύτερους, είτε με το διαχωρισμό των μεγαλύτερων clusters(σχήμα 2.2). Το αποτέλεσμα του αλγορίθμου είναι ένα δέντρο από clusters, που ονομάζεται δενδρόγραμμα (dendrogram), το οποίο επιδεικνύει πώς συσχετίζονται οι clusters. Με την κοπή του δενδρογράμματος σε επιθυμητό επίπεδο, λαμβάνεται μια ομαδοποίηση των δεδομένων σε ασύνδετες ομάδες. Η ιεραρχική ομαδοποίηση σύμφωνα με τη μέθοδο που παράγει τους clusters μπορεί περαιτέρω να διαιρεθεί σε [35]: o Συσσωρευτική ομαδοποίηση (Agglomerative Clustering). Παράγει μια ακολουθία σχημάτων ομαδοποίησης φθίνοντος αριθμού clusters σε κάθε βήμα. Το σχήμα ομαδοποίησης που παράγεται σε κάθε βήμα προκύπτει 22

23 Κεφάλαιο 2 Ομαδοποίηση δεδομένων από το προηγούμενο με τη συγχώνευση των δύο πιο κοντινών clusters σε έναν. o Διαχωριστική ομαδοποίηση(divisive Clustering). Αυτή η ομαδοποίηση παράγει μια ακολουθία σχημάτων ομαδοποίησης αύξοντος αριθμού clusters σε κάθε βήμα. Σε αντίθεση με τους συσσωρευτική ομαδοποίηση, η ομαδοποίηση που παράγεται σε κάθε βήμα προκύπτει από το προηγούμενο με το διαχωρισμό ενός cluster σε δύο. Σχήμα 2.2 Παράδειγμα Συσσωρευτικής και Διαχωριστικής ομαδοποίησης Την Ομαδοποίηση βασισμένη-στην-πυκνότητα (Density-based clustering). Η βασική ιδέα αυτού του τύπου ομαδοποίησης είναι να ομαδοποιηθούν τα γειτονικά αντικείμενα ενός συνόλου δεδομένων σε clusters με βάση συνθήκες πυκνότητας. Την Ομαδοποίηση βασισμένη-στo-πλέγμα (Grid-based clustering). Αυτός ο τύπος αλγορίθμων προτείνεται κυρίως για τη χωρική ανάσυρση δεδομένων. Το κύριο χαρακτηριστικό τους είναι ότι κβαντοποιούν το χώρο σε ένα πεπερασμένο αριθμό κελιών (cells) και έπειτα κάνουν όλες τις διαδικασίες πάνω στο κβαντοποιημένο χώρο. Για κάθε μια από τις ανωτέρω κατηγορίες υπάρχει ένας πλούτος υποκατηγοριών και διαφορετικών αλγορίθμων για την εύρεση των clusters. Κατά συνέπεια, σύμφωνα με τον τύπο μεταβλητών που επιτρέπονται στο σύνολο δεδομένων μπορεί να ταξινομηθούν σε[25,26,27]: Στατιστικούς (Statistical), οι οποίοι είναι βασισμένοι στις έννοιες στατιστικής ανάλυσης. Χρησιμοποιούν τα μέτρα ομοιότητας (similarity measures) για να χωρίσουν τα αντικείμενα και περιορίζονται στα αριθμητικά δεδομένα. Εννοιολογικούς(Conceptual), οι οποίοι χρησιμοποιούνται για να ομαδοποιήσουν τα κατηγορικά δεδομένα. Ομαδοποιούν τα αντικείμενα σύμφωνα με τις έννοιες που φέρουν. 23

24 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Ένα άλλο κριτήριο ταξινόμησης είναι ο τρόπος που χειρίζεται η ομαδοποίηση την αβεβαιότητα, από την άποψη της επικάλυψης των clusters. Ασαφούς ομαδοποίησης (Fuzzy Clustering), που χρησιμοποιεί τεχνικές ασάφειας για να ομαδοποιήσει τα δεδομένα και θεωρεί ότι ένα αντικείμενο μπορεί να είναι ανήκει σε περισσότερους του ενός clusters. Αυτός ο τύπος αλγορίθμων οδηγεί σε σχήματα ομαδοποίησης που είναι συμβατά με την καθημερινή εμπειρία ζωής δεδομένου ότι χειρίζονται την αβεβαιότητα των πραγματικών δεδομένων. Στιβαρής ομαδοποίησης (Crisp Clustering), που ασχολείται με μη επικαλυπτόμενες διαχωρίσεις, που σημαίνει ότι ένα data point είτε ανήκει σε μια κλάση είτε όχι. Οι περισσότεροι από τους αλγορίθμους ομαδοποίησης οδηγούν σε στιβαρούς clusters, και μπορούν έτσι να ταξινομηθούν στη στιβαρή ομαδοποίηση. Ομαδοποίησης δικτύου Kohonen, η οποία είναι βασισμένη στις έννοιες των νευρωνικών δικτύων. Το δίκτυο Kohonen έχει τους κόμβους εισόδου και εξόδου. Το στρώμα εισόδου (κόμβοι εισόδου) έχει έναν κόμβο για κάθε ιδιότητα της εγγραφής, καθένα συνδεόμενο με κάθε κόμβο εξόδου (στρώμα εξόδου). Κάθε σύνδεση συνδέεται με ένα βάρος, το οποίο καθορίζει τη θέση του αντίστοιχου κόμβου εξόδου. Κατά συνέπεια, σύμφωνα με έναν αλγόριθμο, που αλλάζει τα βάρη κατάλληλα, οι κόμβοι εξόδου κινούνται προς το σχηματισμό clusters. Γενικά, οι αλγόριθμοι ομαδοποίησης είναι βασισμένοι σε ένα κριτήριο για την αξιολόγηση της ποιότητας ενός δεδομένου διαχωρισμού. Συγκεκριμένα, παίρνουν ως είσοδο μερικές παραμέτρους (π.χ. αριθμός clusters, πυκνότητα των clusters) και προσπαθούν να ορίσουν τον καλύτερο διαχωρισμό ενός συνόλου δεδομένων για τις δεδομένες παραμέτρους. Κατά συνέπεια, ορίζουν ένα διαχωρισμό ενός συνόλου δεδομένων βασισμένοι σε ορισμένες υποθέσεις και όχι απαραιτήτως τον "καλύτερο" που ταιριάζει στο σύνολο δεδομένων. 2.3 Αλγόριθμοι Ομαδοποίησης Τα τελευταία χρόνια, διάφοροι αλγόριθμοι ομαδοποίησης έχουν προταθεί και είναι διαθέσιμοι στη βιβλιογραφία. Μερικοί αντιπροσωπευτικοί αλγόριθμοι των ανωτέρω κατηγοριών ακολουθούν Partitional algorithms Σε αυτήν την κατηγορία, o K-Means είναι ένας συνήθως χρησιμοποιημένος αλγόριθμος [31]. Ο στόχος της ομαδοποίησης K-Means είναι η βελτιστοποίηση μιας συνάρτησης-κριτηρίου που περιγράφεται από την εξίσωση 24

25 Κεφάλαιο 2 Ομαδοποίηση δεδομένων E = c i= 1 x Ci d( x, m ) i Στην ανωτέρω εξίσωση, το m είναι το κέντρο (centroid) του cluster C, ενώ i d x, m ) είναι η ευκλείδεια απόσταση μεταξύ ενός σημείου x και του. Το ( i κέντρο ενός cluster είναι το μέσο σημείο στον πολυδιάστατο χώρο που ορίζεται από τις διαστάσεις. Υπό μία έννοια είναι το κέντρο βαρύτητας του cluster. Δεν αποτελεί απαραίτητα υπαρκτό σημείο του cluster, μπορεί δηλαδή να είναι νοητό. Κατά συνέπεια, η συνάρτηση-κριτήριο E προσπαθεί να ελαχιστοποιήσει την απόσταση κάθε σημείου από το κέντρο του cluster στην οποία το σημείο ανήκει. Συγκεκριμένα, ο αλγόριθμος αρχίζει με την αρχικοποίηση ενός συνόλου κέντρων clusters c. Κατόπιν, αναθέτει κάθε αντικείμενο του συνόλου δεδομένων στον cluster του οποίου το κέντρο είναι το κοντινότερο, και επαναϋπολογίζει τα κέντρα. Η διαδικασία συνεχίζεται μέχρι τα κέντρα των clusters να σταματήσουν να μεταβάλλονται ή η συνάρτηση κριτηρίου να μεταβληθεί ελάχιστα. Ένας άλλος αλγόριθμος αυτής της κατηγορίας είναι ο PAM[32] (Partitioning Around Medoids). Ο στόχος του PAM είναι να καθοριστεί ένα αντιπροσωπευτικό αντικείμενο (medoid) για κάθε cluster, δηλαδή να βρεθούν τα πιο κεντρικά τοποθετημένα αντικείμενα μέσα στους clusters. Ο αλγόριθμος αρχίζει με την επιλογή ενός αντικειμένου ως medoid για κάθε ένα από τους c clusters. Κατόπιν, κάθε ένα από τα μη-επιλεγμένα αντικείμενα ομαδοποιείται με το medoid με το οποίο είναι πιο παρόμοιο. Ο PAM αντιμεταθέτει τα medoids με άλλα μη-επιλεγμένα αντικείμενα μέχρι όλα τα αντικείμενα να είναι κατάλληλα για medoids. Είναι σαφές ότι PAM είναι ένας ακριβός αλγόριθμος όσον αφορά στην εύρεση των medoids, δεδομένου ότι συγκρίνει ένα αντικείμενο με ολόκληρο το σύνολο δεδομένων. Ο CLARA[32] (Clustering Large Applications), είναι μια υλοποίηση του PAM σε ένα υποσύνολο του συνόλου δεδομένων. Εξάγει πολλαπλά δείγματα από το σύνολο δεδομένων, εφαρμόζει τον PAM στα δείγματα, και έπειτα εξάγει ως αποτελέσματα την καλύτερη ομαδοποίηση αυτών των δειγμάτων. Ο CLARANS[33] (Clustering Large Applications based on Randomizes Search), συνδυάζει τις τεχνικές δειγματοληψίας με τον PAM. Η διαδικασία ομαδοποίησης μπορεί να παρουσιαστεί ως η αναζήτηση ενός γράφου, όπου κάθε κόμβος είναι μια πιθανή λύση, δηλαδή ένα σύνολο από K medoids. Η ομαδοποίηση που λαμβάνεται μετά από την αντικατάσταση ενός medoid ονομάζεται γείτονας της τρέχουσας ομαδοποίησης. Ο CLARANS επιλέγει έναν κόμβο και τον συγκρίνει με έναν ορισμένο από το χρήστη αριθμό γειτόνων του ψάχνοντας για ένα τοπικό ελάχιστο. Εάν βρεθεί ένας καλύτερος γείτονας (δηλ., έχει πιο χαμηλό-τετραγωνικό λάθος), ο CLARANS κινείται προς τον κόμβο του γείτονα και η διαδικασία ξεκινά πάλι, διαφορετικά η τρέχουσα ομαδοποίηση είναι ένα τοπικό βέλτιστο. Εάν βρεθεί το τοπικό βέλτιστο, ο CLARANS αρχίζει με έναν νέο τυχαία επιλεγμένο κόμβο την αναζήτηση ενός νέου τοπικού βέλτιστου. i m i 25

26 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Τέλος, οι Κ - protoypes, Κ-mode[26] είναι βασισμένοι στον αλγόριθμο Κ -Means, αλλά στοχεύουν στη ομαδοποίηση των κατηγορικών δεδομένων Ιεραρχικοί αλγόριθμοι (Hierarchical Algorithms) Μερικοί αντιπροσωπευτικοί ιεραρχικοί αλγόριθμοι ομαδοποίησης είναι οι παρακάτω: Ο BIRCH [28] χρησιμοποιεί μια ιεραρχική δομή δεδομένων που ονομάζεται CFtree για το διαχωρισμό των εισερχόμενων data points με έναν επαυξητικό και δυναμικό τρόπο. Το CF-tree είναι ένα height-balanced δέντρο, το οποίο αποθηκεύει τα χαρακτηριστικά ομαδοποίησης και είναι βασισμένο σε δύο παραμέτρους: στον παράγοντα διακλάδωσης Β και το κατώτατο όριο(threshold) Τ, που είναι σχετιζόμενες με τη διάμετρο ενός cluster (Η διάμετρος (ή ακτίνα) κάθε cluster πρέπει να είναι μικρότερη από το Τ). Ο BIRCH μπορεί τυπικά να βρει μια καλή ομαδοποίηση με ένα μοναδικό πέρασμα των δεδομένων και να βελτιώσει την ποιότητα περαιτέρω με μερικά πρόσθετα περάσματα. Είναι επίσης ο πρώτος αλγόριθμος ομαδοποίησης που μπορεί να χειριστεί το θόρυβο αποτελεσματικά [28]. Εντούτοις, δεν αντιστοιχεί πάντα σε ένα φυσικό cluster, δεδομένου ότι κάθε κόμβος στο CF-tree μπορεί να κρατήσει έναν περιορισμένο αριθμό καταχωρήσεων λόγω του μεγέθους του. Επιπλέον, είναι ευαίσθητος-στη-διάταξη δεδομένου ότι μπορεί να παράγει διαφορετικούς clusters για τις διαφορετικές διατάξεις των ίδιων δεδομένων εισόδου. Ο CURE [24] απεικονίζει κάθε cluster με ένα συγκεκριμένο αριθμό σημείων που παράγονται με την επιλογή καλά-διεσπαρμένων σημείων και έπειτα το στένεμα τους προς το centroid του cluster κατά ένα προσδιορισμένο κλάσμα. Χρησιμοποιεί έναν συνδυασμό τυχαίας δειγματοληψίας και ομαδοποίησης διαχωρισμάτων για να χειριστεί μεγάλες βάσεις δεδομένων. Ο ROCK [25], είναι ένας στιβαρός αλγόριθμος ομαδοποίησης για Boolean και κατηγορικά δεδομένα. Εισάγει δύο νέες έννοιες, οι οποίες είναι γείτονες και συνδέσεις ενός σημείου, και είναι βασισμένο σε αυτές προκειμένου να μετρηθούν η ομοιότητα/εγγύτητα μεταξύ ενός ζευγαριού data points Αλγόριθμοι βασισμένοι-στην-πυκνότητα (Density-based algorithms) Οι βασισμένοι στην πυκνότητα αλγόριθμοι τυπικά θεωρούν τους clusters ως πυκνές περιοχές αντικειμένων στο χώρο δεδομένων που χωρίζονται από περιοχές χαμηλής πυκνότητας. Ένας ευρέως γνωστός αλγόριθμος αυτής της κατηγορίας είναι ο DBSCAN [29]. Η βασική ιδέα στον DBSCAN είναι ότι για κάθε σημείο σε ένα cluster, η γειτονιά μιας δεδομένης ακτίνας πρέπει να περιέχει τουλάχιστον έναν ελάχιστο αριθμό σημείων. Ο DBSCAN μπορεί να χειριστεί το θόρυβο (outliers) και να ανακαλύψει clusters αυθαίρετης μορφής. Επιπλέον, ο DBSCAN χρησιμοποιείται ως βάση για έναν επαυξητικό αλγόριθμο ομαδοποίησης που προτείνεται στο [29]. Λόγω της βασισμένης-στη-πυκνότητα φύσης του, η εισαγωγή ή η διαγραφή ενός αντικειμένου 26

27 Κεφάλαιο 2 Ομαδοποίηση δεδομένων έχει επιπτώσεις στην τρέχουσα ομαδοποίηση μόνο στη γειτονιά του αντικειμένου και έτσι μπορούν να δοθούν αποδοτικοί αλγόριθμοι βασισμένοι στον DBSCAN για επαυξητικές εισαγωγές και διαγραφές σε μια υπάρχουσα ομαδοποίηση [30]. Στο [35] προτείνεται ένας άλλος αλγόριθμος ομαδοποίησης βασισμένος-στηνπυκνότητα, ο DENCLUE. Αυτός ο αλγόριθμος εισάγει μια νέα προσέγγιση στην ομαδοποίηση μεγάλων βάσεων δεδομένων πολυμέσων. Η βασική ιδέα αυτής της προσέγγισης είναι να μοντελοποιηθεί η ολική πυκνότητα σημείου αναλυτικά ως το άθροισμα των συναρτήσεων επιρροής των data points. Η συνάρτηση επιρροής μπορεί να θεωρηθεί ως μια συνάρτηση, η οποία περιγράφει τον αντίκτυπο ενός data point μέσα στη γειτονιά του. Κατόπιν οι clusters μπορούν να αναγνωριστούν με τον καθορισμό attractors πυκνότητας. Οι attractors πυκνότητας είναι τοπικό μέγιστο της ολικής συνάρτησης πυκνότητας. Επιπλέον, οι clusters αυθαίρετης μορφής μπορούν να περιγραφούν εύκολα από μια απλή εξίσωση βασισμένη στη ολική συνάρτηση πυκνότητας. Τα κύρια πλεονεκτήματα του DENCLUE είναι το ότι έχει καλές ιδιότητες ομαδοποίησης σε σύνολα δεδομένων με μεγάλα ποσά θορύβου και επιτρέπει μια συμπαγή από μαθηματική άποψη περιγραφή των αυθαίρετης μορφής clusters μέσα σε πολυδιάστατα σύνολα δεδομένων. Εντούτοις, η ομαδοποίηση του DENCLUE είναι βασισμένη σε δύο παραμέτρους και όπως στις περισσότερες άλλες προσεγγίσεις η ποιότητα της τελικής ομαδοποίησης εξαρτάται από την επιλογή τους. Αυτές οι παράμετροι είναι : i. Η παράμετρος σ που καθορίζει την επιρροή ενός data point στη γειτονιά του καθώς συμμετέχει στη συνάρτηση επιρροής και ii. το ξ που περιγράφει εάν ένας attractor πυκνότητας είναι σημαντικός, επιτρέποντας μια μείωση του αριθμού των attractors-πυκνότητας και βοηθώντας να βελτιωθεί η απόδοση, καθώς attractors πυκνότητας με τιμή μικρότερη του ξ αγνοούνται από τον αλγόριθμο Αλγόριθμοι βασισμένοι-στo-πλέγμα (Grid-based Algorithms) Πρόσφατα διάφοροι αλγόριθμοι ομαδοποίησης έχουν παρουσιαστεί για τα χωρικά δεδομένα (spatial data), γνωστοί ως αλγόριθμοι βασισμένοι-στo-πλέγμα (Grid-based algorithms). Αυτοί οι αλγόριθμοι κβαντοποιούν το χώρο σε ένα πεπερασμένο αριθμό κελιών (cells) και έπειτα κάνουν όλες τις διαδικασίες πάνω στο κβαντοποιημένο χώρο. O STING[36] (Statistical Information Grid-based method) είναι αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας. Διαιρεί τη χωρική περιοχή σε ορθογώνια κελιά χρησιμοποιώντας μια ιεραρχική δομή. O STING σαρώνει το σύνολο δεδομένων και υπολογίζει τις στατιστικές παραμέτρους (όπως ο μέσος όρος, η απόκλιση, ελάχιστο, μέγιστο και τύπος διασποράς) του κάθε αριθμητικού χαρακτηριστικού των αντικειμένων μέσα στα κελιά. Κατόπιν παράγει μια ιεραρχική δομή των κελιών πλέγματος ώστε να απεικονίσει τις πληροφορίες ομαδοποίησης σε διαφορετικά επίπεδα. Με βάση αυτήν την δομή ο STING επιτρέπει τη χρήση των 27

28 Κεφάλαιο 2 Ομαδοποίηση δεδομένων πληροφοριών της ομαδοποίησης για αναζήτηση μέσω queries ή την αποδοτική ανάθεση ενός νέου αντικειμένου στους clusters. Ο WaveCluster [37] είναι ο πιο πρόσφατος βασισμένος-στo-πλέγμα αλγόριθμος που προτείνεται στη βιβλιογραφία. Χρησιμοποιεί τεχνικές επεξεργασίας σήματος (μετασχηματισμός wavelets) για τη μεταφορά των χωρικών δεδομένων στο πεδίο των συχνοτήτων. Πιο συγκεκριμένα, πρώτα συμπτύσσει τα δεδομένα με την επιβολή μιας πολυδιάστατης δομής πλέγματος επάνω στο χώρο δεδομένων [38]. Κάθε κελί πλέγματος συμπτύσσει τις πληροφορίες της ομάδας σημείων που βρίσκονται σε αυτό. Κατόπιν χρησιμοποιεί έναν μετασχηματισμό wavelet για να μετασχηματίσει τον αρχικό χώρο χαρακτηριστικών. Στο μετασχηματισμό wavelet, η συνέλιξη με μια κατάλληλη συνάρτηση οδηγεί σε ένα μετασχηματισμένο χώρο όπου γίνονται διακριτοί οι φυσικοί clusters των δεδομένων. Κατά συνέπεια, μπορούμε να προσδιορίσουμε τους clusters μέσω της εύρεσης των πυκνών περιοχών στο μετασχηματισμένο πεδίο. Δεν απαιτείται η a-priori γνώση του ακριβή αριθμού των clusters στον WaveCluster Ασαφής ομαδοποίηση (Fuzzy Clustering) Οι αλγόριθμοι που περιγράφονται παραπάνω έχουν ως αποτέλεσμα στιβαρούς (crisp) clusters, που σημαίνει ότι ένα data point είτε ανήκει σε ένα cluster είτε όχι. Οι clusters είναι μη-επικαλυπτόμενοι και αυτό το είδος διαχωρισμού καλείται περαιτέρω στιβαρή ομαδοποίηση. Το ζήτημα της υποστήριξης της αβεβαιότητας στη ομαδοποίηση, οδηγεί στην εισαγωγή αλγορίθμων που χρησιμοποιούν έννοιες ασαφούς λογικής στη διαδικασία τους. Ένας κοινός ασαφής αλγόριθμος ομαδοποίησης είναι ο Fuzzy C-Means[39] (FCM), μια επέκταση του κλασσικού αλγορίθμου C-Means για τις ασαφείς εφαρμογές. Ο FCM προσπαθεί να βρει το χαρακτηριστικότερο σημείο σε κάθε cluster, που μπορεί να θεωρηθεί ως "κέντρο" του cluster και, έπειτα, το βαθμό συμμετοχής του κάθε αντικειμένου στους clusters. Μια άλλη προσέγγιση που προτείνεται στη βιβλιογραφία για να λύσει τα προβλήματα της στιβαρής ομαδοποίησης είναι βασισμένη στα πιθανολογικά μοντέλα (probalistic models). Η βάση αυτού του τύπου αλγορίθμων ομαδοποίησης είναι ο αλγόριθμος EM [40] (Expectation Maximization), ο οποίος παρέχει μια αρκετά γενική προσέγγιση στην εκμάθηση με παρουσία μη-παρατηρήσιμων (unobservable) μεταβλητών. Ένας κοινός αλγόριθμος είναι η πιθανολογική παραλλαγή του K-Means(fuzzy c- means), o οποίος είναι βασισμένος σε μίγμα γκαουσσιανών κατανομών. Αυτή η προσέγγιση του K-Means χρησιμοποιεί την πυκνότητα πιθανότητας παρά την απόσταση για να συσχετίσει τις εγγραφές με τους clusters [41]. Πιο συγκεκριμένα, θεωρεί τα κέντρα των clusters ως μέσα των γκαουσσιανών κατανομών. Κατόπιν, υπολογίζει την πιθανότητα ένα data point να παράγεται από τη j-οστή γκαουσσιανή (δηλ., ανήκει στον j-οστό cluster). Αυτή η προσέγγιση βασίζεται στο γκαουσσιανό πρότυπο για να εξάγει τους clusters και αναθέτει τα data points στους clusters υποθέτοντας ότι παράγονται από την κανονική κατανομή. Επίσης, αυτή η προσέγγιση 28

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Η ταξινόμηση εικόνας αναφέρεται στην ερμηνεία με χρήση υπολογιστή των τηλεπισκοπικών εικόνων. Παρόλο που ορισμένες διαδικασίες έχουν τη δυνατότητα να συμπεριλάβουν πληροφορίες

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Ανίχνευση συστάδων µε τον αλγόριθµο STING για εφαρµογές spatial data mining από συστήµατα χωρικών δεδοµένων

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Ανίχνευση συστάδων µε τον αλγόριθµο STING για εφαρµογές spatial data mining από συστήµατα χωρικών δεδοµένων ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ανίχνευση συστάδων µε τον αλγόριθµο STING για εφαρµογές spatial data mining από

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές Λαμπαδαρίδης Αντώνιος el04148@mail.ntua.gr Διπλωματική εργασία στο Εργαστήριο Συστημάτων Βάσεων Γνώσεων και Δεδομένων Επιβλέπων: Καθηγητής Τ. Σελλής Περίληψη

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) Θεοχαράτος Χρήστος Εργαστήριο Ηλεκτρονικής (ELLAB), Τµήµα Φυσικής, Πανεπιστήµιο Πατρών email: htheohar@upatras.gr http://www.ellab.physics.upatras.gr/users/theoharatos/default.htm

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Βάσεις Δεδομένων Ενότητα 1

Βάσεις Δεδομένων Ενότητα 1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 1: Εισαγωγή στις Ιωάννης Μανωλόπουλος, Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο

Βάσεις Δεδομένων. Εισαγωγή Ανάλυση Απαιτήσεων. Φροντιστήριο 1 ο Βάσεις Δεδομένων Εισαγωγή Ανάλυση Απαιτήσεων Φροντιστήριο 1 ο 16-10-2008 Εισαγωγή - Ορισμοί Βάση Δεδομένων είναι μία συλλογή από σχετιζόμενα αντικείμενα Ένα σύστημα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ)

Διαβάστε περισσότερα

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme Επιλογή δείγματος Κατερίνα Δημάκη Αν. Καθηγήτρια Τμήμα Στατιστικής Οικονομικό Πανεπιστήμιο Αθηνών 1 Τρόποι Συλλογής Δεδομένων Απογραφική

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ» ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ» Κωνσταντίνος Π. Φερεντίνος Διδάσκων ΠΔ 407/80 Οι σημειώσεις αυτές αναπτύχθηκαν στα πλαίσια του προγράμματος «ΕΠΕΑΕΚ 2 Πρόγραμμα Αναβάθμισης

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Εκπαιδευτικό Εργαλείο Κανονικοποίησης

Εκπαιδευτικό Εργαλείο Κανονικοποίησης Εκπαιδευτικό Εργαλείο Κανονικοποίησης Σύντομες οδηγίες χρήσης Εισαγωγή Το πρόγραμμα Εκπαιδευτικό Εργαλείο Κανονικοποίησης αυτοματοποιεί τη διαδικασία της κανονικοποίησης πινάκων σε BCNF μορφή. Ο χρήστης

Διαβάστε περισσότερα

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων YouTube Ιδρύθηκε το 2005 Στόχος του ήταν να δημιουργήσει μία παγκόσμια κοινότητα Βάση δεδομένων βίντεο Μέσα σε ένα χρόνο από τη δημιουργία

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Ανάλυση ποιοτικών δεδομένων

Ανάλυση ποιοτικών δεδομένων Ανάλυση ποιοτικών δεδομένων Σύνοψη κεφαλαίου Σύνδεση θεωρίας και ανάλυσης Επεξεργασία ποιοτικών δεδομένων Δεοντολογία και ανάλυση ποιοτικών δεδομένων Αξιολογώντας την ποιότητα των ποιοτικών ερευνών Εισαγωγή

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού Πληροφοριακά Συστήματα Διοίκησης Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού Σημασία μοντέλου Το μοντέλο δημιουργεί μια λογική δομή μέσω της οποίας αποκτούμε μια χρήσιμη άποψη

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

Τίτλος Πακέτου Certified Computer Expert-ACTA

Τίτλος Πακέτου Certified Computer Expert-ACTA Κωδικός Πακέτου ACTA - CCE - 002 Τίτλος Πακέτου Certified Computer Expert-ACTA Εκπαιδευτικές Ενότητες Επεξεργασία Κειμένου - Word Δημιουργία Εγγράφου Προχωρημένες τεχνικές επεξεργασίας κειμένου & αρχείων

Διαβάστε περισσότερα

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα

Διαβάστε περισσότερα

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Γαροφαλάκης Ιωάννης Πολυτεχνική Σχολή Τμήμα Μηχ/κών Η/Υ & Πληροφορικής Περιεχόμενα ενότητας Εισαγωγή Συλλογή

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι: Χωρική Ανάλυση Ο σκοπός χρήσης των ΣΓΠ δεν είναι μόνο η δημιουργία μίας Β.Δ. για ψηφιακές αναπαραστάσεις των φαινομένων του χώρου, αλλά κυρίως, η βοήθειά του προς την κατεύθυνση της υπόδειξης τρόπων διαχείρισής

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η Μονοδιάστατοι Πίνακες Τι είναι ο πίνακας γενικά : Πίνακας είναι μια Στατική Δομή Δεδομένων. Δηλαδή συνεχόμενες θέσεις μνήμης, όπου το πλήθος των θέσεων είναι συγκεκριμένο. Στις θέσεις αυτές καταχωρούμε

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος

Διαβάστε περισσότερα

Βασικά ζητήματα μιας βάσης δεδομένων

Βασικά ζητήματα μιας βάσης δεδομένων Τριαντάφυλλος Πριμηκύρης* Βασικά ζητήματα μιας βάσης δεδομένων Τι είναι μια βάση δεδομένων; Ας ξεκινήσουμε με κάτι πολύ απλό! Όλοι έχετε έναν τηλεφωνικό κατάλογο. Ο κατάλογος αυτός είναι μια χειροκίνητη

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης http://www.it.teithe.gr/~demos

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης http://www.it.teithe.gr/~demos Γλώσσες & Τεχνικές 4 ο Εξάμηνο - Ενότητα 1 - Εισαγωγή στην Τεχνητή Νοημοσύνη Δημοσθένης Σταμάτης http://www.it.teithe.gr/~demos Τμήμα Πληροφορικής A.T.E.I. ΘΕΣΣΑΛΟΝΙΚΗΣ Rethinking University Teaching!!!

Διαβάστε περισσότερα

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ ΕΘΝΙΚΟΝ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟΝ ΠΑΝΕΠΙΣΤΗΜΙΟΝ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ 2008-2013 ΠΑΡΑΡΤΗΜΑ ΧΙ ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ

Διαβάστε περισσότερα

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 1 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Γιώργος Δημητρίου Μάθημα 1 ο Γλώσσα - Μετάφραση Γλώσσα προγραμματισμού = Αναπαράσταση αλγορίθμων Ευκολία χρήσης Ακρίβεια και πληρότητα περιγραφής, όχι διφορούμενη! Μία περιγραφή για όλες τις μηχανές Μετάφραση

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων - Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a)

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ασκήσεις και ερωτήσεις 1) Ερωτήσεις Σωστού/Λάθους (ΣΛ) Το πακέτο λογισμικού Excel της Microsoft είναι λογισμικό διαχείρισης ΒΔ (ΣΛ) Το πακέτο λογισμικού Access της Microsoft είναι λογισμικό

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο. Πίνακες. Επικοινωνία:

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο. Πίνακες. Επικοινωνία: Πίνακες Επικοινωνία: spzygouris@gmail.com Να δοθεί ο ορισμός του όρου «δεδομένα». Δεδομένα αποτελούν οποιαδήποτε στοιχεία μπορούν να εξαχθούν από τη διατύπωση του προβλήματος και η επιλογή τους εξαρτάται

Διαβάστε περισσότερα

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων...

Περιεχόμενα. Ανάλυση προβλήματος. Δομή ακολουθίας. Δομή επιλογής. Δομή επανάληψης. Απαντήσεις. 1. Η έννοια πρόβλημα Επίλυση προβλημάτων... Περιεχόμενα Ανάλυση προβλήματος 1. Η έννοια πρόβλημα...13 2. Επίλυση προβλημάτων...17 Δομή ακολουθίας 3. Βασικές έννοιες αλγορίθμων...27 4. Εισαγωγή στην ψευδογλώσσα...31 5. Οι πρώτοι μου αλγόριθμοι...54

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2 Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2 1. Ο αλγόριθμος είναι απαραίτητος μόνο για την επίλυση προβλημάτων Πληροφορικής 2. Ο αλγόριθμος αποτελείται από ένα πεπερασμένο σύνολο εντολών 3. Ο αλγόριθμος

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 3 η ΠΑΡΟΥΣΙΑΣΗ Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου Συλλογή δεδομένων Πρωτογενή δεδομένα Εργαστηριακές μετρήσεις Παρατήρηση Παρατήρηση με συμμετοχή,

Διαβάστε περισσότερα