«Ομαδοποίηση δεδομένων Κοινωνικού Ιστού»
|
|
- Ελένη Καρράς
- 7 χρόνια πριν
- Προβολές:
Transcript
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΓΙΑΝΝΑΚΙΔΟΥ ΕΙΡΗΝΗ (Α.Μ. 49) «Ομαδοποίηση δεδομένων Κοινωνικού Ιστού» Επιβλ. Καθηγήτρια Αθηνά Βακάλη Θεσσαλονίκη Ιούλιος
2 2
3 Πίνακας Περιεχομένων Περίληψη... 5 Εισαγωγή Αντικείμενο διπλωματικής Σενάρια χρήσης...9 Ομαδοποίηση δεδομένων Πρακτικές & Αλγόριθμοι Γενικά Εισαγωγή Σημειογραφία Τύποι Δεδομένων στην Ανάλυση Ομάδων και Συναρτήσεις Απόστασης Συνεχείς Αριθμητικές Τιμές Δυαδικές Τιμές Κατηγορικές Τιμές Τιμές κατάταξης Κατηγοριοποίηση Πρακτικών Ομαδοποίησης Ιεραρχική Ομαδοποίηση Αλγόριθμος BIRCH Αλγόριθμος CURE Αλγόριθμος Chameleon Αλγόριθμος COBWEB Ομαδοποίηση με τμηματοποίηση Πιθανοκρατική Ομαδοποίηση Ομαδοποίηση k-μεσαίων Ομαδοποίηση k-μέσων (k-means) Ομαδοποίηση με βάση την πυκνότητα Αλγόριθμος DBSCAN Αλγόριθμος OPTICS Αλγόριθμος DENCLUE Συνεύρεση κατηγορικών δεδομένων Αλγόριθμος ROCK Αλγόριθμος SNN Αλγόριθμος CACTUS Άλλες Τεχνικές Ομαδοποίησης Ομαδοποίηση με βάση περιορισμούς Εξελικτικές Μέθοδοι Γενικά Αλγοριθμικά θέματα Επεκτασιμότητα σε μεγάλα σύνολα δεδομένων Δεδομένα με μεγάλο αριθμό διαστάσεων Εκτίμηση αποτελεσμάτων Αριθμός ομάδων Προ-επεξεργασία δεδομένων Μετρικές απόστασης Χειρισμός οριακών τιμών...56 Web 2.0 Κοινωνικά Δεδομένα Γενικά - Εισαγωγή Κοινωνικός Ιστός Πλατφόρμα Ανάπτυξης Ρόλος Χρηστών Χειρισμός Δεδομένων
4 3.1.4 Εφαρμογές Μοντέλα Προγραμματισμού Διεπαφή με τους χρήστες Συμβατές Συσκευές Συστήματα Συλλογικής Κοινωνικής Σήμανσης Τυπικό Μοντέλο Κατηγοριοποίηση ΣΣΚΣ Κατηγοριοποίηση ετικετών Δυναμική ΣΣΚΣ Προβληματισμοί και προτεινόμενες λύσεις Το σύστημα Flickr Σχέσεις μεταξύ οντοτήτων του Flickr Προγραμματιστική Διεπαφή Flickr...82 Ομαδοποίηση μεταδεδομένων Flickr Γενικά Εισαγωγή Αρχιτεκτονική Συστήματος Crawler Επιλογέας χαρακτηριστικών Μονάδα Μέτρησης Ομοιότητας μεταξύ ετικετών Υπολογισμός Σημασιολογικής Ομοιότητας Το WordΝet WordNet.NET Αποσαφήνιση Εννοιών Σημασιολογική ομοιότητα μεταξύ δύο εννοιών Σημασιολογική ομοιότητα μεταξύ προτάσεων Υπολογισμός Κοινωνικής Ομοιότητας Αλγόριθμοι Ομαδοποίησης Έξοδος Συστήματος Πειραματικά Αποτελέσματα Γενικά Εισαγωγή Σύνολο Δεδομένων Προγραμματιστικά Εργαλεία Ανάλυση αποτελεσμάτων Παραλλαγές αλγορίθμων ομαδοποίησης Αλγόριθμος k-μέσων Ιεραρχικός Αλγόριθμος ομαδοποίησης Αλγόριθμος COBWEB Γενική Εκτίμηση - Σύγκριση αλγορίθμων Επιλογή χαρακτηριστικών στην ομαδοποίηση Παράγοντας w στην ομαδοποίηση Επίλογος Γενικά Συμπεράσματα Μελλοντικές Κατευθύνσεις Βιβλιογραφία
5 Περίληψη Την τελευταία διετία το ενδιαφέρον μεγάλης μερίδας των χρηστών του διαδικτύου έ- χουν προσελκύσει τα Συστήματα Συλλογικής Κοινωνικής Σήμανσης (π.χ. Flickr, del.icio.us). Τα συστήματα αυτά παρέχουν στο χρήστη τη δυνατότητα να ανεβάζει και να περιγράφει πόρους στο διαδίκτυο, χρησιμοποιώντας ετικέτες που επιλέγει ο ίδιος. Ταυτόχρονα επιτρέπουν στον καθένα να έχει πρόσβαση, τόσο στο περιεχόμενο, όσο και στα μεταδεδομένα άλλων χρηστών. Ο βασικός λόγος για την τεράστια επιτυχία τους είναι ότι δε χρειάζονται εξειδικευμένες γνώσεις για να συμμετέχει κάποιος στην περιγραφή του περιεχομένου και το αποτέλεσμα αυτής της συλλογικής σήμανσης έχει όφελος για όλους τους χρήστες (π.χ. γρήγορη, μόνιμη οργάνωση του περιεχομένου), χωρίς να έχει μεγάλο κόστος. Πράγματι, πολύ μεγάλος αριθμός χρηστών δημιούργησαν, ήδη, χρήσιμη πληροφορία εξαιρετικά σημαντικού μεγέθους σε πολύ μικρό διάστημα. Ωστόσο, η πληροφορία αυτή δε μπορεί να αξιοποιηθεί στο έπακρό της, καθώς δεν έχει δομή. Οι ετικέτες ανήκουν σε ένα επίπεδο (έλλειψη ιεραρχίας), χωρίς σχέσεις μεταξύ τους και αυτό μειώνει την ικανότητα ανάκτησης περιεχομένου από ένα τέτοιο σύστημα. Μία προσέγγιση για την εξόρυξη της πληροφορίας ενός Συστήματος Συλλογικής Κοινωνικής Σήμανσης, εξαλείφοντας ταυτόχρονα τα εγγενή μειονεκτήματά του, είναι η ομαδοποίηση των δεδομένων του και η αξιοποίηση των σχέσεων και της σημασιολογίας που εξάγονται για την κάθε ομάδα δεδομένων (emergent semantics). Στην παρούσα διπλωματική εργασία υλοποιείται η ομαδοποίηση των κοινωνικών δεδομένων που προέρχονται από ένα Σύστημα Συλλογικής Κοινωνικής Σήμανσης. Συγκεκριμένα, χρησιμοποιείται το Flickr και τα κοινωνικά δεδομένα, που θέλουμε να μελετήσουμε και στα οποία θα εφαρμόσουμε την ομαδοποίηση είναι οι εικόνες και οι ετικέτες των χρηστών σε αυτές. Οι ομάδες των εικόνων θα προκύπτουν με βάση την ομοιότητα των ετικετών τους. Κάθε ομάδα δεδομένων, που σχηματίζεται, θα προέρχεται από κάποιο πεδίο και θα αντιστοιχεί σε ένα συγκεκριμένο θέμα. Ο στόχος είναι η ανεύρεση κρυφών θεμάτων (hidden topics), που θα προκύπτουν από την κατηγοριοποίηση και η ανίχνευση των όρων-εννοιών που χρησιμοποιούν οι χρήστες, για να περιγράψουν τα συγκεκριμένα πεδία. Η διάρθρωση της εργασίας είναι η ακόλουθη: Στο πρώτο κεφάλαιο γίνεται μία σύντομη εισαγωγή στο πρόβλημα και παρουσιάζονται ιδέες για τον περιορισμό του. Περιγράφεται συνοπτικά το σύστημα που υλοποιήθηκε στη συγκεκριμένη εργασία και ακολουθούν κάποια σενάρια χρήσης αυτού. Στο δεύτερο κεφάλαιο γίνεται μία εκτενής ανάλυση των πρακτικών ομαδοποίησης που χρησιμοποιούνται για διάφορους τύπους δεδομένων και αναφέρονται μέθοδοι, για να αντιμετωπιστούν δύσκολες καταστάσεις, όπως μεγάλα σύνολα δεδομένων, δεδομένα με θόρυβο, κ.α. Στο τρίτο κεφάλαιο, αρχικά, γίνεται μία εισαγωγή στον Κοινωνικό Ιστό, που αποτελεί ένα γενικότερο πλαίσιο τεχνολογιών, στις οποίες ανήκουν και τα Συστήματα Συλλογικής Κοινωνικής Σήμανσης. Ακολουθεί μία αναλυτική περιγραφή της δομής και των 5
6 δυναμικών των εν λόγω συστημάτων και καταλήγει με την παρουσίαση του Flickr, καθώς αυτό είναι το σύστημα που θα μας απασχολήσει στην παρούσα εργασία. Στο τέταρτο κεφάλαιο παρουσιάζεται αναλυτικά το σύστημα που υλοποιήθηκε στη συγκεκριμένη εργασία, η αρχιτεκτονική του και οι επί μέρους συνιστώσες του. Στο πέμπτο κεφάλαιο δίνονται τα πειραματικά αποτελέσματα και γίνεται μία ανάλυση αυτών. Τέλος, στο έκτο κεφάλαιο παραθέτονται τελικά συμπεράσματα και ιδέες για μελλοντική έρευνα. 6
7 Κεφάλαιο 1 Εισαγωγή 1.1 Αντικείμενο διπλωματικής Όπως ο κόσμος αλλάζει διαρκώς, κατά τον ίδιο τρόπο θα πρέπει η γνώση που τον απεικονίζει να εξελίσσεται ασταμάτητα, ώστε να αναπαριστά πιστά τις πληροφορίες, στις οποίες αναφέρεται. Στην εποχή μας, η τεχνολογία, και συγκεκριμένα ο Παγκόσμιος Ι- στός αποτελεί, πλέον, τον κύριο φορέα γνώσης και μετάδοσης πληροφοριών και είναι σαφές ότι δεν πρέπει να απομονώνεται από το κοινωνικό πλαίσιο μέσα στο οποίο διαμορφώνονται και εξελίσσονται οι εκάστοτε πληροφορίες. Τα τελευταία χρόνια γίνεται μια προσπάθεια επέκτασης του Παγκόσμιου Ιστού στο λεγόμενο Σημασιολογικό Ιστό (Semantic Web). Στο Σημασιολογικό Ιστό οι πληροφορίες που βρίσκονται αποθηκευμένες σε ιστοσελίδες, σε βάσεις δεδομένων, σε αρχεία καθορισμού του προφίλ χρηστών, και άλλα δομούνται με τέτοιο τρόπο, ώστε να είναι κατανοητές από τις διαδικασίες αυτού, όπως είναι οι μηχανές αναζήτησης, ανάκτησης και επεξεργασίας πληροφορίας. Με αυτόν τον τρόπο επιτυγχάνονται υψηλά επίπεδα αυτοματοποίησης, αλλά και η ποιότητα των αποτελεσμάτων που επιστρέφονται στο χρήστη είναι η βέλτιστη δυνατή. Για την επίτευξη αυτού του στόχου, η πληροφορία θα πρέπει να διαθέτει αυστηρά καθορισμένη (τυπική) σημασιολογία. Η αρχιτεκτονική που έχει προταθεί είναι αυτή των οντολογιών. Οι οντολογίες κατασκευάζονται από ανθρώπους ειδικούς, πάνω στον τομέα της γνώσης που αναπαριστάται σε αυτές. Οι συνεχείς μεταβολές της κοινωνίας όμως μπορούν πολύ σύντομα να καταστήσουν άκυρη την κωδικοποιημένη γνώση μιας οντολογίας. Αυτή τη μεταβαλλόμενη διάσταση της πληροφορίας προσπαθεί να αποδώσει ένας, σχετικά, νέος τρόπος αναπαράστασης γνώσης, η αναδυόμενη σημασιολογία (emergent semantics). Με τον όρο αναδυόμενη σημασιολογία εννοούμε τη σημασιολογία που προκύπτει από τις αλληλεπιδράσεις ενός μεγάλου αριθμού ανθρώπων ή/και πρακτόρων, που αποτελούν μέλη μιας κοινωνίας. Με αυτόν τον τρόπο, η γνώση θα αναδύεται μέσα από το σύστημα, μέσω των αλληλεπιδράσεων όλων των μελών του και δε θα είναι ένα καθορισμένο τεχνητό δημιούργημα μιας συγκεκριμένης ομάδας ανθρώπων. 7
8 Τα Συστήματα Συλλογικής / Κοινωνικής Σήμανσης, ΣΣΚΣ (social tagging systems) βασίζονται στην αναδυόμενη σημασιολογία, που προκύπτει από μια κοινωνία χρηστών. Τα ΣΣΚΣ, επιτρέποντας τον κάθε χρήστη να δίνει τη δική του σήμανση, υπό μορφή ετικετών (tags), σε ψηφιακά αντικείμενα και κάνοντας διαθέσιμα αυτά τα μεταδεδομένα στο σύνολο των χρηστών, μπορούν να θεωρηθούν ότι αποτελούν έναν καθρέπτη του τρόπου σκέψης των μελών της κοινωνίας που τα χρησιμοποιεί. Οι χρήστες μέλη ενός ΣΣΚΣ, που αποτελούν βασική συνιστώσα του, δεν είναι ανεξάρτητοι ο ένας από τον άλλο, αλλά υπάρχουν σχέσεις δεσμοί (social networks) μεταξύ τους, όπως σε μια πραγματική κοινωνία. Ωστόσο, ενώ τα κοινωνικά δεδομένα είναι πολλά υποσχόμενα ως πηγή πλούσιας πληροφορίας, η αξιοποίησή τους περιορίζεται εξαιτίας κάποιων μειονεκτημάτων τους. Συγκεκριμένα, το γεγονός ότι διαφορετικοί χρήστες χρησιμοποιούν την ίδια λέξη, για να περιγράψουν διαφορετικές έννοιες (ομωνυμία) ή διαφορετικές λέξεις, για να περιγράψουν την ίδια έννοια (συνωνυμία), μειώνει την ικανότητα ανάκτησης του συστήματος, με αποτέλεσμα οι χρήστες είτε να χάνουν σχετική πληροφορία είτε να πρέπει να ψάξουν αυτό που τους ενδιαφέρει σε πολλά περιττά δεδομένα, που τους έχει επιστρέψει το σύστημα. Ένα άλλο μειονέκτημα είναι η έλλειψη ιεραρχίας στη δομή της πληροφορίας. Πράγματι, όλες οι ετικέτες ενός ΣΣΚΣ βρίσκονται σε ένα επίπεδο και αυτό μειώνει την αποτελεσματικότητα της πλοήγησης σε ένα τέτοιο σύστημα. Συγχρόνως, καθιστά δύσκολη τη σύνδεση τέτοιων συστημάτων με οντολογίες και την εξαγωγή συμπερασμάτων. Μία προσέγγιση για την εξόρυξη της πληροφορίας ενός ΣΣΚΣ, εξαλείφοντας ταυτόχρονα τα εγγενή μειονεκτήματα ενός τέτοιου συστήματος είναι η ομαδοποίηση των δεδομένων του και η αξιοποίηση των σχέσεων και της σημασιολογίας που προκύπτουν για την κάθε ομάδα δεδομένων (emergent semantics). Συγκεκριμένα, κάθε ομάδα δεδομένων θα προέρχεται από κάποιο πεδίο και θα αντιστοιχεί σε ένα συγκεκριμένο θέμα, συνεπώς θα αντανακλά τις γνώμες των χρηστών για το συγκεκριμένο θέμα. Η άντληση των δεδομένων κάθε ομάδας αναμένεται να αναδείξει συσχετιζόμενες έννοιες (έννοιες που οι χρήστες, για κάποιον λόγο, συνηθίζουν να χρησιμοποιούν μαζί). Από τις συσχετιζόμενες έννοιες μπορεί να προκύψουν ιεραρχίες μεταξύ των εννοιών και συνώνυμες έννοιες. Επίσης, μέσω της πληροφορίας πλαισίου (υπόλοιπες έννοιες στην ομάδα, context) μπορεί να γίνει διαχωρισμός μεταξύ των ομώνυμων εννοιών. H σημασιολογία που θα προκύψει μπορεί να χρησιμοποιηθεί για εμπλουτισμό κλασσικών μεθόδων αναπαράστασης γνώσης (π.χ. οντολογιών), με αποτέλεσμα οι τελευταίες να ενσωματώσουν τις γνώσεις απόψεις όλων των χρηστών, καθώς και τη διάσταση του χρόνου. Στην παρούσα διπλωματική υλοποιείται το πρώτο βήμα της παραπάνω προσέγγισης, δηλαδή η ομαδοποίηση των κοινωνικών δεδομένων που προέρχονται από ένα ΣΣΚΣ. Συγκεκριμένα, χρησιμοποιείται το ΣΣΚΣ Flickr και τα κοινωνικά δεδομένα, που θέλουμε να μελετήσουμε και στα οποία θα εφαρμόσουμε την ομαδοποίηση είναι οι εικόνες και οι ετικέτες των χρηστών σε αυτές. Οι ομάδες των εικόνων θα προκύπτουν με βάση την ομοιότητα των ετικετών τους. Στην ομοιότητα μεταξύ ετικετών λαμβάνεται υπόψη η σημασιολογική και κοινωνική τους ομοιότητα. Με τον όρο Κοινωνική Ο- μοιότητα αναφερόμαστε στη σχέση ομοιότητα μεταξύ δύο ετικετών, η οποία αναδεικνύεται αποκλειστικά και μόνο από τη δραστηριότητα των χρηστών του ΣΣΚΣ. Κάθε ομάδα δεδομένων, που προκύπτει, θα προέρχεται από κάποιο πεδίο και θα αντιστοιχεί σε ένα συγκεκριμένο θέμα. Ο στόχος είναι η ανεύρεση κρυφών θεμάτων (hid- 8
9 den topics), που θα προκύπτουν από την κατηγοριοποίηση και η ανίχνευση των όρωνεννοιών που χρησιμοποιούν οι χρήστες, για να περιγράψουν τα συγκεκριμένα πεδία. Η ομαδοποίηση αναμένεται να συντελέσει στην ανάδειξη ιεραρχικών σχέσεων μεταξύ των ετικετών και γενικότερα στην ανάδειξη σημασιολογίας (emergent semantics). 1.2 Σενάρια χρήσης Η εφαρμογή κοινωνικών δεδομένων μπορεί να έχει τις ακόλουθες εφαρμογές: Χρήση εννοιών και αναδυόμενων σχέσεων για εμπλουτισμό κλασσικών μεθόδων αναπαράσταση γνώσης (π.χ. οντολογίες). Σε ένα ΣΣΚΣ η συλλογή και αναπαράσταση των μεταδεδομένων είναι μια κατανεμημένη διαδικασία, η οποία ανατίθεται αποκλειστικά στους χρήστες του συστήματος. Σε αντίθεση με τα συγκεντρωτικά συστήματα, όπου κάποιος, κατά κανόνα ειδικός, αναλαμβάνει την οργάνωση της πληροφορίας (π.χ. οντολογίες), στα ΣΣΚΣ οι ίδιοι οι χρήστες οργανώνουν το περιεχόμενο, περιγράφοντας τους πόρους του συστήματος με ετικέτες. Οι ετικέτες έχουν ζωτική σημασία, σε ένα τέτοιο σύστημα, αφού με βάση αυτές γίνεται η αναζήτηση και πλοήγηση. Τα συστήματα αυτά έχουν το πλεονέκτημα ότι δεν είναι στατικά, αλλά εξελίσσονται στο χρόνο, καθώς εμπλουτίζονται διαρκώς με νέο περιεχόμενο, νέες περιγραφές και νέους χρήστες-μέλη. Συνεπώς, οι σύνδεσή τους με οντολογίες θα κρατάει τις τελευταίες ενημερωμένες και θα γεφυρώσει το χάσμα που συνήθως υπάρχει μεταξύ των οντολογιών και των χρηστών. Ένα εντυπωσιακό χαρακτηριστικό των ΣΣΚΣ, το οποίο αναλύεται στο Κεφάλαιο 3 είναι ότι ύστερα από έναν αριθμό περιγραφών σε έναν πόρο (συνήθως 100 χρήστες), τα ποσοστά των ετικετών που αποδίδονται σε αυτόν παγώνουν και δε μεταβάλλονται, παρόλο που νέοι χρήστες συνεχίζουν να του αποδίδουν ετικέτες. Όταν επιτευχθεί αυτή η σύγκλιση στα ποσοστά των ετικετών, τότε μπορούμε να πάρουμε σχέσεις μεταξύ των ετικετών (αναδυόμενες), όπως σχέσεις κλάσης υπερκλάσης (π.χ. η ετικέτα music συναντάται πολύ συχνά με την ετικέτα piano και με άλλες ετικέτες, ενώ δε η ετικέτα piano δε συναντάται συχνά χωρίς τη music η music αντιστοιχεί σε μία πιο ευρεία έννοια της λέξης piano). Συνεισφορά στην Ανάλυση Εικόνων. Στην Ανάλυση Εικόνων επιχειρείται η περιγραφή μιας εικόνας αυτόματα (από ένα υπολογιστικό σύστημα) κυρίως με εξαγωγή οπτικών χαρακτηριστικών της εικόνας (visual features) σε συνδυασμό με κάποια προϋπάρχουσα γνώση (πληροφορία) για το πεδίο. Ένα συχνό πρόβλημα που αντιμετωπίζεται στη διαδικασία της συλλογιστικής των πολυμέσων είναι η έλλειψη επαρκούς ποσότητας πληροφορίας, η οποία δυσχεραίνει την ακριβή και αποτελεσματική σύνθεση περιγραφών ανώτερου σημασιολογικού περιεχομένου. Για το λόγο αυτό κρίνεται απαραίτητη η μελέτη και ανάπτυξη μεθόδων εξαγωγής και αξιοποίησης της πληροφορίας πλαισίου (contextual information) κατά τη διαδικασία της συλλογιστικής. Η μοντελοποίηση και εκμετάλλευση της πληροφορίας πλαισίου θα οδηγήσει στην εξαγωγή περιγραφών ανώτερου σημασιολογικού περιεχομένου με μεγαλύτερη ακρίβεια και αποτελεσματικότητα, αλλά ακόμα και στο σχηματισμό πιο εξειδικευμένων περιγραφών ανάλογα με το εκάστοτε πεδίο εφαρμογής. 9
10 Οι ετικέτες των χρηστών μπορούν να παίξουν το ρόλο της πληροφορίας πλαισίου για τις εικόνες και να βοηθήσουν στην αυτόματη εξαγωγή της περιγραφής. Αντίστροφα, και η ανάλυση εικόνων μπορεί να βοηθήσει, ώστε να ξεπεραστούν ορισμένα προβλήματα των ΣΣΚΣ (π.χ. συνωνυμία) και να συμβάλλει στη βελτίωση της ανάκτησης πληροφορίας. Προτάσεις Συστάσεις (Recommendations). Όπως αναλύεται στο Κεφάλαιο 3, σε ένα ΣΣΚΣ ορίζονται σχέσεις μεταξύ όλων των συνιστωσών του (χρήστες ετικέτες πόροι). Οι σχέσεις αυτές υποδηλώνουν ενδιαφέροντα χρηστών και μπορούν να αξιοποιηθούν, για να χτίσουν προφίλς. Τα προφίλς θα χρησιμοποιηθούν ως βάση, για να γίνονται προτάσεις στους χρήστες από το σύστημα. 10
11 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Πρακτικές & Αλγόριθμοι Γενικά Εισαγωγή Σε αυτό το κεφάλαιο θα κάνουμε μία ανασκόπηση σχετικά με τις πρακτικές ομαδοποίησης, που χρησιμοποιούνται σε διάφορα σύνολα δεδομένων. Ομαδοποίηση (clustering) ονομάζεται η διαδικασία της ένταξης ενός συνόλου αντικειμένων σε ομάδες (clusters) ομοειδών αντικειμένων. Στόχος της ομαδοποίησης είναι να υπάρχει μεγάλη ομοιότητα ανάμεσα στα αντικείμενα που ανήκουν στην ίδια ομάδα και, ταυτόχρονα, ανομοιομορφία μεταξύ αντικειμένων διαφορετικών ομάδων. Η αναπαράσταση των δεδομένων σαν ένα σύνολο από ομάδες, αναπόφευκτα έχει ως αποτέλεσμα την απώλεια κάποιου μικρού μέρους της πληροφορίας που εμπεριέχεται σε αυτά, αλλά καθιστά την διαχείρισή τους πιο εύκολη, ταχύτατη και αποδοτική και για το λόγο αυτό, έχει απασχολήσει μεγάλη μερίδα ερευνητών από αρκετά επιστημονικά πεδία Η διαδικασία της ομαδοποίησης έχει τις ρίζες της στον άνθρωπο και, συγκεκριμένα, αποτελεί, μία σημαντική έμφυτη ανθρώπινη λειτουργία. Από τα πρώτα στάδια της ζωής του, ένας άνθρωπος οργανώνει ασυναίσθητα τα ερεθίσματα που δέχεται σε ομάδες. Με αυτόν τον τρόπο μαθαίνει υποσυνείδητα να κάνει διάκριση μεταξύ ανόμοιων αντικειμένων. Τα πρωταρχικά αυτά σχήματα ομαδοποίησης εμπλουτίζονται και βελτιώνονται καθ όλη τη διάρκεια ζωής του ατόμου. Στις μέρες μας, η ανάγκη για ομαδοποίηση δεδομένων σε σχήματα, ομάδες ή μορφές είναι ένα πρόβλημα που εμφανίζεται σε πάρα πολλές περιπτώσεις περιεχομένων, κειμένων και, γενικότερα, αναπαραστάσεων και αποτελεί βασικό αντικείμενο έρευνας σε επιστημονικές περιοχές, όπως η Εξόρυξη Δεδομένων, η Στατιστική, η Αναγνώριση Προτύπων, η Μηχανική Μάθηση και πολλές άλλες. Αυτός είναι και ο λόγος για τον οποίο έγιναν και γίνονται πολυάριθμες ερευνητικές εργασίες και αναλύσεις στο χώρο αυτό, που έχουν οδηγήσει στην ανάπτυξη ενός πλήθους εφαρμογών. Συγκεκριμένα, ο- ρισμένες ενδεικτικές εφαρμογές της ομαδοποίησης αφορούν τη χρήση της από επιχειρήσεις για εύρεση ομάδων πελατών με παρόμοια συμπεριφορά, τη χρήση της από τη βιολογία για την ταξινόμηση φυτών, ζώων, γονιδίων, καθώς και τη χρήση της από την πληροφορική για ανάκτηση πληροφορίας από ένα σύνολο δεδομένων. 11
12 Στη Στατιστική, η ανάλυση ομάδων μελετάται συστηματικά τα τελευταία χρόνια με ιδιαίτερη έμφαση στην ομαδοποίηση που προκύπτει με βάση την απόσταση (distancebased). Πράγματι, στα κυριότερα πακέτα λογισμικού στατιστικής ανάλυσης, όπως τα S-Plus 1, SPSS 2 και SAS 3, έχουν συμπεριληφθεί αρκετοί υλοποιημένοι αλγόριθμοι ο- μαδοποίησης δεδομένων. Στη Μηχανική Μάθηση, η ομαδοποίηση αποτελεί ένα παράδειγμα μάθησης χωρίς επίβλεψη, η οποία οδηγεί στην εύρεση προτύπων μεταξύ των δεδομένων, καθένα από τα οποία αντιστοιχίζεται σε μία ξεχωριστή ομάδα. Σε αντίθεση με την κατηγοριοποίηση, που είναι ένας τρόπος μάθησης με επίβλεψη και απαιτεί τη χρήση ενός συνόλου δεδομένων εκπαίδευσης, στην ομαδοποίηση δεν υπάρχει προκαθορισμένος αριθμός ομάδων ούτε δεδομένα εκπαίδευσης. Για αυτό το λόγο η ομαδοποίηση μπορεί να θεωρηθεί ως ένας τρόπος μάθησης με παρατήρηση, σε αντίθεση με την μάθηση μέσα από παραδείγματα. Στην Εξόρυξη Δεδομένων, προστίθενται στο πρόβλημα της ομαδοποίησης κι άλλες παράμετροι δυσκολίας, εξαιτίας του πολύ μεγάλου μεγέθους και της πολυδιάστατης φύσης των δεδομένων. Συγκεκριμένα, οι αλγόριθμοι ομαδοποίησης που εφαρμόζονται σε μεγάλα σύνολα δεδομένων, όπως για παράδειγμα ο Παγκόσμιος Ιστός, απαιτείται να έχουν τα ακόλουθα χαρακτηριστικά [1]: Επεκτασιμότητα: Πολλοί αλγόριθμοι ομαδοποίησης έχουν ικανοποιητικά αποτελέσματα σε σύνολα δεδομένων με μέγεθος μικρότερο από 200. Για να εφαρμοστούν σε μεγάλα σύνολα δεδομένων, της τάξεως των εκατομμυρίων αντικειμένων, χρειάζεται να γίνει δειγματοληψία, με αποτέλεσμα πολλές φορές να έ- χουμε υπερμοντελοποίηση και μεροληψία (biased) στα αποτελέσματα. Ικανότητα διαχείρισης διαφορετικών τύπων δεδομένων: Η πλειονότητα των αλγορίθμων ομαδοποίησης είναι σχεδιασμένοι για να χειρίζονται αποκλειστικά αριθμητικούς τύπους δεδομένων. Πολλές εφαρμογές, όμως, απαιτούν ομαδοποίηση δεδομένων άλλων τύπων, όπως κατηγορικών (nominal), σειράς κατάταξης (ordinal) ή μίξης αυτών. Εύρεση ομάδων με ακανόνιστο σχήμα: Μεγάλη πληθώρα των αλγορίθμων ο- μαδοποίησης διαμορφώνουν τις ομάδες, με βάση την Ευκλείδεια ή την Manhattan απόσταση των δεδομένων. Οι αλγόριθμοι που βασίζονται στις προαναφερόμενες μετρικές έχουν την τάση να βρίσκουν σφαιρικές ομάδες με ομοιόμορφα μεγέθη και πυκνότητες. Στην πραγματικότητα, όμως, μία ομάδα δεδομένων μπορεί να έχει οποιαδήποτε μορφή. Συνεπώς, απαιτείται η ανάπτυξη αλγορίθμων ικανών να ανιχνεύουν ομάδες οποιουδήποτε σχήματος. Καθορισμός παραμέτρων εισόδου, χωρίς εξειδικευμένη γνώση του πεδίου: Πολλοί αλγόριθμοι ομαδοποίησης περιμένουν από το χρήστη να εισάγει δεδομένα - παραμέτρους εισόδου, προκειμένου να προχωρήσουν στην ανάλυση ο- μάδων. Ένα παράδειγμα μιας τέτοιας παραμέτρου είναι ο αριθμός των αναμενόμενων ομάδων. Τα αποτελέσματα της διαδικασίας, συχνά, εξαρτώνται από αυτές τις παραμέτρους, οι οποίες τις περισσότερες φορές είναι πολύ δύσκολο να είναι γνωστές εκ των προτέρων, ιδιαίτερα για δεδομένα με μεγάλο αριθμό δια
13 στάσεων. Αυτό προκαλεί κινδύνους για την ποιότητα της ομαδοποίησης και, ταυτόχρονα, είναι μία έξτρα επιβάρυνση για το χρήστη. Ικανότητα χειρισμού δεδομένων με θόρυβο: Οι περισσότερες εφαρμογές που χειρίζονται πραγματικά δεδομένα αντιμετωπίζουν προβλήματα με δεδομένα που είτε λείπουν είτε περιέχουν λάθη. Ένα, επίσης, κοινό αγκάθι σε δεδομένα που πρόκειται να διαχωριστούν σε ομάδες αποτελούν οι ακραίες τιμές (outliers). Πολλοί αλγόριθμοι ομαδοποίησης είναι ευαίσθητοι σε τέτοιου είδους δεδομένα και μπορούν να οδηγήσουν σε ομαδοποίηση χαμηλής ποιότητας. Έλλειψη ευαισθησίας στη σειρά των δεδομένων: Πολλοί αλγόριθμοι ομαδοποίησης παρουσιάζουν ευαισθησία στη σειρά με την οποία εισάγονται τα δεδομένα για ομαδοποίηση. Έτσι, μπορεί, για παράδειγμα, για το ίδιο σύνολο δεδομένων, να προκύψουν τελείως διαφορετικές ομαδοποιήσεις, όταν τα δεδομένα εισάγονται με διαφορετική σειρά στον αλγόριθμο. Ικανότητα χειρισμού δεδομένων με υψηλό αριθμό διαστάσεων: Τα δεδομένα που ανήκουν σε μια συλλογή δεδομένων μπορεί να έχουν μεγάλο αριθμό διαστάσεων (χαρακτηριστικών). Πολλοί αλγόριθμοι ομαδοποίησης είναι καλοί στο να χειρίζονται δεδομένα μέχρι δύο ή τριών διαστάσεων. Ένα κοινό ανθρώπινο μάτι μπορεί να διακρίνει δεδομένα σε ομάδες, λαμβάνοντας υπόψη μέχρι τρεις διαστάσεις το πολύ. Η ομαδοποίηση δεδομένων με μεγάλο αριθμό διαστάσεων αποτελεί μια πρόκληση για τον επιστημονικό χώρο, καθώς τέτοιου είδους δεδομένα είναι συνήθως πολύ αραιά και ιδιαιτέρως στρεβλωμένα. Ομαδοποίηση με βάση περιορισμούς: Στις εφαρμογές με πραγματικά δεδομένα, συχνά, υπάρχει ανάγκη για ομαδοποίηση με βάση κάποιους περιορισμούς. Για παράδειγμα, έστω ότι πρέπει να καθοριστούν οι θέσεις για τοποθέτηση μηχανών αυτόματης τραπεζικής ανάληψης (ΑΤΜs) σε μια πόλη. Για να ληφθεί η παραπάνω απόφαση, θα πρέπει να γίνει μια ομαδοποίηση των κτηρίων της πόλης που θα αντιστοιχούν στο καθένα μηχάνημα, λαμβάνοντας υπόψη περιορισμούς, όπως ποταμούς που διασχίζουν την πόλη, το οδικό της δίκτυο και τις απαιτήσεις των χρηστών στην εκάστοτε περιοχή. Ερμηνεία και χρηστικότητα: Οι χρήστες έχουν την απαίτηση να μπορούν να καταλάβουν, να εξηγήσουν και να χρησιμοποιήσουν τα αποτελέσματα της ομαδοποίησης. Συνεπώς, οι ομάδες που προκύπτουν θα πρέπει να έχουν μια σημασιολογική ερμηνεία στις εκάστοτε εφαρμογές. Η ύπαρξη όμως ενός κοινού ή ενός μικρού αριθμού αλγορίθμων ομαδοποίησης δεν είναι εφικτή λύση, γιατί η εκάστοτε υλοποίηση εξαρτάται και περιορίζεται από τα δεδομένα που πρόκειται να ομαδοποιηθούν, από τον τρόπο δόμησης αυτών, από τις διαφορετικές μετρικές που μπορούν να εφαρμοστούν άλλα και από διάφορους άλλους περιορισμούς και προβλήματα που μπορεί να εμφανιστούν. Έτσι κάθε υλοποίηση πρέπει να αναφέρεται σε κάποια συγκεκριμένη εφαρμογή και τύπο δεδομένων. Σε αυτή τη διπλωματική εργασία, στόχος είναι η ομαδοποίηση μιας συλλογής δεδομένων από το χώρο του Παγκόσμιου Ιστού και, πιο συγκεκριμένα, από το χώρο του Κοινωνικού Ιστού (Social Web). Το πρόβλημα εντάσσεται στην περιοχή της Εξόρυξης Δεδομένων και γι αυτό θα ληφθούν υπόψη όλες οι προαναφερθείσες παράμετροι που αφορούν πολύ μεγάλα και ποικίλα σύνολα δεδομένων. 13
14 Πρέπει να τονίσουμε ότι η προαναφερόμενη λίστα παραμέτρων σε καμία περίπτωση δεν έχει εξαντλήσει όλα τα προβλήματα που συναντώνται σε ομαδοποίηση πολύ μεγάλων συνόλων δεδομένων, απλά προσπαθεί να τονίσει τα πιο συχνά από αυτά. Σε κάθε αλγόριθμο που παρουσιάζεται στη συνέχεια θα τονίζεται ποια από τα παραπάνω ζητήματα αντιμετωπίζει ικανοποιητικά. Η δομή του υπόλοιπου κεφαλαίου είναι η εξής: Στην αρχή παρουσιάζεται η σημειογραφία (notation) που χρησιμοποιείται για την ομαδοποίηση δεδομένων στην παρούσα διπλωματική. Ακολουθεί μία περιγραφή των πιο συχνά χρησιμοποιούμενων συναρτήσεων απόστασης, ανάλογα με τον τύπο δεδομένων των χαρακτηριστικών των αντικειμένων προς ομαδοποίηση. Έπειτα αναλύονται οι κυριότερες κατηγορίες των αλγορίθμων ομαδοποίησης, καθώς και οι κυριότεροι αλγόριθμοι κάθε κατηγορίας. Στο τέλος, παρουσιάζονται κάποια γενικά αλγοριθμικά θέματα, που πρέπει να λαμβάνονται υπόψη στην ομαδοποίηση πολύ μεγάλων συνόλων δεδομένων. 2.1 Σημειογραφία Πριν αρχίσουμε την αναλυτική περιγραφή των τεχνικών ομαδοποίησης που χρησιμοποιούνται, παραθέτουμε κάποια απαραίτητη σημειογραφία, η οποία τηρείται στην παρούσα διπλωματική εργασία. Έστω Χ ένα σύνολο N δεδομένων, αντικειμένων ή στοιχείων και Α ένας χώρος d διαστάσεων ή χαρακτηριστικών των αντικειμένων που ανήκουν στο Χ. Κάθε αντικείμενο που ανήκει στο Χ αναπαρίσταται ως x, x,..., x ) i 1,.., N και οι τιμές x =, όπου [ ] i ( i1 i2 id xi 1,..., xid A, i. Συγκεκριμένα, για κάθε αντικείμενο xi, η κάθε συνιστώσα xil Al, l [ 1,.., d] και αντιστοιχεί σε ένα χαρακτηριστικό του, το οποίο μπορεί να είναι είτε ποσοτικό, δηλαδή να παίρνει αριθμητικές τιμές, είτε ονομαστικό, δηλαδή να παίρνει κατηγορικές τιμές. Για κάθε χαρακτηριστικό, ανάλογα με τον τύπο του, ορίζεται μια μετρική απόστασης μεταξύ των τιμών του. Ο συνυπολογισμός των μετρικών αυτών για όλα τα χαρακτηριστικά δύο στοιχείων x, οδηγεί στη συνάρτηση απόστασης μεταξύ των δύο αυτών στοιχείων, d x i, x ). ( j i x j Κάθε συνάρτηση απόστασης πρέπει να ικανοποιεί τα εξής κριτήρια: 1. d x i, x ) 0 : Η απόσταση μεταξύ δύο αντικειμένων δε μπορεί να είναι ( j ( j ( i αρνητικός αριθμός. 2. d( x i, x i ) = 0: Η απόσταση ενός αντικειμένου από τον εαυτό του ισούται με μηδέν. 3. d x i, x ) = d x j, x ) : Κάθε συνάρτηση απόστασης είναι συμμετρική συνάρτηση. 4. d x i, x ) d x, x ) + d( x, x ) : Ισχύει η αρχή της τριγωνικής ανισότη- ( j ( i k k j τας, δηλαδή η απόσταση πηγαίνοντας από το αντικείμενο xi στο αντικείμενο x j απευθείας είναι πάντα μικρότερη από ότι αν κάνουμε την ίδια διαδρομή δια μέσω οποιουδήποτε άλλου σημείου x k. 14
15 Στη συνέχεια ακολουθεί μια περιγραφή των τύπων δεδομένων των στοιχείων προς ο- μαδοποίηση και των συναρτήσεων απόστασης κατά περίπτωση. Ο τελικός σκοπός της ομαδοποίησης είναι να αναθέσει τα Ν στοιχεία του Χ σε k ομάδες. Οι ομάδες δε θα πρέπει να έχουν επικαλύψεις, δηλαδή κανένα στοιχείο δε μπορεί να ανήκει ταυτόχρονα σε δύο ομάδες (στην πράξη αυτός ο περιορισμός δεν τηρείται πάντα, αλλά αυτό δεν πρόκειται να μας απασχολήσει στην παρούσα διπλωματική). Συνεπώς, η ένωση των ομάδων μαζί με τα στοιχεία που έχουν ακραίες τιμές και δε συμπεριλήφθηκαν σε ομάδες θα πρέπει να έχει ως αποτέλεσμα το αρχικό σύνολο Χ. UU... CkUCoutliers CiI C = X = C1, j, i j 2.2 Τύποι Δεδομένων στην Ανάλυση Ομάδων και Συναρτήσεις Απόστασης Το είδος των δεδομένων που συμμετέχουν σε μια ομαδοποίηση καθορίζει και τη διαδικασία που θα ακολουθηθεί. Σύμφωνα με το [1], οι αλγόριθμοι ομαδοποίησης που εκτελούνται μόνο στην κύρια μνήμη (memory-based) χρησιμοποιούν μία από τις δύο παρακάτω δομές δεδομένων. Πίνακας Δεδομένων (Data matrix): Πρόκειται για έναν Ν x d πίνακα, που α- πεικονίζει τα Ν στοιχεία με τα d χαρακτηριστικά τους. Πίνακας Ανομοιότητας (Dissimilarity matrix): Πρόκειται για έναν πίνακα Ν x N, στον οποίο κάθε στοιχείο (i, j) ισούται με την απόσταση των αντικειμένων x i και x j, υπολογισμένη με βάση κάποια συνάρτηση απόστασης. Όπως προκύπτει από τις ιδιότητες κάθε συνάρτησης απόστασης, ο Πίνακας Ανομοιότητας είναι ένας τριγωνικός πίνακας. Ο υπολογισμός της συνάρτησης απόστασης μεταξύ δύο στοιχείων ουσιαστικά καθοδηγεί το διαχωρισμό τους σε ομάδες. Ο υπολογισμός της εξαρτάται από τον τύπο δεδομένων 15
16 των χαρακτηριστικών των στοιχείων και στη συνέχεια θα παρουσιαστούν οι συναρτήσεις απόστασης που χρησιμοποιούνται ευρέως, όταν τα πεδία ορισμού των χαρακτηριστικών περιέχουν τις εξής τιμές: i) αριθμητικές συνεχείς τιμές, ii) δυαδικές τιμές, και iii) κατηγορικές τιμές, iv) τιμές κατάταξης Συνεχείς Αριθμητικές Τιμές Σε αυτή την ενότητα, θα δούμε μετρικές που χρησιμοποιούνται για την ομαδοποίηση αντικειμένων, όταν τα χαρακτηριστικά αυτών παίρνουν τιμές από ένα συνεχές αριθμητικό διάστημα. Γενικά ως αριθμητικά δεδομένα καλούνται αυτά των οποίων το πεδίο ορισμού είναι ένα διατεταγμένο σύνολο. Κάποια ενδεικτικά παραδείγματα που ανήκουν σε αυτή την κατηγορία είναι η ομαδοποίηση ανθρώπων με βάση το ύψος και το βάρος τους, η ομαδοποίηση σπιτιών με βάση τις συντεταγμένες τους, η ομαδοποίηση χωρών με βάση τις θερμοκρασίες τους και άλλα σχετικά. Σε τέτοιου είδους δεδομένα χρειάζεται να εφαρμοστεί μια διαδικασία κανονικοποίησης, πριν τη χρήση της συνάρτησης απόστασης, έτσι ώστε χαρακτηριστικά που έχουν μεγάλο εύρος τιμών (όπως για παράδειγμα, το εισόδημα) να μην επηρεάζουν περισσότερο την ομαδοποίηση σε σχέση με χαρακτηριστικά με μικρότερο εύρος τιμών (όπως για παράδειγμα, η ηλικία). Με την κανονικοποίηση όλες οι τιμές των χαρακτηριστικών κλιμακώνονται σε ένα μικρό προκαθορισμένο διάστημα, (συνήθως στο [-1,1] ή στο [0,1]. Οι πιο ευρέως χρησιμοποιούμενες πρακτικές κανονικοποίησης, σύμφωνα με το [1] είναι οι εξής: min-max normalization, z-score normalization και normalization by decimal scaling. Κατά την κανονικοποίηση min-max, εκτελείται ένας γραμμικός μετασχηματισμός στα αρχικά δεδομένα. Έστω ότι min A και max A είναι η ελάχιστη και μέγιστη τιμή, αντίστοιχα, του χαρακτηριστικού Α. Με την κανονικοποίηση min-max κάθε τιμή v του χαρακτηριστικού Α αντιστοιχίζεται στην τιμή v, η οποία πλέον ανήκει στο νέο διάστημα [new_min A, new_max A ] ως εξής: v min max min A v = ( new _ max A new _ min A ) + new _ min A A A Στη z-score κανονικοποίηση, οι τιμές ενός χαρακτηριστικού Α κανονικοποιούνται με βάση τη μέση τιμή, A, και την τυπική απόκλιση, σ A του Α. Συγκεκριμένα κάθε τιμή v του Α αντιστοιχίζεται στην τιμή ν ως εξής: v A ν = σ A Η παραπάνω μέθοδος κανονικοποίησης είναι ιδιαιτέρως χρήσιμη σε περιπτώσεις όπου η πραγματική ελάχιστη και μέγιστη τιμή του Α δεν είναι δυνατό να είναι γνωστές εκ των προτέρων και είναι ιδιαίτερα ανθεκτική όταν υπάρχουν ακραίες τιμές στα δεδομένα, που επεκτείνουν τα όρια. 16
17 Τέλος, στην κανονικοποίηση με δεκαδική κλιμάκωση (decimal normalization), για κάθε τιμή v του Α προκύπτει η τιμή ν, μετακινώντας την υποδιαστολή τόσες θέσεις, ώστε να ισχύει max( v ) < 1. ν v =, j 10 όπου j είναι ο μικρότερος ακέραιος για τον οποίο ισχύει ο παραπάνω περιορισμός. Μετά την κανονικοποίηση των χαρακτηριστικών των αντικειμένων που ανήκουν στη συγκεκριμένη κατηγορία, ο υπολογισμός του ποσοστού ομοιότητας μεταξύ τους γίνεται μετρώντας την απόσταση όλων των χαρακτηριστικών τους. Η πιο δημοφιλής συνάρτηση απόστασης (για την συγκεκριμένη, πάντα, κατηγορία) είναι η Ευκλείδεια απόσταση, η οποία ορίζεται ως εξής: d ( xi, x j ) xi 1 x j1 + xi2 x j2 + + xip x jp = L, όπου x i = (x i1,x i2,,x ip ) και x j = (x j1,x j2,, x jp ) είναι δύο αντικείμενα p- διαστάσεων. Μία άλλη συχνά χρησιμοποιούμενη μετρική απόστασης είναι η λεγόμενη απόσταση Manhattan, ή αλλιώς city block distance, η οποία ορίζεται ως εξής: d( x, x ) = x x + x x + L+ x x. i j i1 j1 i2 j2 ip jp Τέλος, η απόσταση Minkowski αποτελεί μια γενίκευση των παραπάνω συναρτήσεων απόστασης, όπως προκύπτει από τον παρακάτω ορισμό της: i j 1 q q q ( x ) q i1 x j1 + xi2 x j xip x jp d( x, x ) = L, όπου q ένας θετικός ακέραιος. Σημειώνεται ότι για q=1 προκύπτει η απόσταση Manhattan, ενώ για q=2 προκύπτει η Ευκλείδεια απόσταση. Οι συναρτήσεις απόστασης που περιγράφηκαν μπορούν να προσαρμοστούν σε περίπτωση που θέλουμε να δώσουμε βαρύτητα σε κάποιο/α χαρακτηριστικά των αντικειμένων προς ομαδοποίηση. Με αυτόν τον τρόπο προκύπτουν οι ζυγισμένες συναρτήσεις απόστασης, στις οποίες κάθε χαρακτηριστικό συμμετέχει στην ομαδοποίηση με κάποιο βάρος w. H ζυγισμένη Ευκλείδεια απόσταση ορίζεται ως εξής: d 2 2 ( xi, x j ) = w1 xi 1 x j1 + w2 xi2 x j 2 + L + wp xip x jp 2 Ένα παράδειγμα, όπου χρειάζεται να γίνει χρήση ζυγισμένης συνάρτησης απόστασης, είναι η ομαδοποίηση καλαθοσφαιριστών, όπου θέλουμε το χαρακτηριστικό ύψος να έχει μεγαλύτερη βαρύτητα από τα υπόλοιπα χαρακτηριστικά των παικτών. 17
18 2.2.2 Δυαδικές Τιμές Σε αυτή την ενότητα, θα δούμε μετρικές που χρησιμοποιούνται για την ομαδοποίηση αντικειμένων, όταν τα χαρακτηριστικά αυτών έχουν δυαδικές τιμές. Το πεδίο ορισμού μίας δυαδικής τιμής, όπως φαίνεται άλλωστε από το όνομά της, έχει δύο επιτρεπτές τιμές, το 0 και το 1. Η τιμή 0 δηλώνει την απουσία του συγκεκριμένου χαρακτηριστικού, ενώ η τιμή 1 την παρουσία του. Για παράδειγμα, στην ομαδοποίηση ασθενών το χαρακτηριστικό καπνιστής παίρνει δυαδικές τιμές και η τιμή 1 δηλώνει ότι ο συγκεκριμένος ασθενής είναι καπνιστής, ενώ η τιμή 0 ότι δεν είναι. Η αντιμετώπιση των συγκεκριμένων χαρακτηριστικών ως αριθμητικά δεδομένα και η χρήση των αναλόγων συναρτήσεων απόστασης οδηγεί σε ομαδοποίηση χαμηλής ποιότητας. Ο υπολογισμός της απόστασης στα χαρακτηριστικά με δυαδικές τιμές εξαρτάται από το αν αυτά είναι συμμετρικά (symmetric) ή ασύμμετρα (asymmetric). Σε ένα συμμετρικό δυαδικό χαρακτηριστικό και οι δύο καταστάσεις του (1 ή 0) έχουν την ίδια βαρύτητα. Παράδειγμα ενός τέτοιου χαρακτηριστικού είναι το φύλο ενός ανθρώπου με τιμές άντρας και γυναίκα. Αντίθετα, ένα δυαδικό χαρακτηριστικό είναι ασύμμετρο, αν η βαρύτητά του εξαρτάται από την τιμή την οποία παίρνει. Παραδείγματα ασύμμετρων δυαδικών χαρακτηριστικών είναι τα αποτελέσματα των ιατρικών εξετάσεων. Κατά κανόνα συνηθίζεται να κωδικοποιείται με 1 η κατάσταση η οποία έχει μεγαλύτερο βάρος, η οποία τις περισσότερες φορές συναντάται πιο σπάνια (π.χ. όταν κάποιος είναι θετικός σε κάποιον ιό), και με 0 η άλλη κατάσταση (π.χ. όταν είναι αρνητικός σε κάποιον ιό). Έστω ότι έχουμε ένα σύνολο αντικειμένων προς ομαδοποίηση X. Κάθε στοιχείο του Χ έχει p δυαδικά χαρακτηριστικά. Για δύο οποιαδήποτε αντικείμενα x i, x j X, έστω ότι q ο αριθμός των δυαδικών χαρακτηριστικών που ισούται με 1 και στα δύο αντικείμενα, r o αριθμός των δυαδικών χαρακτηριστικών που ισούται με 1 στο x i και με 0 στο x j, s ο αριθμός των δυαδικών χαρακτηριστικών που ισούται με 0 στο x i και με 1 στο x j και t ο αριθμός των δυαδικών χαρακτηριστικών που ισούται με 0 και στα δύο αντικείμενα (Είναι p = q + r + s + t). Για την ομαδοποίηση αντικειμένων που έχουν συμμετρικά δυαδικά χαρακτηριστικά χρησιμοποιείται η ακόλουθη μετρική απόστασης: r + s d( xi, x j ) =, q + r + s + t ενώ όταν τα δυαδικά χαρακτηριστικά είναι ασύμμετρα για τον υπολογισμό της απόστασης χρησιμοποιείται η Jaccard coefficient: r + s d( xi, xj) = q + r + s Βλέπουμε ότι στα ασύμμετρα δυαδικά χαρακτηριστικά η ταυτόχρονη απουσία ενός χαρακτηριστικού σε δύο αντικείμενα δε θεωρείται σημαντική και, συνεπώς, δεν προσμετρήθηκε στον υπολογισμό της μεταξύ τους απόστασης. Αυτός είναι ο λόγος που, συχνά, αυτά τα χαρακτηριστικά θεωρούνται ότι έχουν μόνο μία κατάσταση Κατηγορικές Τιμές Κατηγορικά Δεδομένα καλούνται εκείνα των οποίων το πεδίο ορισμού είναι ένα μη διατεταγμένο σύνολο. Ένα χαρακτηριστικό που παίρνει κατηγορικές τιμές μπορεί να θεωρηθεί μια γενικευμένη περίπτωση ενός δυαδικού χαρακτηριστικού, στην οποία το 18
19 πεδίο ορισμού μπορεί να περιέχει και παραπάνω από δύο τιμές. Ένα παράδειγμα, κατηγορικού χαρακτηριστικού ενός αντικειμένου είναι το χρώμα του, το οποίο μπορεί να πάρει μία από τις ακόλουθες τιμές: κόκκινο, κίτρινο, πράσινο, ροζ και μπλε. Όταν το πεδίο ορισμού ενός κατηγορικού χαρακτηριστικού είναι μεγάλο (περιέχει πολύ μεγάλο αριθμό τιμών), τότε αυτό το χαρακτηριστικό, συνήθως, δεν περιέχει χρήσιμη πληροφορία για την ομαδοποίηση των δεδομένων, οπότε δε λαμβάνεται υπόψη. Για παράδειγμα, στην ομαδοποίηση πελατών, το χαρακτηριστικό Κωδικός Πελάτη, το οποίο μπορεί να πάρει εκατομμύρια τιμές, δε λαμβάνεται υπόψη. Η μετρική απόστασης που χρησιμοποιείται σε αντικείμενα με κατηγορικά χαρακτηριστικά είναι η εξής: p m d( xi, x j ) =, p όπου m είναι ο αριθμός των κατηγορικών χαρακτηριστικών που έχουν κοινή τιμή στα x i, x j, ενώ p o συνολικός αριθμός των κατηγορικών χαρακτηριστικών των αντικειμένων. Ένα χαρακτηριστικό που παίρνει κατηγορικές τιμές μπορεί να κωδικοποιηθεί και σαν μία ομάδα δυαδικών ασύμμετρων χαρακτηριστικών, όπου κάθε δυαδικό χαρακτηριστικό θα αναπαριστά μία από τις πιθανές τιμές. Συγκεκριμένα, για την κωδικοποίηση του χαρακτηριστικού χρώμα ενός αντικειμένου, θα έχουμε 5 δυαδικά χαρακτηριστικά (ένα για κάθε πιθανό χρώμα). Έτσι, όταν ένα αντικείμενο έχει χρώμα κίτρινο, έχει τιμή 1 στο δυαδικό χαρακτηριστικό που αναλογεί στην τιμή κίτρινο και 0 στα δυαδικά χαρακτηριστικά που αναλογούν στις υπόλοιπες τιμές (κόκκινο, πράσινο, ροζ, μπλε). Η μετρική απόστασης που χρησιμοποιείται, συνήθως, σε αυτή την περίπτωση είναι η Jaccard coefficient, που περιγράφηκε στην προηγούμενη ενότητα Τιμές κατάταξης Τα χαρακτηριστικά που παίρνουν τιμές κατάταξης μοιάζουν με αυτά που έχουν κατηγορικές τιμές, με τη διαφορά ότι το σύνολο Μ του πεδίου τιμών τους είναι διατεταγμένο. Τα χαρακτηριστικά αυτά χρησιμοποιούνται για να δηλώσουν ποιότητα, σειρά κατάταξης ή κάποιο βαθμό. Για παράδειγμα, όταν θέλουμε να δηλώσουμε τα αποτελέσματα ενός αγώνα στίβου είναι προτιμότερο για κάθε αθλητή να αποθηκεύεται η σειρά κατάταξής του (ή το μετάλλιο που, ενδεχομένως, έχει κερδίσει), παρά η ακριβής επίδοσή του. Τα χαρακτηριστικά αυτής της κατηγορίας αντιμετωπίζονται όπως αυτά που παίρνουν συνεχείς αριθμητικές τιμές (αντιστοιχίζοντας την πρώτη τιμή στο 1, κοκ μέχρι την τελευταία τιμή, η οποία αντιστοιχίζεται στο Μ). Επειδή κάθε χαρακτηριστικό μπορεί να έχει διαφορετικό πλήθος από επιτρεπτές τιμές Μ, πριν την εφαρμογή μετρικών απόστασης, καλό είναι να γίνει μια κανονικοποίηση στο διάστημα [0, 1]. 2.3 Κατηγοριοποίηση Πρακτικών Ομαδοποίησης Στη βιβλιογραφία υπάρχει ένας πολύ μεγάλος αριθμός από αλγορίθμους που χρησιμοποιούνται για την ομαδοποίηση δεδομένων. Η επιλογή της κατάλληλης πρακτικής κατά περίπτωση εξαρτάται τόσο από τον τύπο των δεδομένων, όσο και το στόχο της συγκε- 19
20 κριμένης εφαρμογής. Σύμφωνα με το [2], οι αλγόριθμοι ομαδοποίησης ταξινομούνται στις ακόλουθες κατηγορίες. Ιεραρχικές μέθοδοι (Hierarchical Methods): Μία ιεραρχική μέθοδος ομαδοποίησης έχει ως αποτέλεσμα μια ιεραρχική (δενδροειδή) διάσπαση των αντικειμένων σε ομάδες. Οι αλγόριθμοι αυτής της κατηγορίας διακρίνονται σε συγχωνευτικούς (agglomerative) και σε διαιρετικούς (divisive). Στην πρώτη προσέγγιση (η οποία εναλλακτικά λέγεται και από-κάτω-προς-τα-πάνω μέθοδος) η ομαδοποίηση ξεκινάει θεωρώντας ότι κάθε αντικείμενο ανήκει σε διαφορετική ομάδα. Σε κάθε επανάληψη του αλγορίθμου τα περισσότερο όμοια αντικείμενα συγχωνεύονται σε μία ομάδα. Ο αλγόριθμος σταματάει όταν όλα τα αντικείμενα έχουν τοποθετηθεί σε μία ομάδα, που είναι και το κορυφαίο επίπεδο της ιεραρχίας ή όταν επιτευχθεί κάποια εναλλακτική συνθήκη τερματισμού. Στη διαιρετική προσέγγιση (η οποία εναλλακτικά λέγεται και από-κάτωπρος-τα-πάνω μέθοδος), αρχικά όλα τα αντικείμενα τοποθετούνται στην ίδια ομάδα. Σε κάθε επανάληψη του αλγορίθμου, η ομάδα με τη μεγαλύτερη ανομοιομορφία σπάει σε δύο ομάδες. Ο αλγόριθμος σταματάει όταν κάθε αντικείμενο αποτελεί από μόνο του μία ομάδα ή όταν επιτευχθεί κάποια εναλλακτική συνθήκη τερματισμού. Οι ιεραρχικές μέθοδοι έχουν το μειονέκτημα ότι δεν επιτρέπουν την επιστροφή σε προηγούμενο στάδιο της διαδικασίας. Κάθε συγχώνευση ή διαίρεση που γίνεται είναι οριστική. Αυτός ο περιορισμός αποσκοπεί στη μείωση του υπολογιστικού κόστους των ιεραρχικών αλγορίθμων, αλλά στερεί από αυτούς τη δυνατότητα να διορθώνουν κάποιες λανθασμένες αποφάσεις. Για τη βελτίωση της ποιότητας της ομαδοποίησης των ιεραρχικών αλγορίθμων, οι [1] αναφέρουν i) επιλογή διαφορετικών μετρικών συνδεσμικότητας (linkage) μεταξύ των μελών μιας ομάδας και των ομάδων (αλγόριθμοι CURE [2][3], Chameleon [2][4]), ii) συνδυασμό ιεραρχικής μεθόδου με επαναληπτικές επανατοποθετήσεις των αντικειμένων σε ομάδες, με στόχο την καλύτερη ομαδοποίηση (αλγόριθμος BIRCH [2][5]). Μέθοδοι Τμηματοποίησης (Partitioning Methods): Ένας αλγόριθμος τμηματοποίησης χωρίζει τα αντικείμενα προς ομαδοποίηση σε k τμήματα, όπου το κάθε τμήμα αντιστοιχεί σε μία ομάδα. Τα αντικείμενα κατηγοριοποιούνται εξαρχής σε ομάδες και στη συνέχεια γίνονται μετακινήσεις, με στόχο να βελτιωθεί η ομαδοποίηση. Οι μετακινήσεις σταματούν, όταν επιτευχθεί κάποιος στόχος που ορίζει την τελική ομαδοποίηση. Το κριτήριο για μια καλή ομαδοποίηση είναι τα αντικείμενα που ανήκουν στην ίδια ομάδα να έχουν ομοιότητα μεταξύ τους, και ταυτόχρονα αυτά που ανήκουν σε διαφορετικές ομάδες να είναι ανόμοια. Οι αλγόριθμοι τμηματοποίησης χωρίζονται περαιτέρω σε: i) πιθανοκρατικούς αλγορίθμους ομαδοποίησης (probabilistic clustering), όπως είναι ο Expectation -Maximization (EM) και οι παραλλαγές αυτού [2][6], οι αλγόριθμοι του SNOB [2][7], o AUTOCLASS [8], οι αλγόριθμοι που είναι υλοποιημένοι στο πακέτο λογισμικού MCLUST [9], ii) αλγορίθμους που χρησιμοποιούν τη μέθοδο των k-μεσαίων (k-medoids), όπως είναι οι PAM [1], CLARA [1], CLARANS [1], και iii) αλγορίθμους που χρησιμοποιούν τη μέθοδο των k-μέσων (k-means). Σε γενικές γραμμές, οι αλγόριθμοι που χρησιμοποιούν μεθόδους τμηματοποίησης για ομαδοποίηση τείνουν να σχηματίζουν σφαιρικές ομάδες. Μέθοδοι με βάση την πυκνότητα (Density-Based Methods): Μπορούν να χαρακτηριστούν και ως μέθοδοι τμηματοποίησης, με τη διαφορά ότι η τμηματοποίηση δε γίνεται με βάση την απόσταση μεταξύ αντικειμένων, όπως συμβαίνει στην πληθώρα 20
21 των μεθόδων τμηματοποίησης, αλλά με βάση την πυκνότητα αυτών. Συγκεκριμένα, η κεντρική ιδέα σε αυτές τις μεθόδους είναι ότι μία ομάδα σχηματίζεται, όταν η πυκνότητα (αριθμός αντικειμένων) σε μία περιοχή υπερβαίνει κάποιο κατώφλι. Το πλεονέκτημα αυτών των μεθόδων είναι ότι επιτρέπουν την εύρεση ομάδων αυθαιρέτου σχήματος και δεν επηρεάζονται από την ύπαρξη οριακών τιμών στα δεδομένα. Συνήθως εφαρμόζονται σε χωρικά (spatial) δεδομένα, που έχουν μικρό αριθμό διαστάσεων και αριθμητικά χαρακτηριστικά. Γνωστοί αλγόριθμοι, που εκτελούν ομαδοποίηση με βάση την πυκνότητα, είναι οι DBSCAN [10], OPTICS [11], και DENCLUE [12]. Μέθοδοι για κατηγορικά δεδομένα: Στις περιπτώσεις όπου τα δεδομένα προς ομαδοποίηση είναι κατηγορικά (έχουν κατηγορικά χαρακτηριστικά), μία νέα έννοια παίζει καθοριστικό ρόλο στη διαδικασία, αυτή της συνύπαρξης (co-occurrence). Δύο κατηγορικές τιμές τοποθετούνται στην ίδια ομάδα, όταν συνυπάρχουν (co-occur) σε μεγάλο αριθμό αντικειμένων. Οι αλγόριθμοι ROCK [13], SNN [14] και CACTUS [15] βασίζονται σε τέτοιες πρακτικές. Η κατάσταση σε τέτοιου είδους δεδομένα επιδεινώνεται, όσο αυξάνεται ο αριθμός των αντικειμένων. Αυτός είναι και ο λόγος που, πολύ συχνά, εφαρμόζεται μια προ-ομαδοποίηση (pre-clustering) είτε αντικειμένων είτε τιμών κατηγορικών χαρακτηριστικών, πριν προχωρήσουμε στην καθ αυτή διαδικασία της ομαδοποίησης. Άλλες Τεχνικές Ομαδοποίησης: με τον όρο αυτό θα αναφερόμαστε σε μεθόδους ομαδοποίησης αντικειμένων, οι οποίες δεν εντάσσονται στις προαναφερόμενες κατηγορίες. Ανάμεσα στα άλλα, σε αυτή την ενότητα θα δούμε γενετικούς αλγορίθμους, όπως επίσης και αλγορίθμους που κάνουν ομαδοποίηση, λαμβάνοντας υπόψη περιορισμούς στα δεδομένα (constraint-based clustering) Ιεραρχική Ομαδοποίηση Η ιεραρχική ομαδοποίηση έχει ως αποτέλεσμα μια ιεραρχία από ομάδες ή, αλλιώς, ένα δένδρο από ομάδες, γνωστό και ως δενδρόγραμμα (dendrogram). Κάθε κόμβος στο δένδρο αντιστοιχεί σε μία ομάδα. Η ρίζα του δένδρου αντιστοιχεί στο σύνολο των αντικειμένων και κάθε φύλλο του σε κάθε ένα αντικείμενο χωριστά. Τα παιδιά ενός κόμβου απαρτίζουν τα τμήματα (ομάδες) στα οποία έχει διαιρεθεί η ομάδα που αντιστοιχεί στον πατέρα τους. Έτσι, οι αποστάσεις μεταξύ αντικειμένων, ομάδων ή ενός αντικειμένου και μιας ομάδας μπορούν να υπολογιστούν από τις αντίστοιχες αποστάσεις τους στο δένδρο. Εναλλακτικές περιπτώσεις ομαδοποίησης των αντικειμένων (με διαφορετικά επίπεδα λεπτομέρειας η καθεμιά) μπορούν να προκύψουν κόβοντας το δένδρο σε διάφορα επίπεδα. Συνεπώς, μπορούμε να πούμε ότι το δενδρόγραμμα αποτελεί μία αναπαράσταση ομαδοποίησης αφ ενός πολύ πλούσια σε πληροφορία και αφ ετέρου πολύ εύχρηστη για τον τελικό χρήστη, αφού του παρέχει οπτικοποιημένα όλες τις πιθανές ομαδοποιήσεις των αντικειμένων. Η δομή είναι ιδιαιτέρως αποδοτική ειδικά σε περιπτώσεις όπου υπάρχουν εγγενείς ιεραρχικές σχέσεις μεταξύ των αντικειμένων. Για να δώσουμε έναν πιο μαθηματικό ορισμό, σύμφωνα με τον [16] μπορούμε να πούμε ότι η ιεραρχική ομαδοποίηση ενός συνόλου αντικειμένων X, έχει ως αποτέλεσμα μια δενδροειδή δομή Η = {H 1,, H Q }, (Q N), έτσι ώστε αν C i H m, C j H l και m > l, τότε C i C j ή C i C j =, i, j i, m, l = 1,, Q. 21
22 Στα πλεονεκτήματα των ιεραρχικών αλγορίθμων, σύμφωνα με τον [2] συμπεριλαμβάνονται η ενσωματωμένη ευελιξία που έχουν σχετικά με τον έλεγχο του επιπέδου λεπτομέρειας της ομαδοποίησης, η δυνατότητα χρησιμοποίησης οποιασδήποτε μετρικής σχετικά με ομοιότητα ή απόσταση αντικειμένων και η εφαρμογή τους σε δεδομένα με χαρακτηριστικά οποιουδήποτε τύπου δεδομένων. Αντίθετα, στα μειονεκτήματά τους (σύμφωνα πάντα με τον [2]) κυρίαρχο ρόλο παίζει η έλλειψη δυνατότητας οπισθοδρόμησης σε ομαδοποιήσεις προηγουμένων επιπέδων (όπως αυτές απεικονίζονται στο δενδρόγραμμα), χαρακτηριστικό που στερεί από τους (καθαρά) ιεραρχικούς αλγορίθμους το περιθώριο της βελτίωσης. Επίσης, ένα άλλο αδύνατο σημείο των ιεραρχικών αλγορίθμων είναι ότι πολλές φορές, σε πραγματικά σύνολα δεδομένων, δε μπορεί να είναι γνωστή εκ των προτέρων η συνθήκη τερματισμού και επικρατεί μια ασάφεια σχετικά με το πότε πρέπει να σταματάει ο αλγόριθμος. H υπολογιστική πολυπλοκότητα των περισσοτέρων ιεραρχικών αλγορίθμων ομαδοποίησης είναι, τουλάχιστον, Ο(Ν 2 ), γεγονός που περιορίζει την εφαρμογή τους σε μεγάλα σύνολα δεδομένων. Οι ιεραρχικοί αλγόριθμοι διαχωρίζονται σε συγχωνευτικούς (agglomerative) και διαιρετικούς (divisive). Η συγχωνευτική ομαδοποίηση ξεκινάει με ομάδες που περιέχουν η καθεμιά μόνο ένα αντικείμενο (singleton clusters) και αναδρομικά ενώνει τις δύο περισσότερο όμοιες ομάδες σε μία. Η διαιρετική ομαδοποίηση ξεκινάει με μία ομάδα, που περιέχει όλα τα αντικείμενα, και αναδρομικά τι διαιρεί σε δύο ή περισσότερες ομάδες, προσπαθώντας να κρατήσει τα όμοια αντικείμενα σε μία ομάδα και να βάλει τα ανόμοια σε διαφορετικές ομάδες. Η διαδικασία, και στις δύο περιπτώσεις, σταματάει, όταν ικανοποιηθεί κάποια συνθήκη τερματισμού (συνήθως όταν επιτευχθεί ο ζητούμενος αριθμός ομάδων k). Για τη διαίρεση μια ομάδας, που έχει Ν αντικείμενα, σε δύο υπο-ομάδες, υπάρχουν 2 Ν- 1-1 δυνατές υποδιαιρέσεις. Το υπολογιστικό κόστος που προκύπτει είναι πολύ μεγάλο και γι αυτό σπάνια χρησιμοποιούνται οι διαιρετικές μέθοδοι ομαδοποίησης σε πραγματικά σύνολα δεδομένων. Συνεπώς, στα πλαίσια της συγκεκριμένης διπλωματικής θα εστιάσουμε στην περιγραφή κυρίως συγχωνευτικών αλγορίθμων, οι οποίοι έχουν σχεδιαστεί για εφαρμογή σε μεγάλα σύνολα δεδομένων. Αν κάποιος ενδιαφέρεται να εμβαθύνει στις διαιρετικές μεθόδους ομαδοποίησης, μπορεί να δει δύο αλγορίθμους που χρησιμοποιούν αυτές τέτοιες μεθόδους, τους MONA και DIANA (DIvisive ANAlysis) στο [17]. Η δομή αναπαράστασης δεδομένων που χρησιμοποιείται κατά κόρον από τους αλγορίθμους ιεραρχικής ομαδοποίησης είναι αυτή του Πίνακα Ανομοιότητας (βλ. Ενότ. 2.2). Πρόκειται για έναν πίνακα Ν x N, (όπου Ν ο αριθμός των αντικειμένων) o oποίος περιέχει τις αποστάσεις μεταξύ των αντικειμένων και λέγεται, εναλλακτικά, Πίνακας Συνδεσμικότητας (Connectivity Matrix). Η ιδέα της αποθήκευσης αυτού του πίνακα στην κύρια μνήμη δεν είναι ρεαλιστική για μεγάλα σύνολα δεδομένων. Γι αυτό χρησιμοποιούνται διάφορες τεχνικές συμπίεσης των στοιχείων του πίνακα, όπως παράλειψη των τιμών κάτω από κάποιο κατώφλι, δειγματοληψία των δεδομένων ή αποθήκευση για κάθε σημείο μόνο ενός συγκεκριμένου αριθμού πλησιεστέρων γειτόνων. Για τη συγχώνευση ή διαίρεση ομάδων, χρειάζεται μία μετρική που να υπολογίζει την απόσταση μεταξύ συνόλων αντικειμένων. Μία τέτοια μετρική ονομάζεται μετρική συνδεσμικότητας (linkage metric). Είναι φανερό ότι η μετρική συνδεσμικότητας, που εφαρμόζει ένας ιεραρχικός αλγόριθμος, επηρεάζει το αποτέλεσμα της ομαδοποίησης. Οι κυριότερες μετρικές συνδεσμικότητας μεταξύ ομάδων στοιχείων είναι οι απλού συν- 22
23 δέσμου (single link), μέσου συνδέσμου (average link) και μέγιστου συνδέσμου (complete link) [18]. Για τον υπολογισμό αυτών, υπολογίζεται, καταρχήν, η απόσταση μεταξύ όλων των σημείων p, p, όπου το p ανήκει στη μία ομάδα και το p στην άλλη. Έστω ότι p - p είναι η απόσταση μεταξύ των σημείων p, p και n i το πλήθος αντικειμένων στην ομάδα C i. Τότε [1]: Minimum distance: dmin ( Ci, C j ) = min p C p C p p i, j Maximum distance: dmax ( Ci, C j ) = max p C p C p p i, j 1 Average distance : davg ( Ci, C j ) = p p n n p C i p C j i Ανάλογα με το ποια από τις παραπάνω μετρικές απόστασης χρησιμοποιείται, οι αλγόριθμοι διακρίνονται σε: i) Aλγορίθμους απλού συνδέσμου (single link), στους οποίους η απόσταση μεταξύ δύο ομάδων ορίζεται ως η απόσταση μεταξύ των δύο πλησιεστέρων σημείων τους (Minimum distance). Η μέθοδος αυτή είναι γνωστή και ως μέθοδος πλησιέστερου γείτονα. Παράδειγμα ενός τέτοιου αλγορίθμου είναι ο SLINK [19], ii) Αλγορίθμους πλήρους συνδέσμου (complete link), στους οποίους η απόσταση μεταξύ δύο ο- μάδων ορίζεται ως η απόσταση μεταξύ των δύο πιο απομακρυσμένων τους σημείων (Maximum distance). Παράδειγμα τέτοιου αλγορίθμου είναι ο CLINK [20], και iii) Αλγορίθμους μέσου συνδέσμου (average link), στους οποίους η απόσταση μεταξύ δύο ο- μάδων ορίζεται ως η μέση απόσταση μεταξύ όλων των σημείων τους (Average distance). Παράδειγμα ενός τέτοιου αλγορίθμου συναντάται στο [21]. H κατηγοριοποίηση των ιεραρχικών αλγορίθμων απεικονίζεται στο Σχήμα 2.1. j Σχήμα 2.1: Κατηγοριοποίηση Ιεραρχικών Αλγορίθμων Ομαδοποίησης Όπως έχει, ήδη, αναφερθεί ένα σοβαρό μειονέκτημα των καθαρά ιεραρχικών αλγορίθμων ομαδοποίησης είναι η έλλειψη δυνατότητας οπισθοδρόμησης, γεγονός που τους στερεί την ικανότητα να διορθώνουν λανθασμένες αποφάσεις. Αυτό, σε συνδυασμό με το ότι σε πραγματικά σύνολα δεδομένων είναι πολύ δύσκολο να είναι γνωστός εκ των προτέρων ο αριθμός των ομάδων, έτσι ώστε ο αλγόριθμος να γνωρίζει, ακριβώς, σε ποιο βήμα πρέπει να σταματήσει, οδηγεί πολλές φορές σε ομαδοποιήσεις πολύ χαμηλής ποιότητας. 23
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία
ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση
Διαβάστε περισσότεραClustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων
Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία
Διαβάστε περισσότεραΕιδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ
ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η
Διαβάστε περισσότεραΟμαδοποίηση Ι (Clustering)
Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Διαβάστε περισσότεραΟΜΑΔΕΣ. Δημιουργία Ομάδων
Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση
ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης
Διαβάστε περισσότεραΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση
Διαβάστε περισσότεραΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του
Διαβάστε περισσότεραMBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Διαβάστε περισσότεραΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ
ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ
Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ
Διαβάστε περισσότεραΑνάκτηση πολυμεσικού περιεχομένου
Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση
Διαβάστε περισσότεραΟι δυναμικές δομές δεδομένων στην ΑΕΠΠ
Καθηγητής Πληροφορικής Απαγορεύεται η αναπαραγωγή των σημειώσεων χωρίς αναφορά στην πηγή Οι σημειώσεις, αν και βασίζονται στο διδακτικό πακέτο, αποτελούν προσωπική θεώρηση της σχετικής ύλης και όχι επίσημο
Διαβάστε περισσότερα1 Συστήματα Αυτοματισμού Βιβλιοθηκών
1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία
Διαβάστε περισσότεραJ-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου
J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,
Διαβάστε περισσότεραΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ Συνδυασμένη χρήση μοντέλων προσομοίωσης βελτιστοποίησης. Η μέθοδος του μητρώου μοναδιαίας απόκρισης Νικόλαος
Διαβάστε περισσότεραΟι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:
ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται
Διαβάστε περισσότεραΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ
ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΚΩΔΙΚΟΣ ΠΑΡΑΔΟΤΕΟΥ: Π18 ΑΡΙΘΜΟΣ ΠΡΩΤΟΚΟΛΛΟΥ ΈΡΓΟΥ: ΤΠΕ/ΟΡΖΙΟ/0308(ΒΕ)/03 ΤΙΤΛΟΣ ΕΡΓΟΥ: ΓΕΝΙΚΕΥΜΕΝΟ ΣΥΣΤΗΜΑ ΑΣΑΦΟΥΣ ΓΝΩΣΤΙΚΟΥ ΧΑΡΤΗ
Διαβάστε περισσότεραΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ www.cslab.ece.ntua.gr Διπλωματικές
Διαβάστε περισσότεραΟμαδοποίηση ΙΙ (Clustering)
Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Διαβάστε περισσότεραΔιαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Διπλωματική Εργασία με θέμα: Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού Καραγιάννης Ιωάννης Α.Μ.
Διαβάστε περισσότεραΑνάλυση κατά Συστάδες. Cluster analysis
Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες
Διαβάστε περισσότεραΖητήματα ηήμ με τα δεδομένα
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών
Διαβάστε περισσότεραΕννοιολογική Ομοιογένεια
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας Βιβλιοθηκονομίας Εργαστήριο Ψηφιακών Βιβλιοθηκών και Ηλεκτρονικής Δημοσίευσης Εννοιολογική Ομοιογένεια Αξιοποίηση Ταξινομικών Συστημάτων Γεωργία Προκοπιάδου, Διονύσης
Διαβάστε περισσότεραΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα
Διαβάστε περισσότεραΕξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι
Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση
Διαβάστε περισσότεραΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται
Διαβάστε περισσότεραΓουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας
1. Εισαγωγή Σχολιασµός των εργασιών της 16 ης παράλληλης συνεδρίας µε θέµα «Σχεδίαση Περιβαλλόντων για ιδασκαλία Προγραµµατισµού» που πραγµατοποιήθηκε στο πλαίσιο του 4 ου Πανελλήνιου Συνεδρίου «ιδακτική
Διαβάστε περισσότεραΤεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας
Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.
Διαβάστε περισσότεραΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών
44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.
Διαβάστε περισσότεραΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗ, Γ ΤΑΞΗ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ
ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗ, Γ ΤΑΞΗ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ Σκοπός του μαθήματος είναι οι μαθητές και οι μαθήτριες να αναπτύξουν ικανότητες αναλυτικής και συνθετικής σκέψης, ώστε να επιλύουν προβλήματα, να σχεδιάζουν
Διαβάστε περισσότερα2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ
ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ και ΔΟΜΗ ΑΚΟΛΟΥΘΙΑΣ 2.1 Να δοθεί ο ορισμός
Διαβάστε περισσότεραΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ
ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση
Διαβάστε περισσότερα2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ
2.2.5 ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ ΑΝΑΠΑΡΑΣΤΑΣΗ ΑΛΓΟΡΙΘΜΟΥ Προκειμένου να επιτευχθεί η «ακριβής περιγραφή» ενός αλγορίθμου, χρησιμοποιείται κάποια γλώσσα που μπορεί να περιγράφει σειρές ενεργειών με τρόπο αυστηρό,
Διαβάστε περισσότεραΑριθμητική εύρεση ριζών μη γραμμικών εξισώσεων
Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραΣτατιστική Ι (ΨΥΧ-1202) ιάλεξη 3
(ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,
Διαβάστε περισσότεραΑναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται
Διαβάστε περισσότεραΑλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία
Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία Ενότητα 2: Ο Άνθρωπος Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative
Διαβάστε περισσότεραφροντιστήρια Θέματα Ανάπτυξης Εφαρμογών σε Προγραμματιστικό Περιβάλλον Γ λυκείου Προσανατολισμός Σπουδών Οικονομίας και Πληροφορικής
Θέματα Ανάπτυξης Εφαρμογών σε Προγραμματιστικό Περιβάλλον Γ λυκείου Προσανατολισμός Σπουδών Οικονομίας και Πληροφορικής Θέμα Α Α1. Να γράψετε στο τετράδιο σας το γράμμα της κάθε πρότασης και δίπλα τη λέξη
Διαβάστε περισσότεραΜεθοδολογίες Αξιοποίησης Δεδομένων
Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης
Διαβάστε περισσότεραΕισαγωγή στην επιστήμη των υπολογιστών
Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα
Διαβάστε περισσότεραΔυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι
Δυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι Κ Ο Τ Ι Ν Η Ι Σ Α Β Ε Λ Λ Α Ε Κ Π Α Ι Δ Ε Υ Τ Ι Κ Ο Σ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Π Ε 8 6 Ν Ε Ι Ρ Ο Σ Α Ν Τ Ω ΝΙ Ο Σ Ε Κ Π Α Ι Δ Ε Υ Τ Ι Κ Ο Σ Π Λ Η Ρ Ο Φ Ο
Διαβάστε περισσότεραΣου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.
AeppAcademy.com facebook.com/aeppacademy Γεια. Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά. Καλή Ανάγνωση & Καλή Επιτυχία
Διαβάστε περισσότερα1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;
1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι
Διαβάστε περισσότεραΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι
ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα
Διαβάστε περισσότεραΠεριεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.
Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη
Διαβάστε περισσότεραΕργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη
Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη 01 Εισαγωγή Μια απλή και γρήγορη εισαγωγή Το Splunk > είναι ένα πρόγραμμα το οποίο πρωτοεμφανίστηκε στην αγορά το 2003 και αποτελεί ένα πρόγραμμα εξόρυξης
Διαβάστε περισσότεραΠροβλήματα, αλγόριθμοι, ψευδοκώδικας
Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι
Διαβάστε περισσότεραΣυμπίεση Δεδομένων
Συμπίεση Δεδομένων 2013-2014 JPEG 2000 Δρ. Ν. Π. Σγούρος 2 JPEG 2000 Βασικά χαρακτηριστικά Επιτρέπει συμπίεση σε εξαιρετικά χαμηλούς ρυθμούς όπου η συμπίεση με το JPEG εισάγει μεγάλες παραμορφώσεις Ενσωμάτωση
Διαβάστε περισσότεραΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος
ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος 1 Βασίλειος Χρυσικόπουλος Καθηγητής Πληροφορική Δίκτυα Ασφάλεια Πληροφοριών Ερευνητικά Ενδιαφέροντα Ασφάλεια Δίκτυα Η/Υ http://di.ionio.gr/staff-2/faculty-staff/vassilischrissikopoulos/
Διαβάστε περισσότεραΜεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές
Διαβάστε περισσότεραΠρόβλημα 37 / σελίδα 207
Πρόβλημα 37 / σελίδα 207 2.5. Ôåóô áõôïáîéïëüãçóçò Δίνονται οι παρακάτω ομάδες προτάσεων. Σε κάθε μία από αυτές, να κάνετε τις απαραίτητες διορθώσεις ώστε να ισχύουν οι προτάσεις 1. Η αναπαράσταση
Διαβάστε περισσότεραΕυφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων
Διαβάστε περισσότεραΚ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις
Κ15 Ψηφιακή Λογική Σχεδίαση 2: Δυαδικό Σύστημα / Αναπαραστάσεις Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυαδικό Σύστημα Αρίθμησης Περιεχόμενα 1 Δυαδικό
Διαβάστε περισσότεραΔιδακτική της Πληροφορικής ΙΙ
Διδακτική της Πληροφορικής ΙΙ Ομάδα Γ Βότσης Ευστάθιος Γιαζιτσής Παντελής Σπαής Αλέξανδρος Τάτσης Γεώργιος Προβλήματα που αντιμετωπίζουν οι αρχάριοι προγραμματιστές Εισαγωγή Προβλήματα Δυσκολίες Διδακτικό
Διαβάστε περισσότεραΣτο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.
ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για
Διαβάστε περισσότεραΠεριεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15
Περιεχόμενα Πρόλογος 15 ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 1 Τεχνητή νοημοσύνη 21 1.1 Εισαγωγή 21 1.2 Ιστορική εξέλιξη 22 1.3 Εφαρμογές Τεχνητής Νοημοσύνης 25 2 Επίλυση Προβλημάτων 29 2.1 Διαμόρφωση
Διαβάστε περισσότεραΠρογραμματισμός ΙI (Θ)
Τεχνολογικό Εκπαιδευτικό Ίδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Προγραμματισμός ΙI (Θ) Δρ. Δημήτρης Βαρσάμης Επίκουρος Καθηγητής Μάρτιος 2017 Δρ. Δημήτρης Βαρσάμης Μάρτιος 2017
Διαβάστε περισσότεραP-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης
P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης ιπλωµατική Εργασία του Θεοδώρου Ι. Γαλάνη ΠΕΡΙΛΗΨΗ Γενικά Με την εξάπλωση του διαδικτύου όλο και περισσότεροι
Διαβάστε περισσότεραΕννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή
Το λογισμικό της εννοιολογικής χαρτογράυησης Inspiration Η τεχνική της εννοιολογικής χαρτογράφησης αναπτύχθηκε από τον καθηγητή Joseph D. Novak, στο πανεπιστήμιο του Cornell. Βασίστηκε στις θεωρίες του
Διαβάστε περισσότεραΒιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό
Διαβάστε περισσότεραΕρωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου
Ερωτήσεις- Απαντήσεις Πολυμέσα Απο το Βιβλίο Εφαρμογές Η/Υ Α,Β,Γ Λυκείου 1. Τι ονομάζουμε κόμβο και τι σύνδεσμο σε μια μη γραμμικά διαρθρωμένη ύλη; Με την έννοια σύνδεσμος (link) σε μια μη γραμμικά διαρθρωμένη
Διαβάστε περισσότεραΕισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι
Εισαγωγή στην επιστήμη των υπολογιστών Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι 1 Έννοια Ανεπίσημα, ένας αλγόριθμος είναι μια βήμα προς βήμα μέθοδος για την επίλυση ενός προβλήματος ή την διεκπεραίωση
Διαβάστε περισσότεραΔιαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση
Διαδικασίες παραγωγής λογισμικού Περιεχόμενα Παρουσίαση μοντέλων διεργασίας ανάπτυξης λογισμικού Περιγραφή τριών γενικών μοντέλων διεργασίας ανάπτυξης λογισμικού Γενική περιγραφή των διαδικασιών που περιλαμβάνονται
Διαβάστε περισσότεραΕνότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )
ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και
Διαβάστε περισσότεραΑνάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΚΕΦΑΛΑΙΑ 3 και 9 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΕΣ Δεδομένα αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της δηλαδή.
Διαβάστε περισσότεραΕπαναληπτικές μέθοδοι
Επαναληπτικές μέθοδοι Η μέθοδος της διχοτόμησης και η μέθοδος Regula Fals που αναφέραμε αξιοποιούσαν το κριτήριο του Bolzano, πραγματοποιώντας διαδοχικές υποδιαιρέσεις του διαστήματος [α, b] στο οποίο,
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε
Διαβάστε περισσότεραΚεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΒιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό
Διαβάστε περισσότεραΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. 1 ο ΚΕΦΑΛΑΙΟ
ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ 1 ο ΚΕΦΑΛΑΙΟ 1) Τι είναι πρόβλημα (σελ. 3) 2) Τι είναι δεδομένο, πληροφορία, επεξεργασία δεδομένων (σελ. 8) 3) Τι είναι δομή ενός προβλήματος (σελ. 8)
Διαβάστε περισσότεραΠΕΡΙΕΧΟΜΕΝΑ. Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων
ΠΕΡΙΕΧΟΜΕΝΑ Μονοδιάστατοι πίνακες Πότε πρέπει να χρησιμοποιούνται πίνακες Πολυδιάστατοι πίνακες Τυπικές επεξεργασίες πινάκων Εισαγωγή Η χρήση των μεταβλητών με δείκτες στην άλγεβρα είναι ένας ιδιαίτερα
Διαβάστε περισσότεραΠανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017
Διαβάστε περισσότεραΠληροφοριακά Συστήματα Διοίκησης
Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων
Διαβάστε περισσότερα3. Προσομοίωση ενός Συστήματος Αναμονής.
3. Προσομοίωση ενός Συστήματος Αναμονής. 3.1. Διατύπωση του Προβλήματος. Τα συστήματα αναμονής (queueing systems), βρίσκονται πίσω από τα περισσότερα μοντέλα μελέτης της απόδοσης υπολογιστικών συστημάτων,
Διαβάστε περισσότεραΑποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης
Διαβάστε περισσότεραΠανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 21/10/2016
Διαβάστε περισσότεραΕνδεικτικές Ερωτήσεις Θεωρίας
Ενδεικτικές Ερωτήσεις Θεωρίας Κεφάλαιο 2 1. Τι καλούμε αλγόριθμο; 2. Ποια κριτήρια πρέπει οπωσδήποτε να ικανοποιεί ένας αλγόριθμος; 3. Πώς ονομάζεται μια διαδικασία που δεν περατώνεται μετά από συγκεκριμένο
Διαβάστε περισσότεραΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Λύσεις 2η σειράς ασκήσεων Προθεσμία παράδοσης: 18 Μαίου 2015 Πρόβλημα 1. (14
Διαβάστε περισσότεραΠληροφορική 2. Δομές δεδομένων και αρχείων
Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες
Διαβάστε περισσότεραΔιαχείριση Πολιτισμικών Δεδομένων
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και
Διαβάστε περισσότεραΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ
ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,
Διαβάστε περισσότεραΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μάθημα 10: Ανάπτυξη ΠΣ Μαρίνος Θεμιστοκλέους Email: mthemist@unipi.gr Ανδρούτσου 150 Γραφείο 206 Τηλ. 210 414 2723 Ώρες Γραφείου: Δευτέρα 11-12 πμ Ενδεικτικά Περιεχόμενα Εργασίας
Διαβάστε περισσότεραΠεριεχόμενα. 2 Αριθμητικά συστήματα
Περιεχόμενα Πρόλογος 1 Εισαγωγή 1.1 Το μοντέλο Turing 1.2 Το μοντέλο von Neumann 1.3 Συστατικά στοιχεία υπολογιστών 1.4 Ιστορικό 1.5 Κοινωνικά και ηθικά ζητήματα 1.6 Η επιστήμη των υπολογιστών ως επαγγελματικός
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΟι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.
Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός
Διαβάστε περισσότεραΜαθησιακές δραστηριότητες με υπολογιστή
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Μαθησιακές δραστηριότητες με υπολογιστή Κατευθυντήριες γραμμές σχεδίασης μαθησιακών δραστηριοτήτων Διδάσκων: Καθηγητής Αναστάσιος Α. Μικρόπουλος Άδειες
Διαβάστε περισσότεραΚΕΦΑΛΑΙΑ XIII, XIV. Εκσφαλμάτωση προγράμματος - Κύκλος Ζωής Λογισμικού
ΚΕΦΑΛΑΙΑ XIII, XIV Ένας προγραμματιστής ανεξάρτητα από το πόσο ικανός είναι, όταν δημιουργεί ένα πρόγραμμα, είναι φυσικό να κάνει ορισμένα λάθη. Σε ένα πρόγραμμα είναι δυνατό να παρουσιαστούν διαφορετικής
Διαβάστε περισσότεραΚύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής
Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των
Διαβάστε περισσότεραΠΛΗΡΟΦΟΡΙΚΗ Γ ΤΑΞΗΣ ΓΕΛ ΚΛΕΙΩ ΣΓΟΥΡΟΠΟΥΛΟΥ. ΣΥΓΧΡΟΝΑ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Αντικειμενοστραφής Προγραμματισμός
ΠΛΗΡΟΦΟΡΙΚΗ Γ ΤΑΞΗΣ ΓΕΛ ΣΥΓΧΡΟΝΑ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Αντικειμενοστραφής Προγραμματισμός ΚΛΕΙΩ ΣΓΟΥΡΟΠΟΥΛΟΥ ΥΠΠΕΘ 04.07.2019 ΕΠΙΜΟΡΦΩΣΗ ΣΤΟ ΝΕΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΥΛΙΚΟ Αντικειμενοστραφής Προγραμματισμός.
Διαβάστε περισσότεραΕφαρμογές Προσομοίωσης
Εφαρμογές Προσομοίωσης H προσομοίωση (simulation) ως τεχνική μίμησης της συμπεριφοράς ενός συστήματος από ένα άλλο σύστημα, καταλαμβάνει περίοπτη θέση στα πλαίσια των εκπαιδευτικών εφαρμογών των ΤΠΕ. Μπορούμε
Διαβάστε περισσότερα