ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle"

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle Βρυώνης Ευάγγελος, ΑΕΜ 432 Τσούτσας ηµήτριος, ΑΕΜ 370 Επιβλέπων: Κόκκινος Ιωάννης Σέρρες, Ιούνιος 2011

2

3 ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) ΟΡΙΣΜΟΙ ΤΟΥ DATA MINING Μέθοδοι και λειτουργίες Data Mining ΟΙ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ORACLE ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΣΥΣΤΑ ΩΝ ΣΤΟΧΟΙ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΒΗΜΑΤΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΙΑ ΙΚΑΣΙΑ CLUSTERING ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ- ΜΕΤΡΑ ΑΝΟΜΟΙΟΤΗΤΑΣ: ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ CLUSTERS ΕΓΚΥΡΟΤΗΤΑ- ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΈΛΕΓΧΟΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΑ ΩΝ ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ The Data Matrix The Proximity Matrix The Proximity Graph ΑΛΓΟΡΙΘΜΟΙ ΙΕΡΑΡΧΙΚΟΥ CLUSTERING ΙΑΜΕΡΙΣΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ CLUSTERING CLUSTERING ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ FUZZY CLUSTERING ΕΝΝΟΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ ΓΡΑΦΟ-ΘΕΩΡΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Αραιοποίηση Sparsification GRAPH-JARVIS-PATRIC ΕΠΕΚΤΑΣΕΙΣ ΣΤΟΝ ΑΛΓΟΡΙΘΜΟ JARVIS- PATRICK ΑΠΟΤΕΛΕΣΜΑΤΑ JARVIS-PATRIC ver ΑΠΟΤΕΛΕΣΜΑΤΑ JARVIS-PATRIC ver ΚΩ ΙΚΑΣ ΕΦΑΡΜΟΓΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑ... 84

4

5 ΠΕΡΙΛΗΨΗ Συσταδοποίηση ή οµαδοποίηση σε βάσεις δεδοµένων είναι η τεχνική εξόρυξης γνώσης από δεδοµένα (data mining) που οργανώνονται σε συστάδες (οµάδες ή κλάσεις ή συγκροτήµατα) για περαιτέρω κατάταξη. Ενώ πολλοί αλγόριθµοι που βασίζονται σε αποστάσεις όπως οι DBSCAN και CURE χρησιµοποιήθηκαν για την επίλυση προβληµάτων σε δεδοµένα λίγων διαστάσεων, η ύπαρξη πολλών διαστάσεων φέρνει πρόσθετες προκλήσεις που περιέχουν το κύριο πρόβληµα της διαστασιµότητας, καθώς οι συναρτήσεις απόστασης µεταξύ των σηµείων που καθορίζουν την οµοιότητά τους, γίνονται σχεδόν οµοιόµορφες δυσκολεύοντας το διαχωρισµό τους σε οµάδες. Οι ιδέες και έννοιες της θεωρίας γράφων διευκολύνουν την περιγραφή των προβληµάτων ανίχνευσης οµάδων δεδοµένων µέσω γράφων. Οι κορυφές (κόµβοι) V ενός ζυγισµένου γράφου G αντιστοιχούν σε σηµεία δεδοµένων στο χώρο των προτύπων και οι ακµές Ε απεικονίζουν τη γειτνίαση µεταξύ ζευγών σηµείων. Μία προσέγγιση οµοιότητας βασισµένη σε γράφο κοινών κοντινών γειτόνων όπως προτάθηκε από τους Jarvis-Patrick και µετέπειτα στον αλγόριθµο ROCK, είναι µία προτεινόµενη µέθοδος λύσης και για το παραπάνω πρόβληµα, καθώς επίσης και για την συσταδοποίηση µη-αριθµητικών δεδοµένων κατηγοριών. Η οµοιότητα δύο σηµείων καθορίζεται όχι σύµφωνα µε κάποια απόσταση αλλά µε τον αριθµό των κοντινών γειτόνων που µοιράζονται. Έτσι ο αλγόριθµος Jarvis-Patrick εισήγαγε τον γράφο γειτνίασης k-πλησιέστερων κορυφών και τον γράφο κοινών κοντινών γειτόνων (shared nearest neighbour graph). Ο αλγόριθµος Jarvis- Patrick µοιάζει έπειτα ως προς τα αποτελέσµατα µε την τεχνική της ιεραρχικής συσωρευτικής συσταδοποίησης απλού συνδέσµου και ο ROCK µε αυτή του µέσου συνδέσµου. i j i 4 j Ο αλγόριθµος Jarvis-Patrick είναι ο πρώτος µη ιεραρχικός αλγόριθµος που εισήγαγε τον γράφο κοινών κοντινών γειτόνων. Οµοίως ο αλγόριθµος ROCK µετασχηµατίζει τις αρχικές οµοιότητες µεταξύ δύο αντικειµένων, που υπολογίζονται µε συντελεστές Jaccard, σε οµοιότητες που αντανακλούν τον αριθµό των κοινών γειτόνων τους. Οι αλγόριθµοι που ακολούθησαν όπως οι Chameleon, Min-cut, HCS (highly connected subgraphs), CLICK (clustering identification via connectivity kernels), CAST (cluster affinity search technique), AMOEBA, SNN, C2P αποδεικνύουν την δηµοφιλία της χρήσης των γράφων γειτνίασης k-πλησιέστερων κορυφών και των γράφων κοινών κοντινών γειτόνων σε παρόµοιες εφαρµογές. Οι δύο τελευταίοι αλγόριθµοι SNN και C2P που είναι και πρόσφατοι εµπεριέχουν στα βήµατά τους τον αρχικό αλγόριθµο Jarvis- Patrick, και έπειτα συνεχίζουν ο πρώτος µε τον DBSCAN και ο δεύτερος µε τον MST.

6 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) 1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Εξόρυξη δεδοµένων (data mining) είναι η ανάλυση συνήθως τεράστιων παρατηρούµενων συνόλων δεδοµένων, έτσι ώστε να βρεθούν µη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδοµένα µε καινοφανείς τρόπους οι οποίοι να είναι κατανοητοί και χρήσιµοι στον κάτοχο των δεδοµένων. Η ανάλυση των δεδοµένων αποτελεί τη βάση σε πολλές εφαρµογές στον τοµέα της πληροφορικής, είτε κατά την διάρκεια της σχεδίασης κάποιας εφαρµογής ή κατά την λειτουργία της. εκαετία 1960 εκαετία 1970 εκαετία 1980 εκαετία 1990 εκαετία 2000-σήµερα Εξέλιξη της τεχνολογίας των βάσεων δεδοµένων συλλογή δεδοµένων, δηµιουργία βάσεων, ιεραρχικά (IMS) και δικτυωτά συστήµατα Σχεσιακό µοντέλο, υλοποίηση σχεσιακών διαχείρισης βάσεων δεδοµένων (RDBMS) συστηµάτων Εµπορικά RDBMS, γλώσσα SQL-1, πρώτα αντικειµενοσχεσιακά και αντικειµενοστραφή µοντέλα, επαγωγικές βάσεις δεδοµένων γλώσσα SQL-2, εξόρυξη γνώσης, αποθήκες δεδοµένων, βάσεις πολυµέσων εξόρυξη γνώσης µε πληθώρα επιστηµονικών εφαρµογών, γλώσσα SQL-3, διαχείριση δεδοµένων συνεχούς ροής, τεχνολογίες διαδικτύου και παγκόσµια συστήµατα ανάκλησης πληροφοριών Οι διαδικασίες ανάλυσης δεδοµένων µπορούν να χωριστούν σε δύο κατηγορίες, Α) τις διαδικασίες ανεύρεσης, µε στόχο την ανακάλυψη και την κατασκευή υποθέσεων από τα δεδοµένα, και Β) τις διαδικασίες επιβεβαίωσης µε στόχο την λήψη αποφάσεων δεδοµένης της δοµής της πληροφορίας. Ο διαχωρισµός βασίζεται στην ύπαρξη ή µη κατάλληλων µοντέλων τα οποία εκφράζουν την πηγή των δεδοµένων. Και στις δύο περιπτώσεις διαδικασιών όµως, σηµείο κλειδί είναι η οµαδοποίηση (ή κατηγοριοποιήση) των στοιχείων µε βάση (α) το υιοθετηµένο µοντέλο, ή (β) τις φυσικές οµάδες δεδοµένων (κατηγοριοποίηση) που προκύπτουν από την ανάλυση των δεδοµένων. Η ανάλυση συστάδων ή πιο απλά το clustering είναι η οργάνωση µιας συλλογής από δείγµατα-στοιχεία σε συστάδες µε βάση κάποιο µέτρο οµοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσµατα τιµών κάποιων µέτρων ή αναπαριστόνται ως σηµεία σε έναν πολυδιάστατο χώρο. Στοιχεία που ανήκουν στην ίδια οµάδα παρουσιάζουν µεγαλύτερη οµοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές οµάδες. 1

7 ύο είναι οι βασικοί στόχοι της εξόρυξης δεδοµένων: Η πρόβλεψη (prediction) και Η περιγραφή (description). ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Η πρόβλεψη εµπλέκει κάποιες µεταβλητές ή κάποια πεδία της βάσης δεδοµένων έτσι ώστε να προβλεφθούν άγνωστες ή µελλοντικές τιµές ή και άλλες µεταβλητές ενδιαφέροντος. Η περιγραφή από την άλλη πλευρά εστιάζει κυρίωςνστην ανακάλυψη προτύπων στα δεδοµένα τα οποία εύκολα µπορούν να ερµηνευτούν και να τα περιγράψουν. Οι κυριότερες λειτουργίες στην εξόρυξη δεδοµένων είναι η ταξινόµηση (classification) και η οµαδοποίηση (clustering). Σκοπός της ταξινόµησης είναι η παραγωγή κανόνων από µεγάλες σχεσιακές βάσεις δεδοµένων που να µπορούν να ταξινοµήσουν καινούργια άγνωστα δεδοµένα σε προκαθορισµένες κλάσεις οι οποίες να περιγράφονται από ένα σύνολο χαρακτηριστικών. Η εξαγωγή των κανόνων γίνεται µε την χρήση µεθόδων µάθησης µε επίβλεψη (supervised learning methods). Η δεύτερη βασική λειτουργία στην εξόρυξη δεδοµένων είναι η οµαδοποίηση των εγγραφών µια βάσης δεδοµένων σε υποοµάδες (clustering). Η οµαδοποίηση είναι µια περιγραφική λειτουργία που σκοπό έχει την ανίχνευση ενός πεπερασµένου πλήθους οµάδων ή κατηγοριών (clusters) που περιέχονται στα δεδοµένα. Όπως έχει τονιστεί και παραπάνω πολλές διαδικασίες εξόρυξης προϋποθέτουν ένα προκαταταγµένο σύνολο δεδοµένων εκπαίδευσης και επιχειρούν την ανάπτυξη ενός αξιόπιστου µοντέλου ικανού να προβλέπει την κατάταξη ενός καινούργιου µη καταταγµένου αντικειµένου. Στην οµαδοποίηση δεν υπάρχουν ούτε εκ των προτέρων ταξινοµηµένα δεδοµένα αλλά ούτε και διαχωρισµοί µεταξύ εξαρτηµένων και ανεξάρτητων µεταβλητών. Εδώ αναζητούνται όµοιες οµάδες εγγραφών (clusters) µε την ελπίδα αυτές να έχουν όµοιες ιδιότητες και να περιγράφουν τα δεδοµένα µας. Θα πρέπει να αναφέρουµε εδώ ότι οι αλγόριθµοι οµαδοποίησης διαχειρίζονται µεγάλο πλήθος δεδοµένων και απαιτούν έναν αρκετά µεγάλο αριθµό υπολογισµών. Συνεπώς οι η πολυπλοκότητά τους εξαρτάται από το πλήθος των δεδοµένων που επεξεργάζεται ο κάθε αλγόριθµος. Από την άλλη, το τεράστιο µέγεθος των δεδοµένων που αποθηκεύονται στις βάσεις δεδοµένων ωθεί σήµερα το ερευνητικό ενδιαφέρον κυρίως σε αλγορίθµους οµαδοποίησης, που µπορούν αν χειριστούν δεδοµένα πολύ µεγαλύτερα από την κύρια µνήµη ενός επεξεργαστή. Για την αντιµετώπιση αυτού του προβλήµατος έχει προταθεί µια επαναληπτική διαδικασία, που βασίζεται στην τµηµατοποίηση του συνόλου των δεδοµένων σε υποσύνολα. Στην πρώτη φάση, κάθε υποσύνολο δίνεται ως είσοδός σε κάθε έναν αλγόριθµο οµαδοποίησης. Κατά την δεύτερη φάση, τα µερικά αποτελέσµατα σχηµατίζουν ένα σύνολο δεδοµένων το οποίο τµηµατοποιείται σε οµάδες τις καλούµενες και µετα οµάδες (meta clusters). Κάτω από ορισµένες συνθήκες οι οµάδες αυτές αποτελούν τις επιθυµητές οµάδες. 2

8 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Η διαδικασία εύρεσης χρήσιµων µοντέλων και πληροφοριών έχει πάρει διάφορα ονόµατα όπως, data mining, knowledge extraction, information discovery, information harvesting, data archaeology, and data pattern processing. O όρος data mining χρησιµοποιούταν κυρίως από στατιστικολόγους, αναλυτές δεδοµένων, και management information systems (MIS). Επίσης είναι αρκετά δηµοφιλής στο πεδίο των Βάσεων εδοµένων. Η φράση Knowledge Discovery in KDD τέθηκε το 1991 από τους Piatesky Saphiro για να δώσει έµφαση στο ότι η γνώση είναι το αποτέλεσµα αυτής της διαδικασίας. Για να έχουν τα αποτελέσµατα της διαδικασίας πρακτική αξία και τα πρότυπα που θα δηµιουργηθούν από την διαδικασία απαιτείται και η ανθρώπινη παρέµβαση. Οι περισσότερες Data Mining µέθοδοι βασίζονται σε χρησιµοποιηµένες και δοκιµασµένες τεχνικές όπως machine learning, αναγνώριση προτύπων (pattern recognition) και στατιστική: classification, regression, κ.α. Συχνά τα διαθέσιµα στοιχεία περιλαµβάνουν µόνο ένα δείγµα από τον πλήρη πληθυσµό. Ο στόχος µπορεί να είναι να γενικεύσουµε από το δείγµα στον πληθυσµό. Παραδείγµατος χάριν, µπορεί να επιθυµήσουµε να προβλέψουµε πώς οι µελλοντικοί πελάτες είναι πιθανό να συµπεριφερθούν ή να καθορίσουµε τις ιδιότητες των πρωτεϊνικών δοµών που δεν έχουµε δει ακόµα. Μερικές φορές µπορούµε να θελήσουµε να συνοψίσουµε ή να συµπιέσουµε ένα πολύ µεγάλο σύνολο στοιχείων κατά τέτοιο τρόπο ώστε το αποτέλεσµα είναι πιο κατανοητό, χωρίς οποιαδήποτε έννοια της γενίκευσης. Αυτό το ζήτηµα θα προέκυπτε, παραδείγµατος χάριν, εάν είχαµε τα πλήρη στοιχεία απογραφής για τα εκατοµµύρια συγκεκριµένων χωρών ή µιας καταγραφής βάσεων δεδοµένων των µεµονωµένων λιανικών συναλλαγών. Με την εξέλιξη της εξόρυξης γνώσης, πολλοί διαφορετικοί επιστηµονικοί κλάδοι συγκλίνανε προς αυτήν την κατεύθυνση, όπως: Στατιστική, Μηχανική µάθηση, Αλγόριθµοι συσταδοποίησης, Τεχνικές Οπτικοποίησης των αποτελεσµάτων, Ανάκτηση πληροφοριών, Βάσεις εδοµένων, όπου τα δεδοµένα πολλά και τα ερωτήµατα περίπλοκα Database Technology Statistics Machine Learning Data Mining Visualization Information Science Other Disciplines 3

9 1.1 ΟΡΙΣΜΟΙ ΤΟΥ DATA MINING ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Ο όρος "data mining" έκανε τις πρώτες εµφανίσεις του στη στατιστική επεξεργασία δεδοµένων όπου αφορούσε την αποτροπή εξαγωγής µη έγκυρων συµπερασµάτων ως αποτέλεσµα της υπερ-χρήσης δεδοµένων. Το θεώρηµα του Bonferron λέει ότι σε προβλήµατα όπου είναι δυνατό να εξαχθούν πάρα πολλά πιθανά συµπεράσµατα, τότε µερικά από αυτά τα συµπεράσµατα θα βγουν αληθή για καθαρά στατιστικούς λόγους, δίχως να έχουν καµία εγκυρότητα. Ένα πολύ γνωστό παράδειγµα αποτελεί αυτό του David Rhine, ενός παραψυχολόγου στη δεκαετία του 1950 που εξέτασε εκατοντάδες µαθητές για να ανακαλύψει αν διαθέτει κάποιος από αυτούς υπεραισθητική αντίληψη ζητώντας τους να µαντέψουν στη σειρά 10 χαρτιά, κόκκινα ή µαύρα. Βρήκε ότι περίπου 1/1000 µάντεψε το σωστό χρώµα και στα δέκα χαρτιά, και αντί να συνειδητοποιήσει ότι αυτό ακριβώς είναι που περιµένεις όταν χιλιάδες άτοµα µαντεύουν τυχαία, τους κατέταξε στην κατηγορία των ατόµων µε υπεραισθητική αντίληψη. Όταν επανεξέτασε αυτούς που τα είχαν µαντέψει σωστά είδε ότι τη δεύτερη φόρα δεν τα πήγαν καλύτερα από το µέσο όρο. Το συµπέρασµα που έβγαλε από τη δεύτερη εξέταση ήταν αν πεις σε κάποιον ότι έχει υπεραισθητική αντίληψη τότε τη χάνει!. Ένας γενικός ορισµός σύµφωνα µε τον Jeffrey D. Ullman (από τους πρωτοπόρους στην έρευνα των βάσεων δεδοµένων) για την εξόρυξη γνώσης είναι η ανακάλυψη χρήσιµων συνόψεων από δεδοµένα. ηλαδή η εύρεση πληροφοριών που είναι κρυµµένες σε µία βάση δεδοµένων. Εναλλακτικά η εξόρυξη γνώσης ονοµάζεται και εξερευνητική ανάλυση δεδοµένων, ανακάλυψη γνώσης και συµπερασµατική µάθηση. Οι όροι ανακάλυψη γνώσης σε βάσεις δεδοµένων (Knowledge Discovery in Databases εν συντοµία KDD) και εξόρυξη γνώσης από δεδοµένα (data mining) συχνά χρησιµοποιούνται εναλλακτικά για την ίδια έννοια. Η εξόρυξη γνώσης χρησιµοποιεί αλγόριθµους για την ανάλυση των αρκετά µεγάλων συνόλων από δεδοµένα και την εύρεση ανυποψίαστων σχέσεων και την σύνοψη αυτών µε νέους τρόπους κατανοητούς και χρήσιµους στον ιδιοκτήτη. Οι σχέσεις και οι συνόψεις που παράγονται µέσω της εξόρυξης δεδοµένων συχνά παρουσιάζονται ως µοντέλα ή πρότυπα. Η λειτουργία του «Data Mining» έχει να κάνει ουσιαστικά µε δεδοµένα που έχουν συλλεχθεί ήδη για κάποιο άλλο σκοπό. Αυτό σηµαίνει πως οι στόχοι της εξόρυξης γνώσης δεν επηρεάζουν τον τρόπο µε τον οποίο συλλέγονται τα δεδοµένα. Αυτή θα µπορούσε να είναι µία διαφορά της εξόρυξης δεδοµένων µε τις στατιστικές, όπου τα δεδοµένα συλλέγονται µε συγκεκριµένους τρόπους για την απάντηση συγκεκριµένων ερωτηµάτων. Για αυτόν τον λόγο η µέθοδος του Data Mining συχνά αναφέρεται ως δευτερεύουσα ανάλυση δεδοµένων. 4

10 1.2 Μέθοδοι και λειτουργίες Data Mining ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Χάρη στην εξέλιξη των υπολογιστών και την τεχνολογία συλλογής των δεδοµένων, µπορούν πλέον να συλλεχθούν τεράστιοι όγκοι δεδοµένων. Αυτοί οι όγκοι περιέχουν συχνά πολύτιµη πληροφορία. Το «δύσκολο» είναι να εξάγουµε την πολύτιµη αυτή πληροφορία από τον µεγάλο αυτό όγκο έτσι ώστε οι ιδιοκτήτες των δεδοµένων να µπορούν να επενδύσουν σε αυτή. Το Data Mining είναι µια νέα αρχή, η οποία αναζητά να κάνει ακριβώς αυτό. Με το «κοσκίνισµα» των δεδοµένων µε στόχο την σύνοψη αυτών και την εύρεση προτύπων. Οι περισσότερες Data Mining µέθοδοι βασίζονται σε χρησιµοποιηµένες και δοκιµασµένες τεχνικές από κλάδους όπως της µηχανικής µάθησης (machine learning), αναγνώρισης προτύπων (pattern recognition), στατιστικής και άλλων και αφορούν: Συσταδοποίηση δεδοµένων, κατηγοριοποίηση δεδοµένων, εξαγωγή κανόνων συσχέτισης, πρότυπα ακολουθιών, ανάλυση χρονοσειρών, παλινδρόµηση, εκτίµηση και πρόβλεψη µελλοντικών τάσεων συνοπτική παρουσίαση πληροφορίας. Εικόνα. Βασικές Λειτουργίες Data mining 5

11 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Clustering (συσταδοποίηση) To clustering είναι η εργασία του µερισµού ενός συνόλου δεδοµένων σε οµάδες οµοίων στοιχείων, clusters. Τα δεδοµένα οµαδοποιούνται σε σύνολα µε βάση κάποιο κριτήριο οµοιότητας. Το clustering δεν βασίζεται σε προκαθορισµένες κλάσεις. Classification (κατηγοριοποίηση) Η διαδικασία κατηγοριοποίησης των δεδοµένων σε κάποια από τις προκαθορισµένες κλάσεις. Συχνά η διαδικασία του classification περιγράφεται σαν µία συνάρτηση µάθησης (learning function), η οποία ταξινοµεί (classifies) κάθε αντικείµενο του συνόλου δεδοµένων σε µία από τις προκαθορισµένες κατηγορίες. Η διαδικασία του classification χαρακτηρίζεται από: Ένα σύνολο καλά ορισµένων κατηγοριών, ένα training set. Στόχος: Ο ορισµός ενός µοντέλου το οποίο µπορεί να κατηγοριοποιεί νέα δεδοµένα Εξαγωγή κανόνων συσχέτισης (association rules extraction) Προσδιορισµός και εξαγωγή των συσχετίσεων ή προτύπων τα οποία υπάρχουν σε µία συλλογή αντικειµένων. Τα πρότυπα µπορούν να εκφραστούν µε κανόνες, των οποίων η γενική µορφή είναι If X then Y. Κριτήρια εγκυρότητας και σηµαντικότητας κανόνων: support factor, confidence factor Estimation & prediction (εκτίµηση και πρόβλεψη). Περιλαµβάνει τεχνικές εκτίµησης και πρόβλεψης µελλοντικών τάσεων ή τιµών. Ο στόχος εδώ είναι να κατασκευάσουµε ένα µοντέλο που θα επιτρέπει την τιµή µιας µεταβλητής να προβλεφθεί από τις γνωστές τιµές άλλων µεταβλητών. Regression (παλινδρόµηση). Αντιστοιχεί τα αντικείµενα από ένα σύνολο δεδοµένων στην τιµή µίας µεταβλητής πρόβλεψης Summarization Περιλαµβάνει µεθόδους για την περιγραφή ενός υποσυνόλου δεδοµένων. Π.χ. η εκτίµηση της µέσης και της τυπικής απόκλισης για όλα τα πεδία, reports, τεχνικές παρουσίασης, την παραγωγή συνοπτικών κανόνων. 6

12 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) 1.3 ΟΙ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ORACLE Το σύστηµα διαχείρισης σχεσιακών βάσεων δεδοµένων Oracle σχεδιάστηκε για να επιτρέψει την ταυτόχρονη πρόσβαση σε µεγάλες κατανεµηµένες βάσεις δεδοµένων. Η βάση δεδοµένων διαιρείται σε ένα ή περισσότερα λογικά κοµµάτια που είναι γνωστά ως tablespaces.ένα tablespace χρησιµοποιείται για να συγκεντρώσει τα δεδοµένα. Το µέγιστο µέγεθος ενός datafile είναι 32GB (gigabytes). Ο µέγιστος αριθµός datafiles ανά tablespace είναι 1,022. Το µέγιστο µέγεθος ενός tablespace είναι 32TB (terabyte). Η ονοµατολογία των πινάκων και των πεδίων αυτών ακολουθεί τους κανόνες του σχεσιακού µοντέλου. Ο Oracle Enterprise Manager είναι το πρωτεύον εργαλείο διαχείρισης των βάσεών της. Το περιβάλλον SQL * Plus Worksheet χρησιµοποιείται για την άµεση εκτέλεση δηλώσεων SQL και εµφάνιση αποτελεσµάτων. 7

13 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Οι τύποι δεδοµένων που υποστηρίζονται από την Oracle για την δηµιουργία των πινάκων είναι: Τύπος Περιγραφή Μέγεθος Char Καθορισµένου µήκους χαρακτήρας Oποιοδήποτε µήκος µεταξύ 1 και 255 bytes Date Αποθηκεύει έτη, µήνες, ηµέρες, ώρες, λεπτά και δευτερόλεπτα Long ή CLob Σειρά χαρακτήρων µεταβλητού- µήκους µέχρι 2GB στο µέγεθος. LongRaw υαδικά στοιχεία µεταβλητού- µήκους µε µέγιστο µήκος 2^31 - ( ) bytes Number Varchar Varchar2 Raw Αποθηκεύει τους σταθερούς και floating-point αριθµούς. Έχει ακρίβεια p και κλίµακα s. Σύνολο χαρακτήρων µεταβλητού- µήκους Σύνολο χαρακτήρων µεταβλητού- µήκους που αποθηκεύει χαρακτήρες. υαδικά στοιχεία σταθερού-µήκους 2^31-1 bytes το µέγιστο 8

14 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.1 ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΣΥΣΤΑ ΩΝ Η ανάλυση συστάδων (cluster analysis) ή πιο απλά clustering είναι η οργάνωση µιας συλλογής από δείγµατα-στοιχεία (patterns) σε συστάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσµατα τιµών κάποιων µέτρων ή αναπαρίστανται ως σηµεία σε έναν πολυδιάστατο χώρο. Ο σκοπός είναι πως τα αντικείµενα σε µία οµάδα θα πρέπει να είναι όµοια ( ή σχετικά/συγγενικά) µεταξύ τους και διαφορετικά/ξεχωριστά από (ή ετερογενείς προς) τα άλλα αντικείµενα στις άλλες οµάδες. Όσο µεγαλύτερη η οµοιότητα (ή οµοιογένεια) µέσα σε µία οµάδα όσο µεγαλύτερη και η διαφορά µεταξύ των οµάδων, τόσο καλύτερη είναι η οµοιογένεια. Στοιχεία που ανήκουν στην ίδια οµάδα παρουσιάζουν µεγαλύτερη οµοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές οµάδες. Η συσταδοποίηση (clustering) είναι µια διαδικασία που εντάσσεται γενικότερα στην µη επιβλέπουσα µάθηση (unsupervised learning). Υπάρχει διαφορά µεταξύ supervised και unsupervised. Στην επιβλεπόµενη µάθηση ή κατηγοριοποίηση (supervised classification) ένα σύνολο από πρό-οµαδοποιηµένα στοιχεία είναι διαθέσιµο, και αυτό που µας ζητείται είναι να εντάξουµε ένα νέο στοιχείο σε κάποια από τις υπάρχουσες κλάσεις. Συνήθως τα προ-οµαδοποιηµένα στοιχεία χρησιµοποιούνται για να περιγράψουν τις διαφορετικές οµάδες κλάσσεις στις οποίες θα εντάξουµε νέα στοιχεία. Αντίθετα στην µη επιβλεπόµενη µάθηση και συσταδοποίηση το πρόβληµα είναι να οµαδοποιήσουµε σε λογικές κλάσσεις τα στοιχεία, χωρίς καµιά γνώση για προ-υπάρχουσες οµάδες. Έτσι η συσταδοποίηση είναι απόλυτα οδηγηµένη από τα δεδοµένα (data driven) και παράγεται από αυτά. συσταδοποίηση Εικόνα. τα αρχικά σηµεία δίνουν δύο συστάδες, η κάθε µία όµως µπορεί να έχει και περισσότερες εµφωλευµένες οµάδες. Για να δούµε τη δυσκολία της επιλογής του τί απαρτίζει/συνιστά µία συσταδοποίηση, στην παραπάνω Εικόνα φαίνονται είκοσι (20) σηµεία και δύο συστάδες. Όµως έχουµε πολλούς διαφορετικούς τρόπους µε τους οποίους τα σηµεία αυτά θα µπορούσαν να διαιρεθούν σε οµάδες. Εάν επιτρέψουµε στις οµάδες να είναι εµφωλευµένες, τότε η πιο εύλογη ερµηνεία της διάρθρωσης αυτών των σηµείων είναι πως υπάρχουν δύο συστάδες, η κάθε µία όµως έχει µικρότερες υποοµάδες. Εν τούτοις, η εµφανής διαίρεση των δύο µεγαλύτερων συστάδων σε τρεις υποοµάδες µπορεί απλώς να είναι ένα δηµιούργηµα του ανθρωπίνου µατιού. Τελικά, µπορεί να µην είναι παράλογο να ειπωθεί πώς τα σηµεία συγκροτούν και τέσσερις συστάδες. Συνεπώς, τονίζουµε ξανά πως η γενική αντίληψη µιας οµαδοποίησης είναι λίγο ανακριβής, και ο καλύτερος ορισµός εξαρτάται από το είδος των δεδοµένων και τα επιθυµητά αποτελέσµατα. 9

15 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.2 ΣΤΟΧΟΙ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ O στόχος είναι να καθοριστεί η εγγενής συσταδοποίηση (clustering) σε ένα σύνολο unlabeled δεδοµένων. Αλλά πώς να αποφασιστεί τι αποτελεί µια καλή οµαδοποίηση; Μπορεί να αποδειχθεί ότι δεν υπάρχει κάποιο απόλυτα βέλτιστο κριτήριο που θα ήταν ανεξάρτητο από τον τελικό στόχο της οµαδοποίησης. Συνεπώς, είναι ο χρήστης που πρέπει να παρέχει αυτό το κριτήριο, κατά τέτοιο τρόπο ώστε το αποτέλεσµα της οµαδοποίησης να ανταποκρίνεται στις ανάγκες του. Παραδείγµατος χάριν, θα µπορούσαµε να ενδιαφερθούµε για την εύρεση αντιπροσώπων για οµοιογενείς οµάδες (µείωση δεδοµένων), για την εύρεση φυσικών clusters και την περιγραφή των άγνωστων ιδιοτήτων τους ( φυσικοί τύποι δεδοµένων), για την εύρεση χρήσιµων και κατάλληλων σχηµατισµών οµάδας ( χρήσιµες κλάσεις δεδοµένων) ή για την εύρεση ασυνήθιστων αντικειµένων δεδοµένων (ανίχνευση outliers). Οι τεχνικές συσταδοποίησης εφαρµόζονται όταν δεν υπάρχουν καθορισµένες οµάδες που να έχουν προβλεφθεί και περισσότερο όταν υπάρχει ανάγκη τα δεδοµένα µας να χωριστούν σε φυσικές οµάδες. Αυτές οι οµάδες πιθανώς αντικατοπτρίζουν έναν µηχανισµό ο οποίος προκαλεί σε ορισµένα από τα δεδοµένα οµαδοποιήσεις βάσει κάποιων χαρακτηριστικών οµοιότητας. Η συσταδοποίηση απαιτεί διαφορετικές τεχνικές από τις µεθόδους κατηγοριοποίησης και αυτοσχέτισης. Γενικά υπάρχουν διαφορετικοί τρόποι µε τους οποίους µπορούν να εκφραστούν τα αποτελέσµατα. Οι οµάδες είναι µπορεί να είναι: Aποκλειστικές που σηµαίνει πως κάθε στοιχείο ανήκει µόνο σε µια και µοναδική οµάδα Eπικαλυπτόµενες δηλαδή ένα στοιχείο να ανήκει σε διάφορες οµάδες Πιθανοτικές και κάθε στοιχείο να ανήκει σε κάποιες οµάδες µε κάποια πιθανότητα Ιεραρχικές όπου υπάρχει ένας διαχωρισµός των στοιχείων σε οµάδες αλλά µε ιεραρχία επιπέδων Οι επιλογή του είδους των συστάδων έχει να κάνει µε τη φύση των µηχανισµών που θα υποστηρίξουν το συγκεκριµένο φαινόµενο συσταδοποίησης. Ωστόσο επειδή αυτοί οι µηχανισµοί δεν είναι τόσο γνωστοί η επικράτηση της ορθής µεθόδου συσταδοποίησης είναι κάτι που η επιστηµονική κοινότητα αναζητά και συνήθως η επιλογή βασίζεται στα εργαλεία συσταδοποίησης που είναι διαθέσιµα. Η συσταδοποίηση είναι βασική εργασία σε πολλούς τοµείς όπως η ανάλυση προτύπων (pattern-analysis), η λήψη αποφάσεων (decision-making), η µηχανική εκµάθηση (machine-learning), η εξόρυξη δεδοµένων (data mining), η ανάκτηση κειµένων (document retrieval) κ.α. Στις περισσότερες των περιπτώσεων που εφαρµόζεται συσταδοποίηση υπάρχει µικρή γνώση για την δοµή και το είδος των στοιχείων π.χ. στατιστικά µοντέλα, που να περιγράφουν τα δεδοµένα. 10

16 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Υπάρχουν πολλές εφαρµογές πάνω σε πρακτικά προβλήµατα. Παρακάτω δίνονται κάποια συγκεκριµένα παραδείγµατα ανάλογα µε το αν σκοπός της συσταδοποίησης είναι η κατανόηση ή η χρησιµότητα. Εφαρµογές Συσταδοποίηση για κατανόηση κλάσεων Κλάσεις, ή σηµαντικές οµάδες από αντικείµενα που µοιράζουν κοινά χαρακτηριστικά, παίζουν σηµαντικό ρόλο στο πως ο άνθρωπος αναλύει και το περιγράφει τον κόσµο γενικά. Από τη φύση του ο άνθρωπος διαχωρίζει αντικείµενα σε οµάδες (συσταδοποίηση), και ταιριάζει συγκεκριµένα αντικείµενα σε τέτοιες οµάδες (κατηγοριοποίηση). Εφαρµογές Στη Βιολογία Οι βιολόγοι έχουν ξοδέψει πολλά χρόνια έρευνας στη δηµιουργία ταξινοµιών από ζωντανούς οργανισµούς (hierarchical classification). Έτσι δεν µας κάνει έκπληξη που αρκετή από την δουλειά που έχει γίνει ως τώρα στην ανάλυση συστάδων (cluster analysis) έδειξε πως αναζητούσε να δηµιουργήσει µια καλά ορισµένη µαθηµατική ταξινοµία που θα µπορούσε αυτόµατα να βρίσκει της δοµές κατηγοριοποίησης. Πιο πρόσφατα, οι βιολόγοι έχουν εφαρµόσει τεχνικές συσταδοποίησης για να αναλύσουν τον µεγάλο αριθµό γενετικής πληροφορίας που είναι διαθέσιµη. Η συσταδοποίηση έχει χρησιµοποιηθεί για να εύρεση συστάδων γονιδίων που έχουν παρόµοια λειτουργία. Εφαρµογές Στην Εξόρυξη γνώσης Ο παγκόσµιος ιστός αποτελείται από δισεκατοµµύρια σελίδες και τα αποτελέσµατα από ένα ερώτηµα σε µια µηχανή αναζήτησης µπορεί να επιστρέψει χιλιάδες σελίδες σαν αποτέλεσµα. Η συσταδοποίηση µπορεί να χρησιµοποιηθεί για την οµαδοποίηση αυτά τα αποτελέσµατα σε ένα µικρό αριθµό από οµάδες, καθεµιά από τις οποίες σκιαγραφεί µια διάσταση του ερωτήµατος. Για παράδειγµα ένα ερώτηµα για µια ταινία µπορεί να επιστρέψει σελίδες οµαδοποιηµένες σε κατηγορίες όπως ανασκοπήσεις, τράιλερς, ηθοποιούς και θέατρα. Κάθε κατηγορία (cluster) µπορεί να διασπαστεί σε υποκατηγορίες (subclusters), παράγοντας ιεραρχικές δοµές που στη συνέχεια βοηθούν περισσότερο το χρήστη κατά την αναζήτηση που κάνει. Εφαρµογές Στο Κλίµα Για να κατανοήσουµε το κλίµα στη γή απαιτείται να βρεθούν πρότυπα κλίµατος στην ατµόσφαιρα και τους ωκεανούς. Εδώ η ανάλυση των συστάδων έχει εφαρµοστεί για να βρεθούν τέτοια πρότυπα της ατµοσφαιρικής πίεσης των πολικών περιοχών και περιοχών στους ωκεανούς που επηρεάζουν σηµαντικά το κλίµα της γης. Εφαρµογές Στην Ψυχολογία και ιατρική Μια ασθένεια ή κατάσταση συχνά έχει ένα αριθµό µεταβολών, και η ανάλυση συστάδων µπορεί να χρησιµοποιηθεί για να βρεθούν αυτές οι διαφορετικές υποκατηγορίες. Η ανάλυση των συστάδων µπορεί επίσης να χρησιµοποιηθεί για να αναγνωριστούν πρότυπα σε χωρική ή προσωρινή κατανοµή µιας ασθένειας. 11

17 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.3 ΒΗΜΑΤΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Η διαδικασία της συσταδοποίησης µπορεί να οδηγήσει σε διαφορετικές τµηµατοποιήσεις ενός συνόλου δεδοµένων, ανάλογα µε το κριτήριο που χρησιµοποιείται. Κατά συνέπεια, υπάρχει ανάγκη προεπεξεργασίας των δεδοµένων προτού εφαρµοστεί η συσταδοποίηση σε ένα σύνολο δεδοµένων. Τα βασικά βήµατα για την ανάπτυξη της διαδικασίας της συσταδοποίησης είναι τα παρακάτω : Επιλογή χαρακτηριστικών γνωρισµάτων. Σε αυτό το βήµα βασικός στόχος είναι να επιλεχτούν κατάλληλα τα γνωρίσµατα (attributes) στα οποία πρόκειται να εφαρµοστεί η συσταδοποίηση ώστε να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά µε την εργασία που µας ενδιαφέρει. Κατά συνέπεια, η προεπεξεργασία των δεδοµένων µπορεί να είναι απαραίτητη πριν από την χρησιµοποίηση τους στη διαδικασία της συσταδοποίησης. Επιλογή αλγορίθµου συσταδοποίησης. Αυτό το βήµα αναφέρεται στην επιλογή ενός αλγορίθµου που οδηγεί στον καθορισµό ενός καλού σχήµατος συσταδοποίησης (clustering scheme). Το µέτρο γειτνίασης και το κριτήριο συσταδοποίησης που θα χρησιµοποιηθούν χαρακτηρίζουν ουσιαστικά τον αλγόριθµο συσταδοποίησης καθώς και τη δυνατότητα του να καθορίσει ένα σχήµα συσταδοποίησης που να ταιριάζει στο σύνολο δεδοµένων. Συνεπώς το βήµα αυτό βασίζεται στα εξής: Στο µέτρο γειτνίασης (proxitity measure) το οποίο προσδιορίζει πόσο «όµοια» είναι δύο αντικείµενα (δηλαδή διανύσµατα γνωρισµάτων). Στις περισσότερες από τις περιπτώσεις πρέπει να εξασφαλίσουµε ότι όλα τα επιλεγµένα γνωρίσµατα συµβάλλουν εξίσου στον υπολογισµό του µέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισµα που να υπερισχύει των άλλων. Κριτήριο συσταδοποίησης. Σε αυτό το βήµα, πρέπει να καθορίσουµε το κριτήριο συσταδοποίησης το οποίο µπορεί να εκφραστεί µέσω µιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Πρέπει να τονίσουµε ότι πρέπει να λάβουµε υπόψη τον τύπο των συστάδων που αναµένονται να εµφανιστούν στο σύνολο δεδοµένων. Κατά συνέπεια, πρέπει να καθορίσουµε «ένα καλό» κριτήριο συσταδοποίησης που να οδηγεί σε µια τµηµατοποίηση που να ταιριάζει καλά στο σύνολο δεδοµένων. Εγκυρότητα αποτελεσµάτων συσταδοποίησης. Η ακρίβεια των αποτελεσµάτων του αλγορίθµου συσταδοποίησης εξακριβώνεται χρησιµοποιώντας τα κατάλληλα κριτήρια και τεχνικές. Εφόσον οι αλγόριθµοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων, ανεξάρτητα από τις µεθόδους συσταδοποίησης, η τελική τµηµατοποίηση των δεδοµένων απαιτεί κάποιου είδους αξιολόγηση στις περισσότερες εφαρµογές. Ερµηνεία αποτελεσµάτων. Σε πολλές περιπτώσεις, οι εµπειρογνώµονες στην περιοχή της εφαρµογής που αναφέρεται η συσταδοποίηση πρέπει να ενσωµατώσουν τα αποτελέσµατα τη; συσταδοποίησης µε αλλά πειραµατικά στοιχεία. 12

18 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.4 ΙΑ ΙΚΑΣΙΑ CLUSTERING Συνήθως τα βήµατα που ακολουθούνται κατά την διαδικασία του Clustering είναι: (a) Αναπαράσταση των στοιχείων η οποία µπορεί να περιλαµβάνει παραγωγή νέων χαρακτηριστικών η επιλογή µέρους των χαρακτηριστικών των στοιχείων. (Pattern representation) (b) Ορισµός του µέτρου οµοιότητας µεταξύ των στοιχείων. (Similarity measure definition) (c) Η καθαυτή διαδικασία της οµαδοποίησης. (Clustering) (d) Αφαίρεση δεδοµένων όταν χρειάζεται. (Data abstraction) (e) Προσδιορισµός και εκτίµηση του αποτελέσµατος. (Assessment of output) Στο σχήµα παρουσιάζεται µια τυπική αλληλουχία των τριών πρώτων σταδίων κατά την διαδικασία του Clustering περιλαµβανοµένης µιας ανατροφοδότησης όπου το µέχρι στιγµής αποτέλεσµα µπορεί να προβάλει αξιόλογα χαρακτηριστικά των δεδοµένων ή να επηρεάσει τον υπολογισµό της απόστασης µεταξύ των στοιχείων. Patterns FEATURES SELECTION EXCTRACTION Pattern Representation PATTERN SIMILARITY CLUSTERING Clusters Feedback Σχήµα: ιαδικασία clustering Η αναπαράσταση των στοιχείων αφορά στον αριθµό των κλάσεων, τον αριθµό των διαθέσιµων στοιχείων, στον αριθµό και τύπο των χαρακτηριστικών τα οποία ενδιαφέρουν τον αλγόριθµο του Clustering. Μερικά από τα προηγούµενα δεν είναι άµεσα διαθέσιµα. Ενδιαφέρον παρουσιάζει η διαδικασία της επιλογής χαρακτηριστικών κατα την οποία βρίσκονται και επιλέγονται τα καταλληλότερα χαρακτηριστικά των στοιχείων τα οποία θα χρησιµοποιηθούν για το Clustering. Εξάλλου, η διαδικασία της εξαγωγής χαρακτηριστικών χρησιµοποιεί µετασχηµατισµούς υπαρχόντων χαρακτηριστικών για την παραγωγή άλλων τα οποία πιθανόν να είναι πιο ενδιαφέροντα. Οποιαδήποτε από τις τεχνικές αυτές µπορεί να χρησιµοποιηθεί για την επιλογή των κατάλληλων χαρακτηριστικών γνωρισµάτων για την αναπαράσταση των στοιχείων προς οµαδοποίηση. Το µέτρο οµοιότητας µεταξύ των στοιχείων καθορίζεται από µια συνάρτηση απόστασης. Ένα απλό µέτρο απόστασης όπως η Ευκλείδεια απόσταση µπορεί να χρησιµοποιηθεί για να αντικατοπτρίσει την διαφορά-ανοµοιότητα µεταξύ δύο στοιχείων, ενώ άλλα µέτρα απόστασης ποσοτικοποιούν την οµοιότητα των στοιχείων. Αναφορά στα µέτρα απόστασης γίνεται παρακάτω. 13

19 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Η διαδικασία του Clustering µπορεί να πραγµατοποιηθεί µε πολλούς τρόπους. Το αποτέλεσµα µπορεί να είναι απόλυτα καθορισµένο (οµαδοποίηση των δεδοµένων σε ξένες µεταξύ τους κλάσεις), ή fuzzy (όπου κάθε στοιχείο δεν ανήκει µόνο σε µία κλάση αλλά είναι µέλος όλων των κλάσεων µε κάποιο βαθµό σε κάθε µια). Οι αλγόριθµοι ιεραρχικού Clustering παράγουν µια σειρά από εµφωλευµένες κλάσεις µετά από διαδικασίες διαχωρισµού ή συγχώνευσης µε βάση το µέτρο οµοιότητας µεταξύ των στοιχείων διαφορετικών οµάδων. Οι αλγόριθµοι διαµέρισης από την µεριά τους στοχεύουν στο να διαχωρίσουν τα δεδοµένα µε τέτοιο τρόπο ώστε να βελτιστοποιείται το κριτήριο µε το οποίο γίνεται το Clustering, πιθανόν κάποιο µέτρο οµοιότητας η διαφοροποίησης. Άλλες τεχνικές Clustering βασίζονται στην θεωρία των πιθανοτήτων και άλλες σε θεωρία γράφων. Η αφαίρεση δεδοµένων είναι διαδικασία κατά την οποία το σύνολο των δεδοµένων αποκτά µια απλή και συµπαγή αναπαράσταση. Ο όρος απλή αναπαράσταση µπορεί να εξηγηθεί είτε από την µεριά της αυτοποιηµένης ανάλυσης είτε από την µεριά του ανθρώπου. Στην πρώτη περίπτωση θα θέλαµε τα δεδοµένα µας να αναπαρίστανται µε τέτοιο σαφή και απλό τρόπο ώστε µια περαιτέρω υπολογιστική επεξεργασία να είναι εξίσου εφικτή. Στην δεύτερη περίπτωση η απλή αναπαράσταση των δεδοµένων τα κάνει πιο κατανοητά σε αυτούς που πρόκειται να τα επεξεργαστούν και να βγάλουν συµπεράσµατα. Συνήθως η αφαίρεση δεδοµένων στο Clustering είναι µια συνοπτική αναπαράσταση κάθε κλάσης µε την βοήθεια κάπου αντιπροσώπου στοιχείου το οποίο καλείται κεντροειδές (centroid). Τέλος η εκτίµηση (validation) της διαδικασίας του Clustering προσπαθεί να εκτιµήσει το αποτέλεσµα ενός αλγορίθµου, να βρει τι χαρακτηρίζει µια καλή διαδικασία από µια όχι και τόσο επιτυχή. Κυρίως αυτό που εκτιµάται είναι το τελικό αποτέλεσµα, δηλαδή κατά πόσο οι κλάσσεις που δηµιουργήθηκαν έχουν νόηµα και κατά ποσό αυτές δεν δηµιουργήθηκαν κατά τυχαίο τρόπο εξαιτίας του συγκεκριµένου αλγορίθµου που χρησιµοποιήθηκε. 14

20 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.5 ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ- ΜΕΤΡΑ ΑΝΟΜΟΙΟΤΗΤΑΣ: Γενικοί ορισµοί Τα µέτρα εγγύτητας χωρίζονται σε µέτρα οµοιότητας (similarity measures) και µέτρα ανοµοιότητας (dissimilarity measures). Τα µέτρα οµοιότητας µπορούν να λάβουν θετικές αλλά και αρνητικές τιµές H µέγιστη τιµή της οµοιότητας µεταξύ δυο διανυσµάτων του Χ επιτυγχάνεται όταν αυτά ταυτίζονται. H ελάχιστη τιµή ανοµοιότητας µεταξύ δυο διανυσµάτων του Χ επιτυγχάνεται όταν αυτά ταυτίζονται. Γενικά θα µπορούσαµε να πούµε ότι τα µέτρα οµοιότητας είναι αντίθετα από τα µέτρα ανοµοιότητας. Εύκολα µπορούµε να αποδείξουµε ότι αν το µέτρο ανοµοιότητας d είναι µια µετρική, µε d(x, y)>0, τότε το µέτρο οµοιότητας ds=a µε a > 0 είναι και αυτό µετρική. Επίσης εύκολα µπορούµε να αποδείξουµε ότι το µέτρο οµοιότητας dmax d είναι µια µετρική, όπου dmax συµβολίζει την µέγιστη τιµή του d ανάµεσα σε όλα τα ζεύγη σηµείων του Χ. Θα µπορούσαµε να οµαδοποιήσουµε τα µέτρα εγγύτητας σε τέσσερις µεγάλες κατηγορίες: 1. Μέτρα απόστασης (Distance Measures). 2. Συντελεστές Σχέσης (Association Coefficients). 3. Συντελεστές Συσχέτισης (Correlation Coefficients). 4. Πιθανοτικοί Συντελεστές Οµοιότητας (Probabilistic Similarity Measures). Σε κάθε συστάδα τα σηµεία που περιέχονται σε αυτή παρουσιάζουν οµοιότητα µεταξύ. Έτσι για όλες τις τεχνικές Clustering είναι σηµαντικό να ορίζεται ένα µέτρο οµοιότητας µεταξύ δύο αντικειµένων από το χώρο δεδοµένων. Με τη µεγάλη ποικιλίας στα χαρακτηριστικά γνωρίσµατα η επιλογή του µέτρου οµοιότητας θα πρέπει να είναι προσεγµένη. Σε πολλές περιπτώσεις αυτό το µέτρο οµοιότητας που συνήθως µετράτε δεν είναι η οµοιότητα αλλά η διαφορετικότητα δυο σηµείων. Στην συνέχεια θα αναφερθούµε σε µέτρα οµοιότητας τα οποία είναι ευρέως διαδεδοµένα, και χρησιµοποιούντα για την σύγκριση στοιχείων των οποίων τα χαρακτηριστικά περιγράφονται από συνεχείς τιµές. Το µέτρο οµοιότητας καλείται και απόσταση και ικανοποιεί την τριγωνική ανισότητα για δύο στοιχεία x,y: D(x,y) = 0 D(x,y) = D(y,x) 15

21 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) D(x,y) D(x,z) + D(z,y) Το πιο γνωστό µέτρο οµοιότητας που χρησιµοποιείται είναι η Ευκλείδεια απόσταση η οποία ορίζεται ως εξής: D(x,y) = k i= 1 ( x i y i ) 2 Άλλοι τύποι που δίνουν την απόσταση µεταξύ δύο στοιχείων µπορεί να είναι η απόσταση Manhattan: D(x,y) = x i y i k i= 1 ή το µέγιστο της διαφοράς σε κάθε διάσταση: k D(x,y) = maxi= 1 x i y i Η ευκλείδεια απόσταση χρησιµοποιείται ευρέως σε περιπτώσεις λίγων διαστάσεων και έχει καλά αποτελέσµατα όταν δεδοµένα κατηγοριοποιούνται σε συµπαγή και αρκετά αποµωνοµένα clusters. Ένα πρόβληµα που παρουσιάζει είναι ότι στις πολλές διαστάσεις το χαρακτηριστικό το οποίο παρουσιάζει την µεγαλύτερη διαφοροποίηση από τα άλλα κυριαρχεί και αποπροσανατολίζει το τελικό αποτέλεσµα. Εδώ πρόκειται για αυτό που συνήθως αναφέρεται ως καταρα των πολλών διαστάσεων (curse of dimensionality). Μερικοί αλγόριθµοι αντί να υπολογίζουν κάθε φορά την απόσταση µεταξύ δύο στοιχείων, χρησιµοποιούν ένα πίνακα στον οποίο τοποθετούν τις οµοιότητες των στοιχείων. Αυτό που γίνεται είναι ένας προ-υπολογισµός των n(n-1)/2 τιµών οµοιότητας για ένα σύνολο n στοιχείων. Όσον αφορά τώρα τον υπολογισµό της απόστασης για στοιχεία των οποίων τα χαρακτηριστικά δεν είναι συνεχείς τιµές, αυτός είναι αρκετά προβληµατικός. Στις περισσότερες των περιπτώσεων τα χαρακτηριστικά δεν είναι συγκρίσιµα και το αποτέλεσµα της σύγκρισης έχει δύο δυνατές τιµές, όµοιο ή ανόµοιο. Παρόλα αυτά οι ειδικοί που ασχολούνται µε στοιχεία των οποίων τα χαρακτηριστικά είναι και των δύο τύπων έχουν βρει µεθόδους και µετρά για τον ορισµό της απόστασης των στοιχείων. 16

22 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ CLUSTERS Το αποτέλεσµα της συσταδοποίησης είναι µια διαµέριση των δεδοµένων σε συστάδες (clusters). Η διαµέριση αυτή δίνει µια ιδέα για το πως µπορούµε να οµαδοποιήσουµε τα δεδοµένα µας σε έναν συγκεκριµένο αριθµό από κλάσσεις. Σε πολλές εφαρµογές και κυρίως σε εκείνες λήψεως αποφάσεων είναι ανάγκη να υπάρξει µια συµπαγής και κατανοητή αναπαράσταση των clusters. Το ζήτηµα της αναπαράστασης των clusters που είναι άµεσα συνδεδεµένο µε την αφαίρεση δεδοµένων είναι πολύ σηµαντικό για την λήψη αποφάσεων. Η αναπαράσταση ενός cluster µπορεί να γίνει µε διάφορους τρόπους. Μερικοί από τους προτεινόµενους είναι και οι παρακάτω: 1. Ένα cluster µπορεί να αναπαρασταθεί από το κεντροειδές σηµείου του ή από έναν αριθµό σηµείων που είναι τα πιο αποµακρυσµένα στο cluster. 2. Οι κόµβοι ενός δένδρου κατηγοριοποίησης µπορούν να αναπαραστήσουν ένα cluster. 3. Επίσης ένα cluster µπορεί να αναπαρασταθεί χρησιµοποιώντας συζευκτικούς λογικούς τελεστες. Y-Axis X X X X X X X X Y-Axis X X X X X X X X X-Axis X-Axis Σχήµα:Αναπαράσταση clusters από σηµεία X (a) X1 X1<3 X1>3 X2<2 X2> (b) 1: [X1<3]; 2:[X1>3][X2<2]; 3:[X1>3][X2>2] (c) Σχήµα: (a)clusters σε χωρο 2 διαστάσεων, (b) οµαδοποίηση µε δενδρο, (c) οµαδοποιηση µε λογικούς συζευκτικούς τελεστές. 17

23 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Ο πρώτος τρόπος αναπαράστασης µε την χρήση ενός κεντροειδούς είναι ο πιο συνήθης και έχει καλά αποτελέσµατα όταν τα clusters είναι συµπαγή και τα στοιχεία κατανέµονται οµοιόµορφα γύρω από το κεντροειδές. Σε αντίθετη περίπτωση ο τρόπος αυτός αναπαράστασης δεν είναι ο πιο κατάλληλος. Στην περίπτωση αυτή η αναπαράσταση ενός cluster απο συνοριακά σηµεία είναι µια πολύ καλή λύση υπάρχουν αρκετοί αλγόριθµοι που ακολουθούν αυτή την τεχνική όπως ο αλγόριθµος CURE. Οσο το σχήµα του cluster αλλάζει και παίρνει διάφορα σχήµατα στο χώρο, η επιλογή των σηµείων πρέπει να είναι τέτοια ώστε να περιγράφεται το cluster όσο το δυνατόν καλύτερα. Η αναπαράσταση µε ένα δένδρο κατηγοριοποίησης είναι ισοδύναµη µε την αναπαράστση ενός cluster µε λογικούς συζευκτικούς τελεστές. Η αναπαράσταση των clusters και η αφαίρεση δεδοµένων που αυτή συνεπάγεται είναι πολύ σηµαντική γιατί (α) δίνει µια απλή και ανθρωπίνως κατανοητή αναπαράσταση των δεδοµένων, (β) Επιτυγχάνεται συµπίεση των δεδοµένων η οποία µπορεί να αξιοποίηθεί από άλλες υπολογιστικές εφαρµογές και (γ) βοηθάει και επιταχύνει την διαδικασία λήψεων αποφάσεων. 18

24 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.7 ΕΓΚΥΡΟΤΗΤΑ- ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Η εφαρµογή ενός αλγορίθµου συσταδοποίησης σε ένα σετ δεδοµένων στοχεύει, υποθέτοντας ότι το σετ δεδοµένων προσφέρει µια τέτοια τάση οµαδοποίησης, στην ανακάλυψη των έµφυτων διαµερισµών του. Ωστόσο, η διαδικασία οµαδοποίησης γίνεται αντιληπτή ως µία ανεπίβλεπτη διαδικασία, καθώς δεν υπάρχουν προκαθορισµένες κλάσεις και παραδείγµατα που θα έδειχναν τι είδος επιθυµητής σχέσης ανάµεσα στα δεδοµένα πρέπει να θεωρείται έγκυρη. Έπειτα, οι διάφοροι αλγόριθµοι οµαδοποίησης βασίζονται σε κάποιες υποθέσεις για να ορίσουν ένα διαµερισµό του σετ δεδοµένων. Κατά συνέπεια µπορεί να συµπεριφερθούν µε διαφορετικό τρόπο ανάλογα µε: Τα χαρακτηριστικά του σετ δεδοµένων (γεωµετρία και κατανοµή πυκνότητας των clusters) και Τις τιµές των παραµέτρων εισόδου. Συνεπώς, αν τεθούν στις παραµέτρους του αλγορίθµου οµαδοποίησης ακατάλληλες τιµές, η µέθοδος οµαδοποίησης θα καταλήξει σε ένα σχήµα διαµερισµού που δε θα είναι βέλτιστο για το συγκεκριµένο σετ δεδοµένων οδηγώντας σε λάθος αποφάσεις. Είναι εµφανές ότι ένα πρόβληµα που αντιµετωπίζουµε στην οµαδοποίηση είναι το να αποφασίσουµε τον βέλτιστο αριθµό clusters που ταιριάζει σε ένα σετ δεδοµένων. Ορίζουµε τον όρο βέλτιστο σχήµα οµαδοποίησης ως το αποτέλεσµα της εκτέλεσης ενός αλγορίθµου οµαδοποίησης, που ταιριάζει καλύτερα στον έµφυτο διαµερισµό του σετ δεδοµένων. Είναι δύσκολο να ορίσουµε πότε ένα αποτέλεσµα οµαδοποίησης είναι αποδεκτό, κατά συνέπεια έχουν αναπτυχθεί διάφορες τεχνικές και δείκτες ελέγχου της εγκυρότητας της οµαδοποίησης. Οι µετρήσεις για την ποιότητα (το πόσο καλή) είναι µια συσταδοποίηση ανήκουν σε µία από τις παρακάτω τρεις κατηγορίες : Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδοµένων), πχ ετικέτες για τις συστάδες. Μετράµε πόσο οι περιγραφές των συστάδων ταιριάζουν µε τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιµάµε το πόσο καλή είναι µια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας. Συνεκτικότητα (cohesion) ιακριτότητα ή διαχωρισµός (separation) Συγκριτικοί -Σχετικό Ευρετήριο (Relative Index) : Χρησιµοποιείται για τη σύγκριση δυο διαφορετικών συσταδοποιήσεων ή συστάδων - Συχνά για αυτό το σκοπό χρησιµοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο. Εσωτερικό, πχ δυο k-means συσταδοποιήσεις µε βάση το SSE 19

25 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Η συνεκτικότητα µιας συστάδας (cluster cohesion) είναι το άθροισµα των βαρών (πχ απόσταση) µεταξύ όλων των συνδέσεων σε µια συστάδα. Ο διαχωρισµός (cluster separation) είναι το άθροισµα των βαρών µεταξύ κόµβων της συστάδας και κόµβων εκτός συστάδας Η διαδικασία αξιολόγησης των αποτελεσµάτων ενός αλγορίθµου συσταδοποίησης ονοµάζεται αξιολόγηση της εγκυρότητας των clusters (cluster validity assessment). ύο κριτήρια µέτρησης έχουν προταθεί για την αξιολόγηση και την επιλογή ενός βέλτιστου σχήµατος οµαδοποίησης: Συνοχή (compactness): Η απόσταση µεταξύ των µελών κάθε cluster πρέπει να είναι όσο το δυνατόν πιο µικρή. Ένα κοινό µέτρο της συνοχής είναι η διακύµανση(variance) που πρέπει να είναι ελάχιστη. ιαχωρισµός (separation): Τα clusters πρέπει να είναι µεταξύ τους πολύ διαχωρίσιµα. Υπάρχουν τρεις κοινές προσεγγίσεις για την µέτρηση της απόστασης µεταξύ δύο διαφορετικών clusters: 20

26 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.8 ΈΛΕΓΧΟΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΑ ΩΝ Ως έλεγχο εγκυρότητας οµάδων (cluster validity) ορίζουµε µία διαδικασία αποτίµησης µε αντικειµενικά και ποσοτικά κριτήρια του αποτελέσµατος της οµαδοποίηση;. Ο έλεγχος εγκυρότητας (εφεξής καλείται απλώς εγκυρότητα) µπορεί να γίνει µε εσωτερικά ή εξωτερικά κριτήρια. Έλεγχος µε εσωτερικά κριτήρια γίνεται όταν δεν λαµβάνεται υπόψη κάποια εκ των προτέρων γνώση για το διαχωρισµό των αντικειµένων σε κλάσεις. Αντιθέτως, κατά τον έλεγχο µε εξωτερικά κριτήρια λαµβάνεται υπόψη ο διαχωρισµός των αντικειµένων σε κλάσεις, εφόσον αυτός είναι γνωστός. Λόγω της διαφορετικής φύσης των διαφόρων οικογενειών αλγορίθµων, η εγκυρότητα ελέγχεται διαφορετικά µεταξύ τους. Εγκυρότητα µε εσωτερικά κριτήρια Υπάρχουν διαφορετικές µέθοδοι ελέγχου εγκυρότητας των οµάδων που παράγονται µε αλγορίθµους τµηµατοποίησης σε σχέση µε αυτές που παράγονται από ιεραρχικούς αλγορίθµους. Στη συνέχεια. παρουσιάζουµε ξεχωριστά τις δύο αυτές περιπτώσεις. ενώ δίνουµε και µια γενική µέθοδο για τις υπόλοιπες κατηγορίες αλγορίθµων οµαδοποίησης. Εγκυρότητα για αλγορίθµους τµηµατοποίησης ύο βασικές ιδιότητες µίας οµάδας είναι η συνοχή και η αποµόνωση (isolation). Η συνοχή εκφράζει τη συνεκτικότητα µεταξύ των αντικειµένων της οµάδας, ενώ η αποµόνωση το διαχωρισµό τους από τα αντικείµενα των υπολοίπων οµάδων. Η εγκυρότητα µίας οµάδας εξετάζεται ελέγχοντας κατά πόσο τόσο η συνοχή όσο και η αποµόνωσή της είναι µη αναµενόµενες. Ο έλεγχος γίνεται συγκριτικά ως προς πληθυσµό, του οποίου τα αντικείµενα ακολουθούν κατανοµή που τα κάνει να θεωρούνται αναµενόµενα. Ορισµός συνοχής και αποµόνωσης Έστω µία οµάδα c i µε κέντρο m i, ενώ m είναι το κέντρο όλων των οµάδων. εδοµένου ενός µέτρου απόστασης d µεταξύ δύο αντικειµένων, η συνοχή C(c i ) της οµάδας c i και η αποµόνωση της οµάδας I(c i ) ορίζονται από τις Εξίσωσεις: Το αποτέλεσµα της οµαδοποίησης είναι ένα σύνολο Κ οµάδων c i όπου 1 i Κ. Η συνολική συνοχή (sum square error - SSE). και η συνολική αποµόνωση (sum square between - SSB), ορίζονται αντιστοίχως από τις Εξισώσεις: 21

27 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Τα δύο αυτά µεγέθη (SSE και SSΒ) είναι αλληλοεξαρτώµενα. Στη συνέχεια το γεγονός αυτό αποδεικνύεται µε βάση την παραδοχή ότι όλες οι οµάδες έχουν τον ίδιο αριθµό αντικειµένων, δηλαδή c i = c j για i j. Χάριν αναγνωσιµότητας, θεωρούµε µονοδιάστατα αντικείµενα, για τα οποία η απόσταση d(x,y) = (x - y) 2. Ωστόσο, η απόδειξη γενικεύεται και για περισσότερες διαστάσεις. Αφού το άθροισµα των SSΕ και SSB είναι σταθερή και ανεξάρτητη ποσότητα από την οµαδοποίηση που θα προκύψει, γίνεται αντιληπτό ότι η ελαχιστοποίηση του BBΕ και η µεγιστοποίηση του SSB δεν είναι αντικρουόµενες µεταξύ τους. 22

28 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Έλεγχος σηµαντικότητας οµαδοποίησης Η τιµή τις συνολικής συνοχής SSE και της συνολικής αποµόνωσης SSB των k οµάδων του αποτελέσµατος ερµηνεύεται µόνο συγκριτικά. Έτσι, δοθέντος ενός συνόλου µε συγκεκριµένο πληθυσµό αντικειµένων µε τιµές εντός συγκεκριµένου διαστήµατος, παράγουµε ισοµεγέθη σύνολα µε αντικείµενα που ακολουθούν οµοιόµορφη κατανοµή σε ίδιο διάστηµα. Κάθε τέτοιο σύνολο το οµαδοποιούµε σε οµάδες και υπολογίζουµε τις αντίστοιχες τιµές SSE και SSB, οι οποίες σχηµατίζουν δύο αντίστοιχες κατανοµές τιµών SSE και SSB. Έτσι ελέγχουµε κατά πόσο οι τιµές SSE και SSB που προέκυψαν από την υπό εξέταση οµαδοποίηση είναι αναµενόµενες ή όχι σε σχέση µε τις δύο προαναφερθείσες κατανοµές. Παράδειγµα (Έλεγχος σηµαντικότητας SSE) Στο Σχήµα απεικονίζονται 3 οµάδες του παράγονται εφαρµόζοντας τον k-means (και Ευκλείδεια απόσταση) στα 150 σηµεία του συνόλου Iris (η απεικόνιση γίνεται στις δύο διαστάσεις που αντιστοιχούν στα 2 πρώτα ιδιοδιανύσµατα). Στη συνέχεια παράγουµε 100 τυχαία σύνολα µε 150 σηµεία το καθένα, τα οποία ακολουθούν οµοιόµορφη κατανοµή στο περιγεγραµµένο κυρτό πολύγωνο που περικλείει τα 150 σηµεία του Iris. Οµαδοποιούµε κάθε τέτοιο σύνολο µε τον k-means σε 3 οµάδες. Στο Σχήµα απεικονίζεται η κατανοµή των τιµών SSE. Η µέση τιµή της κατανοµής αυτής είναι , ενώ η απόκλιση είναι Σχήµα: (α) Σύνολο 150 σηµείων του Iris χωρισµένα σε 3 οµάδες, (β) Ιστόγραµµα τιµών SSE. Για το σύνολο Iris η τιµή SSE προκύπτει ίση µε Σε επίπεδο σηµαντικότητας 95% (α = 0.05), ισχύει ότι Ζ(α) = Επειδή ισχύει ότι: = 7.73< Αποφασίζουµε ότι η τιµή SSE για τo Iris δεν ανήκει στην κατανοµή των τιµών SSE για τα τυχαία σύνολα. Εποµένως, η οµαδοποίηση θα απεικονίζεται στο Σχήµα έχει πιθανότητα µικρότερη από 5% να προέκυψε τυχαία. 23

29 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Συντελεστής σιλουέτας Ο συντελεστής σιλουέτας (silhouette coefficient) ενός αντικειµένου µετρά την απόστασή του από τα αντικείµενα της οµάδας του, συγκριτικά όµως µε την απόστασή του από τα αντικείµενα όλων των άλλων οµάδων. Εποµένως αποτελεί ένα συνδυαστικό µέτρο για τη συνοχή και την αποµόνωση. Έστω ένα αντικείµενο i που ανήκει στην οµάδα C i. Ο συντελεστής σιλουέτας S i ορίζεται ως εξής. Η µέση απόσταση του αντικειµένου αυτού από τα αντικείµενα της οµάδας του είναι α i. Επίσης. b i, j είναι η µέση απόστασή του από τα αντικείµενα της οµάδας C j, όπου (j i). Αν b i = min j{b i, j, τότε συντελεστής σιλουέτας S i δίνεται από την εξίσωση: Si = bi max{ ai ai, bi Ο S i λαµβάνει τιµές στο διάστηµα [-1, 1]. Αρνητική τιµή προκύπτει αν α i > b i, δηλαδή όταν κάποιο αντικείµενο απέχει από τα αντικείµενα της δικής του οµάδας κατά µέσο όρο περισσότερο σε σχέση µε τα αντικείµενα της πλησιέστερης οµάδας. Εποµένως, είναι επιθυµητές θετικές τιµές του S i. Η µέγιστη τιµή του S i είναι ίση µε 1 και προκύπτει όταν α i = 0.. Μπορούµε να αξιολογήσουµε το αποτέλεσµα της οµαδοποίησης παίρνοντας το µέσο όρο των συντελεστών σιλουέτας για κάθε αντικείµενο του συνόλου δεδοµένων. Παράδειγµα (Συντελεστές σιλουέτας ως προς το Κ) Για το σύνολο Iris (Σχήµα) εφαρµόζουµε τον αλγόριθµο K-Means για διάφορες τιµές του Κ. Για κάθε τιµή του Κ υπολογίζουµε την µέση τιµή των συντελεστών σιλουέτας. Το αποτέλεσµα απεικονίζεται στο Σχήµα. Η µέγιστες τιµές προκύπτουν για Κ = 2 και Κ = 3, ενώ για µεγαλύτερες τιµές του Κ προκύπτουν µικρότερες τιµές. Αυτός είναι ένας έµµεσος τρόπος για την εκτίµηση του αριθµού των οµάδων ενός συνόλου δεδοµένων. Σχήµα: Μέση τιµή συντελεστών σιλουέτας ως προς τον αριθµό των οµάδων 24

30 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3.1 The Data Matrix Τα αντικείµενα αντιπροσωπεύονται ως σηµεία (διανύσµατα) σε ένα πολυδιάστατο χώρο, όπου κάθε διάσταση αντιπροσωπεύει µια ευδιάκριτη ιδιότητα (µεταβλητή, µέτρηση) περιγράφοντας το αντικείµενο. Κατά συνέπεια, ένα σύνολο αντικειµένων αντιπροσωπεύεται (τουλάχιστον εννοιολογικά) από έναν πίνακα m επι n στο χώρο, όπου υπάρχουν m γραµµές, µια για κάθε αντικείµενο, και n στήλες, µια για κάθε ιδιότητα. Εικόνα. data points and data matrix. Τα δεδοµένα µετασχηµατίζονται µερικές φορές πρίν χρησιµοποιηθούν. Ένας λόγος που συµβαίνει αυτό είναι επειδή οι διαφορετικές ιδιότητες µετρούνται σε διαφορετικές κλίµακες. Σε περιπτώσεις όπου το εύρος των τιµών διαφέρει πολύ από ιδιότητα σε ιδιότητα, αυτές οι διαφορετικές κλίµακες µπορούν να επικρατήσουν στα αποτελέσµατα της ανάλυσης συστάδων, και είναι συνηθισµένο να ικανοποιούνται τα δεδοµένα έτσι ώστε όλες οι ιδιότητες είναι στην ίδια κλίµακα. Μια απλή προσέγγιση σε µια τέτοια διαδικασία είναι, για κάθε ιδιότητα, να αφαιρέσει του µέσου όρου των τιµών ιδιοτήτων και να διαιρέσει µε τη τυπική απόκλιση των τιµών. 3.2 The Proximity Matrix Ο Πίνακας Εγγύτητας (Οµοιότητας ή ανοµοιότητας) Ενώ η ανάλυση συστάδων χρησιµοποιεί µερικές φορές τον αρχικό χώρο δεδοµένων, πολλοί αλγόριθµοι συσταδοποίησης χρησιµοποιούν έναν πίνακα οµοιότητας το S, ή έναν πίνακα ανοµοιότητας, το D. Για ευκολία, και οι δύο πίνακες αναφέρονται συνήθως ως πίνακες εγγύτητας, ένας πίνακας εγγύτητας, Π, m επί n περιέχει όλες τις δυαδικές ανοµοιότητες ή οµοιότητες µεταξύ των αντικειµένων που εξετάζονται. Εάν ΧΙ και xj είναι το ith και jth τα αντικείµενα, αντίστοιχα, η είσοδος στη σειρά ith και jth τη στήλη του πίνακα εγγύτητας είναι η οµοιότητα, sij, ή η ανοµοιότητα, dij, µεταξύ ΧΙ και xj. Εικόνα. The Proximity Matrix 25

31 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Πιο απλά, θα χρησιµοποιήσουµε pij για να αντιπροσωπεύσουµε είτε sij είτε dij. Οι αριθµοί 2a, 2b, και 2c παρουσιάζουν, αντίστοιχα, τέσσερα σηµεία και αντίστοιχους πίνακες στοιχείων και εγγύτητας (απόσταση). Τελειώνοντας, αναφέρουµε ότι τα αντικείµενα αντιπροσωπεύονται µερικές φορές πιο πολύ από περίπλοκες δοµές δεδοµένων παρά από τα διανύσµατα των ιδιοτήτων, π.χ., σειρές χαρακτήρα ή γράφοι. Ο καθορισµός της οµοιότητας (ή των διαφορών) δύο αντικειµένων σε µια τέτοια κατάσταση είναι πιο περίπλοκος, αλλά εάν ένα λογικό µέτρο οµοιότητας (ανοµοιότητα) υπάρχει, κατόπιν µια ανάλυση συγκέντρωσης µπορεί ακόµα να εκτελεστεί. Συγκεκριµένα,οι τεχνικές συσταδοποίησης που χρησιµοποιούν έναν πίνακα εγγύτητας είναι απρόσβλητες από την έλλειψη ενός πίνακα δεδοµένων. 3.3 The Proximity Graph Ένας πίνακας εγγύτητας καθορίζει έναν «ζυγισµένο» γράφο, όπου οι κόµβοι είναι τα σηµεία που συγκεντρώνονται, και οι σταθµισµένες άκρες αντιπροσωπεύουν τις σχέσεις - ιδιότητες µεταξύ των σηµείων, δηλ., οι καταχωρήσεις του πίνακα εγγύτητας. Ενώ αυτός ο γράφος εγγύτητας µπορεί να κατευθυνθεί, το οποίο οδηγεί σε έναν ασύµετρο πίνακα εγγύτητας, οι περισσότεροι µέθοδοι συσταδοποίησης υποθέτουν έναν µη κατευθυνόµενο γράφο. Η λιγοστή απαίτηση συµµετρίας µπορεί να είναι χρήσιµη σε µερικές περιπτώσεις, αλλά θα υποθέσουµε τους µη κατευθυνόµενους γράφους εγγύτητας (συµµετρικούς πίνακες εγγύτητας) στις συζητήσεις µας. Εικόνα. The Proximity graph Από την πλευρά των γράφων, η συσταδοποίηση είναι ισοδύναµη µε το σπάσιµο του γράφου στα συνδεδεµένα συστατικά (χωρίστε συνδεδεµένους υπογράφους), ένα για κάθε συστάδα. Επιπλέον, πολλά ζητήµατα που αφορούν τους γράφους µπορούν να χρησιµοποιηθούν στους γραφο-θεωρητικούς όρους, π.χ., τα ζητήµατα της συνοχής συστάδων και ο βαθµός ένωσης µε άλλες συστάδες µπορεί να µετρηθεί από τον αριθµό και τη «ισχύ» των συνδέσεων µεταξύ και µέσα των συστάδων. Επίσης, πολλές τεχνικές συσταδοποίησης π.χ., µονή σύνδεση και πλήρης σύνδεση περιγράφονται χρησιµοποιώντας τις αντιπροσωπεύσεις ων γράφων. 26

32 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι τεχνικές Clustering µπορούν να διαχωριστούν µε πολλούς τρόπους, όπως Ιεραρχικό Clustering σε αντίθεση µε το ιαµεριστικό (partitional), και καθένα από αυτά να χωριστεί σε άλλες υποκατηγορίες. Θα αναφερθούµε σε διαφορετικές προσεγγισεις Clustering παρακάτω αφού προηγούµενως δούµε καποιούς όρους και διαφοροποιήσεις που παρουσιάζουν οι διάφοροι αλγόριθµοι. Οι αλγόριθµοι για Clustering µπορεί να είναι: Συγκεντρωτικοί και ιαχωριστικοί (Agglomerative and Divisive). Η διαφοροποίηση των ειδών αυτών αυτών σχετίζεται µε την λειτουργία και τις δοµές του αλγορίθµου. Στην πρωτη περίπτωση ο αλγόριθµος ξεκινά θεωρώντας καθε στοιχείο σαν ένα ξεχωριστό cluster, και προχωρά συγχωνεύοντας στοιχεία και clusters µεχρις ότου να ικανοποιηθεί µια συνθήκη. Στην περίπτωση ενός διαχωριστικού αλγορίθµου, όλα τα στοιχεία θεωρούνται οτι ανήκουν σε ένα cluster και ακολουθείται µια συνεχής διάσπαση του ψλθσταερ αυτού σε υπο cluster µεχρις ότου να ικανοποιηθεί η συνθήκη τερµατισµού. Μονοθετικοί και Πολυθετικοί (Monothetic and Polythetic). Η διαφορά αυτών χαρακτηρίζει την σειριακή ή ταυτόχρονη χρήση των χαρακτηριστικών των στοιχείων κατά την διαδικασία του Clustering. Οι περισσότεροι αλγόριθµοι είναι πολυθετικοί, κάτι που σηµαίνει ότι όλα τα χαρακτηριστικά των στοιχείων συµµετέχουν κάθε φορά στον καθορισµό της απόστασης του στοιχείου από κάποιο άλλο. Ένας µονοθετικός αλγόριθµος λαµβάνει υπόψη του µονό ένα χαρακτηριστικό τη φορά και πρεγµατοποιεί οµαδοποιήσεις µε βάση αυτό το χαρακτηριστικό. Σε επόµενη επανάληψη χρησιµοποιεί άλλο χαρακτηριστικό και διαχωρίζει τις ήδη υπάρχουσες οµάδες. Ένα παράδειγµα φαίνεται στο σχήµα 3. Εδώ τα στοιχεία του χώρου µας έχουν χωριστεί σε δύο clusters αρχικά µε βάση το χαρακτηριστικό Χ1. Ο διαχωρισµός δηλώνεται µε την κάθετη γραµµή V. Στην συνέχεια κάθε cluster χωρίζεται µε βάση το χαρακτηριστικό Χ2 και τα νέα clusters διαχωρίζονται από τις οριζόντιες γραµµές Η1 και Η2. Το πρόβληµα αυτών των αλγορίθµων είναι ότι τα στοιχεία χωρίζονται τελικά σε 2 d clusters όπου d έιναι ο αριθµός των χαρακτηριστικών των στοιχείων. Αυτό συνήθως οδηγεί σε πολλά clusters εκ των οποίων τα περισσότερα είναι µικρά και ασήµαντα. V H1 4 4 H2 X X1 Σχήµα: Οµαδοποίηση µονοθετικού αλγορίθµου. 27

33 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Σκληροί και fuzzy (hard and fuzzy). Ένας σκληρός αλγόριθµος τοποθετεί κάθε στοιχείο σε ένα και µόνο cluster, σε αντίθεση µε τους fuzzy αλγορίθµους οι οποίοι δίνουν σε κάθε στοιχείο για κάθε cluster έναν βαθµό που εκφράζει κατά πόσο το στοιχείο αυτό ανήκει στο cluster αυτό. Ντετερµινιστικοί και Στοχαστικοί (Deterministic and Stochastic). Αυτοί οι αλγόριθµοι είναι κυρίως διαιρετικοί και σχετίζονται µε την βελτιστοποίηση της οµαδοποίησης. Αυξητικοί και µη αυξητικοί (Incremental and non-incremental). Η διαφορά αυτών των αλγορίθµων εµφανίζεται όταν το σύνολο των δεδοµένων προς οµαδοποίηση είναι πολύ µεγάλο και περιορισµοί που υπάρχουν στον χρόνο εκτέλεσης και τον διαθέσιµο χώρο µνήµης επηρεάζουν την αρχιτεκτονική του αλγορίθµου. Στα πρώτα βήµατα της θεωρίας περί clustering τα δεδοµένα δεν ήταν ιδιαιτέρα πολλά και προβλήµατα µε το µέγεθος της πληροφορίας δεν υπήρχαν. Με την αύξηση όµως της πληροφορίας υπήρχε η ανάγκη για εύρεση αλγορίθµων οι οποίοι ελαχιστοποιούν τον αριθµό σαρώσεων των δεδοµένων, µειώνουν τον αριθµό των στοιχείων που εξετάζονται η µειώνουν το µέγεθος των δοµών που χρησιµοποιούνται κατά την εκτέλεση του αλγορίθµου. 3.4 ΑΛΓΟΡΙΘΜΟΙ ΙΕΡΑΡΧΙΚΟΥ CLUSTERING Το πως λειτουργεί ένας ιεραρχικός αλγόριθµος clustering φαινεται στα παρακάτω σχήµατα χρησηµοποιώντας τα δεδοµένα ενός διδιάστατου χώρου τα οποία µπορούν να οµαδοποιηθούν όπως παρουσιάζεται στο σχήµα 4. Εδώ υπαρχουν επτά στοιχεία τα οποία σχηµατίζουν τρία clusters. Ενας ιεραρχικός αλγόριθµος µπορεί να αποδωθεί µε ένα δενδροδιάγραµµα το οποίο παρουσιάζει τις συγχωνεύσεις στοιχείων για την δηµιουργία clusters και τα επίπεδα οµοιότητας µε βαση τα οποία αλλαζουν οι οµάδες και διαµορφώνονται τα clusters. Το δενδροδιάγραµµα που αντιστοιχεί στα δεδοµένα του σχήµατος 4 παρουσιάζεται στο σχήµα 5. Χαρακτηριστικό του διαγράµµατος είναι τα διαφορα επίπεδα στα οποία αποδίδονται διαφορετικές οµαδοποιήσεις. Cluster 3 X2 Cluster 1 A B C F G D E Cluster 2 S I M I L A R I T Y X1 A B C D E F G Σχήµα: Σηµεία σε τρία clusters Σχήµα 5: ενδοδιάγραµµα ιεραρχικού αλγορίθµου 28

34 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι περισσοτεροι ιεραρχικοί αλγόριθµοι είναι παραλλαγές των αλγορίθµων απλούσυνδεσµου (single-link), του πλήρους-συνδέσµου (complete-link). Οι διαφορά µεταξύ των αλγορίθµων αυτών έχει να κάνει µε τον τρόπο µε τον οποίο ορίζουν την οµοιότητα µεταξύ στοιχείων και κατά συνέπεια clusters πριν την συγχώνευσή τους. Στην περίπτωση του απλού-συνδεσµου η απόσταση µεταξύ δύο clusters είναι η ελάχιστη από τις αποστάσεις µεταξύ όλων των ζευγών στοιχείων από τα δύο clusters (καθε ζεύγος περιέχει ένα στοιχείο από το ένα cluster και ένα από το άλλο). Στον αλγόριθµο πλήρους-συνδεσµου η απόσταση µεταξύ δύο clusters είναι η µεγιστη από τις αποστασεις µεταξύ όλων των ζευγών στοιχείων από τα δύο clusters. Και στις δύο περιπτώσεις δυο clusters συγχωνεύονται για να δηµιουργήσουν ένα cluster όταν η απόσταση αυτή, οπως και αν ορίζεται είναι ελαχιστη. Εχει αποδειχτει οτι ο αλγόριθµος του πλήρους συνδέσµου δηµιουργεί καλλιτερα, πιο συµπαγή clusters. Αντίθετα ο αλγόριθµος του απλού-συνδεσµου έχει την τάση να δηµιουργεί σκόρπια και επιµηκη clusters. Στο σχήµα φαίνονται µια σειρά από στοιχεία τα οποία οριζουν δύο clusters αλλα χωρίζονται από σηµεία τα αποτελούν θόρυβο και δεν µας ενδιαφέρουν. Ο αλγόριθµος απλού-συνδέσµου και ο αλγόριθµος πλήρους συνδέσµου δηµιουργεί τα clusters του σχήµατος. Είναι προφανές ότι στην δεύτερη περίπτωση τα clusters είναι πιο συµπαγή από την πρώτη στην οποία τα στοιχεία θορύβου έχουν δηµιουργήσει ανεπιθύµητα φαινόµενα. Παρόλα αυτά ο αλγόριθµος απλού συνδέσµου είναι αρκετά ευέλικτος σε δύσκολες περιπτώσεις. Για παράδειγµα ο αλγόριθµος απλού-συνδέσµου µπορεί να εξάγει τα οµόκεντρα clusters που φαίνονται στο σχήµα 8 ενώ ο αλγόριθµος πλήρους-συνδέσµου δεν µπορεί. Τελικά κανείς από του δύο αλγορίθµους δεν είναι πανάκεια. ιαφαίνεται όµως ότι ο δεύτερος παράγει καλύτερα και πιο χρήσιµες ιεραρχίες από τον πρώτο σε πολλές εφαρµογές. X X X X X X X X X X X X X X X X X1 X1 Σχήµα: Clustering απλού-συνδέσµου. : Clustering πλήρους-συνδέσµου 29

35 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3.5 ΙΑΜΕΡΙΣΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ CLUSTERING Ένας διαµεριστικός αλγόριθµος έχει ως αποτέλεσµα µια διαµέριση του χώρου των δεδοµένων σε αντίθεση µε τους ιεραρχικούς αλγορίθµους που δηµιουργούν πιο πολύπλοκες δοµές που περιγράφονται από τα δενδρογράµµατα. Οι αλγόριθµοι αυτοί υπερτερούν σε περιπτώσεις όπου τα δεδοµένα είναι παρά πολλά και η δηµιουργία δενδροδιαγραµµατων είναι αδύνατη. Το κυρίως πρόβληµα των αλγορίθµων αυτών είναι η απόφαση για τον αριθµό των τελικών clusters. Ο αριθµός αυτός καθορίζεται κυρίως από την προσπάθεια βελτιστοποιησης µιας συνάρτησης. Στην πραγµατικότητα αυτό που γίνεται είναι να τρέχει ο αλγόριθµος για διαφόρους αριθµούς από clusters και να επιλέγεται εκείνη η τελική κατάσταση η οποία βελτιστοποιεί την παραπάνω συνάρτηση. Η κριτήριο που χρησιµοποιείται κυρίως σε διαµεριστικούς αλγορίθµους για την τελική απόφαση του αριθµού των clusters είναι το κριτήριο του τετραγωνικού λάθους ή η συνάρτηση τετραγωνικού λάθους (squared error function). Αυτή η συνάρτηση ορίζεται για ένα αποτέλεσµα clustering L µε σύνολο στοιχείων S και Κ clusters ως εξής: 2 e ( K, L) = K j= 1 n i= 1 x ( j) i c j 2 όπου ( j) x i το i στοιχείο του j cluster, και c jείναι το κεντροειδές του j cluster. Ο αλγόριθµος k-means είναι ένας πολύ απλός και πολύ διαδεδοµένος διαµεριστικός αλγόριθµος που χρησιµοποιεί το κριτήριο του τετραγωνικού λάθους. Ο αλγόριθµος ξεκινά µε µια τυχαία διαµέριση σε clusters και συνεχώς τοποθετεί στοιχεία στα clusters µε βάση την απόσταση των στοιχείων από το κεντροειδές του cluster. Αυτό σταµατάει µέχρι να ικανοποιηθεί κάποιο κριτήριο το οποίο µπορεί να είναι η ελαχιστοποίηση της συνάρτησης τετραγωνικού λάθους ή η µη διαφοροποίηση των clusters από κάποια επανάληψη και µετά. Ο αλγόριθµος αυτός είναι δηµοφιλής εξαιτίας της απλότητας υλοποίησης του και της πολυπλοκότητας του η οποία είναι της τάξης n (Ο(n)), όπου ν είναι ο αριθµός των στοιχείων. Το µόνο πρόβληµα που έχει ο αλγόριθµος είναι στην αρχική επιλογή των clusters. Αν η επιλογή αυτή δεν είναι αρκετά προσεκτική τότε το κριτήριο τετραγωνικού λάθους συγκλίνει σε τοπικά ελάχιστο κάνοντας την τελική επιλογή cluster ανεπιτυχή. Ας θεωρήσουµε το χώρο του σχήµατος µε επτά στοιχεία. Αν η αρχική µας επιλογή είναι τρία clusters µε αρχικά στοιχεία το Α,B,C στο καθένα, το αποτέλεσµα του clustering θα είναι αυτό που φαίνεται στο σχήµα µε τις ελλείψεις. Αντίθετα αν η αρχική επιλογή είναι τα clusters µε σηµεία το Α,D,F τα τελικά clusters φαίνονται µε τα παραλληλόγραµµα. G F X2 A C B E D X1 30

36 3.6 CLUSTERING ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Σε ένα cluster έχουµε παρατηρήσει ότι τα στοιχεία είναι συνήθως κοντά µεταξύ τους. Έτσι οι αποστάσεις στοιχείων από γειτονικά στοιχεία θα µπορούσαν να χρησιµοποιηθούν για να πραγµατοποιήσουµε οµαδοποιήσεις. Μια επαναληπτική µέθοδος τοποθετεί κάθε στοιχείο στο cluster το οποίο ανήκει και ο κοντινότερος γείτονας του, δεδοµένου ότι η απόσταση αυτή είναι κάτω από κάποιο κατώφλι. Η διαδικασία αυτή συνεχίζεται µέχρι να µην υπάρχουν άλλα στοιχεία η να µην δηµιουργούνται άλλα clusters. 3.7 FUZZY CLUSTERING Μέχρι τώρα έχουµε δει ότι όλες οι τεχνικές και οι αλγόριθµοι clustering τοποθετούν ένα στοιχείο σε ένα και µονό cluster, σε αυτό που τελικά ανήκει. Πρόκειται λοιπόν για σκληρούς αλγορίθµους και αυτό συνεπάγεται ότι τα clusters σε αυτές τις περιπτώσεις είναι ξένα µεταξύ τους σύνολα. Το fuzzy clustering επεκτείνει την έννοια του «ένα στοιχειό ανήκει σε ένα cluster» και συνδέει κάθε στοιχείο µε όλα τα clusters χρησιµοποιώντας µια συνάρτηση µέλους. Το αποτέλεσµα είναι κάποια σύνολα από στοιχεία αλλά όχι µια απόλυτη διάµεση του χώρου δεδοµένων. Ένας αλγόριθµος fuzzy clustering κάνει τα εξής σε γενικές γραµµές: 1. Επιλογή µιας fuzzy διαµέρισης των Ν στοιχείων σε Κ clusters. Καθορισµός του πίνακα U=ΝxΚ του οποίου κάθε στοιχείο u ij δηλώνει τον βαθµό συµµετοχής του στοιχείου i στο cluster j. Η τιµές των u είναι µεταξύ 0 και Χρησιµοποιώντας τον πίνακα U βρίσκεται η τιµή κάποιας συνάρτησης που αποτελεί και το κριτήριο τερµατισµού, και η οποία πρέπει να βελτιστοποιηθεί. Συνεχώς επανατοποθετούµε στοιχεία στα clusters µε νέες τιµές συµµετοχής και επαναπροσδιορίζουµε τον πίνακα U και την τιµή της συνάρτησης. 3. Επαναλαµβάνουµε το βήµα 2 µέχρι να µην επέρχονται σηµαντικές αλλαγές στον πίνακα U και την τιµή της συνάρτησης. 3.8 ΕΝΝΟΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Ένα κύριο χαρακτηριστικό µερικών υψηλής διαστατικότητας δεδοµένων είναι ότι δύο αντικείµενα µπορούν να είναι ιδιαίτερα παρόµοια ακόµα κι αν τα εφαρµοσµένα µέτρα απόστασης ή οµοιότητας δείχνουν ότι είναι ανόµοια ή ίσως µόνο µερικώς παρόµοια. Αντιθέτως, είναι δυνατό οι κοντινότεροι ή πιο όµοιοι γείτονες ενός αντικειµένου να µην είναι τόσο συσχετισµένοι µε το αντικείµενο όσο άλλα αντικείµενα που είναι λιγότερο όµοια. Για την εξέταση αυτού του ζητήµατος έχουµε επεκτείνει τις προηγούµενες προσεγγίσεις που καθορίζουν την απόσταση ή την οµοιότητα των αντικειµένων µέσω του αριθµού κοντινότερων γειτόνων που µοιράζονται. Η προσέγγιση αυτή καθορίζει την οµοιότητα όχι από την άποψη των κοινών ιδιοτήτων, αλλά από την άποψη των εννοιών που µοιράζονται (concept based). 31

37 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΧΩΡΟΙ ΕΝΝΟΙΩΝ (Concept Spaces) Μία έννοια θα είναι ένα σύνολο ιδιοτήτων. Για παράδειγµα, σε ένα έγγραφο µια έννοια θα ήταν ένα σύνολο λέξεων που χαρακτηρίζουν ένα θέµα ή ένα τίτλο όπως «η τέχνη» ή «τα οικονοµικά.»( Η σηµασία των εννοιών είναι ότι, για πολλά σύνολα δεδοµένων, τα αντικείµενα στο σύνολο δεδοµένων µπορούν να εµφανισθούν όπως δηµιουργούνται από ένα ή περισσότερα σύνολα εννοιών µε έναν πιθανολογικό τρόπο.) Κατά συνέπεια, µια προσέγγιση µε βάση τις έννοιες στα έβλεπε κάθε έγγραφο σαν να αποτελείται από λέξεις που προέρχονται από µια ή περισσότερες έννοιες, δηλ., σύνολα λέξεων ή λεξιλογίων, µε την πιθανότητα κάθε λέξης να καθορίζεται από ένα στατιστικό µοντέλο. Αναφερόµαστε στα σύνολα δεδοµένων µε αυτό το είδος δοµής ως χώροι εννοιών, ακόµα κι αν τα δεδοµένα µπορούν να αντιπροσωπευθούν ως σηµεία σε ένα διανυσµατικό χώρο ή µε κάποια άλλη µορφή. Η πρακτική σχετικότητα των χώρων έννοιας είναι ότι τα δεδοµένα που ανήκουν σε αυτά πρέπει να αντιµετωπιστούν διαφορετικά ως προς το πώς η οµοιότητα µεταξύ των σηµείων πρέπει να υπολογιστεί και το πώς τα αντικείµενα πρέπει να συσταδοποιηθούν. Τα µέτρα οµοιότητας µπορούν να «συµπεριφερθούν» απροσδόκητα στους χώρους έννοιας. Οι µεταβλητές είναι µερικές φορές αυτό που ονοµάζεται "µοναδικές" µεταβλητές, δηλαδή είναι λογικό να ειπωθεί πως ένα αντικείµενο έχει αυτό το χαρακτηριστικό γνώρισµα ή δεν έχει αυτό το χαρακτηριστικό γνώρισµα. Για παράδειγµα, ένα έγγραφο µπορεί ή δεν µπορεί να περιλαµβάνει µία σίγουρη λέξη, ή ένας πελάτης µπορεί ή δεν µπορεί να αγοράσει ένα συγκεκριµένο αντικείµενο. Εκτιµήσεις, απόλυτα χαρακτηριστικά, ή δυαδικά χαρακτηριστικά µπορούν εύκολα να µεταφραστούν µέσω των απόλυτων χαρακτηριστικών γνωρισµάτων, αλλά η κατάσταση γίνεται περισσότερο πολύπλοκη µε τα περισσότερα συνεχή χαρακτηριστικά γνωρίσµατα. Θεωρήστε έναν χώρο εννοιών όπου όλα τα αντικείµενα διαιρούνται σε δύο οµάδες, Α και Β. Αντικείµενα από την οµάδα Α είναι δηµιουργηµένα από την συλλογή τριών χαρακτηριστικών γνωρισµάτων (µε ίση πιθανότητα) από ένα σύνολο εννοιών{1,2,3,4,5 και τα αντικείµενα από την οµάδα Β είναι δηµιουργηµένα από την συλλογή τριών χαρακτηριστικών γνωρισµάτων από το σύνολο εννοιών {4,5,6,7,8. Υποθέστε πως έχουµε δηµιουργήσει τα ακόλουθα τρία αντικείµενα x={1,2,3,4, y={3,4,5 και z={4,5,6. (Μπορούµε επίσης να αναπαραστήσουµε αυτά τα στοιχεία ως δυαδικά διανύσµατα,π.χ, x=( ). Προφανώς, τα στοιχεία x και y ανήκουν στην οµάδα Α, ενώ το στοιχείο z ανήκει στην οµάδα Β. Ωστόσο, σχεδόν ξεκάθαρα, τα περισσότερα κριτήρια οµοιότητας, λ.χ, το κριτήριο Jaccard, θα εκτιµούσε πως τα στοιχεία y και z είναι περισσότερο όµοια, καθώς µοιράζονται δύο από τα τρία χαρακτηριστικά τους γνωρίσµατα, ενώ το x και το y µοιράζονται µόνο ένα χαρακτηριστικό γνώρισµα. 32

38 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4.1 ΓΡΑΦΟ-ΘΕΩΡΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι έννοιες και οι ιδιότητες της θεωρίας των γράφων καθιστούν πολύ κατάλληλη την περιγραφή των προβληµάτων συσταδοποίησης µε τη βοήθεια των γράφων (graph based clustering). Οι κόµβοι V ενός ζυγισµένου γράφου G αντιστοιχούν στα σηµεία δεδοµένων στο χώρο προτύπων και οι ακµές Ε απεικονίζουν τις εγγύτητες µεταξύ κάθε ζευγαριού των σηµείων δεδοµένων. Εάν ο χώρος ανοµοιότητας ορίζεται ως όπου το d είναι ένα κατώφλι, πάνω από το οποίο συνδέονται δύο κόµβοι τότε ο γράφος απλοποιείται σε έναν µη ζυγισµένο γράφο. Και οι δύο τεχνικές ιεραρχικής συσταδοποίησης (Hierarchical clustering) του απλού συνδέσµου (single links) και του πλήρους συνδέσµου (complete links) µπορούν να περιγραφούν µε βάση το γράφο αυτό. Η συσταδοποίηση απλού συνδέσµου είναι ισοδύναµη µε την αναζήτηση των µέγιστα συνδεδεµένων υπογράφων (connected components) ενώ η συσταδοποίηση πλήρους συνδέσµου είναι ισοδύναµη µε την εύρεση των µέγιστων πλήρως συνδεδεµένων υπογράφων (cliques). Οι Jain και Dubes επεξήγησαν και συζήτησαν περισσότερες εφαρµογές της θεωρίας των γράφων (π.χ., αλγόριθµος του Hubert και αλγόριθµος Johnson) για την ιεραρχική συσταδοποίηση. Ο Chameleon είναι ένας πρόσφατος συσσωρευτικός αλγόριθµος ιεραρχικής συσταδοποίησης βασισµένος στο γράφο Κ-κοντινότερων-γειτόνων, στην οποία µια ακµή-σύνδεσµος µεταξύ δύο κορυφών-σηµειων διαγράφεται εάν η κάθε µία κορυφή δεν είναι µέσα στα K-κοντινότερα σηµεία της άλλης. Στο πρώτο βήµα, ο Chameleon διαιρεί το γράφο συνδετικότητας σε σύνολο υποοµάδων µε την ελάχιστη περικοπή ακρών. Κάθε υπογράφος πρέπει να περιέχει αρκετούς κόµβους για τον αποτελεσµατικό υπολογισµό οµοιότητας. Ο συνδυασµός της σχετικής αλληλοσυνδετικότητας και της σχετικής κοντινότητας µεταξύ δύο σηµείων, που καθιστά τον Chameleon αρκετά κατάλληλο να ερευνήσει τα χαρακτηριστικά των πιθανών συστάδων. Ο Chameleon συγχωνεύει αυτά τα µικρά υποσύνολα υπογράφων και, βρίσκει τις συγκεντρώσεις συστάδων. Εδώ, η σχετική αλληλοσυνδετικότητα (ή κοντινότητα) λαµβάνεται µε την κανονικοποίηση του αθροίσµατος των βαρών (ή του µέσου βάρους) των ακµών που συνδέουν τις δύο συστάδες πέρα από την εσωτερική συνδετικότητα (ή τη κοντινότητα) των συστάδων. Ο Delaunay τριγωνικός γράφος - DTG- είναι µια άλλη σηµαντική αντιπροσώπευση γράφων για την ανάλυση ιεραρχικής συσταδοποίησης HC. Ο Cherng και ο Lo κατασκεύασαν έναν υπεργράφο (κάθε ακµή επιτρέπεται να συνδέει/να έχει, περισσότερες 33

39 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ από δύο άκρες) από το DTG και χρησιµοποίησαν έναν αλγόριθµο δυο φάσεων που είναι παρόµοιος µε τον Chameleon για να βρεί τις συστάδες. Μια άλλη dtg-βασισµένη εφαρµογή, γνωστός ως AMOEBA αλγόριθµος. Η θεωρία γράφων µπορεί επίσης να χρησιµοποιηθεί για µη ιεραρχικές συστάδες. Ο αλγόριθµος συγκέντρωσης του Zahn αναζητάει τα συνδεδεµένα συστατικά ως συστάδες µε την ανίχνευση και την απόρριψη των ασυµβίβαστων ακρών ενός ένδρου ελαχίστων συζεύξεων (minimum spanning tree) στο ελάχιστο spanning tree. Ο Hartuv και ο Shamir µεταχειρίστηκαν τις συστάδες ως ιδιαίτερα υψηλά συνδεδεµένα υπογράφους (HCS), όπου «ιδιαίτερα υψηλά συνδεµένος» σηµαίνει η συνδετικότητα (ο ελάχιστος αριθµός ακρών που απαιτούνται για να αποσυνδέσουν έναν γράφο) ενός υπογράφου είναι τουλάχιστον µισή όσο του αριθµού των ακρών. Αλγόριθµος CLICK Ένας άλλος αλγόριθµος, αποκαλούµενος CLICK, είναι βασισµένος στον υπολογισµό του ελάχιστου βάρους που λαµβάνεται υπόψιν για να διαµορφώσει τις συστάδες. Εδώ, ο γράφος είναι ζυγισµένος και στα βάρη ακµών ορίζεται µια νέα ερµηνεία, µε το συνδυασµό της πιθανότητας και της θεωρίας των γράφων. Το βάρος ακµής µεταξύ του κόµβου ι και j καθορίζεται όπως φαίνεται παρακάτω Όπου αντιπροσωπεύει την οµοιότητα µεταξύ των δύο κόµβων. Ο CLICK περαιτέρω υποθέτει ότι οι τιµές οµοιότητας µέσα στις συστάδες και µεταξύ των συστάδων ακολουθούν γκαουσσιανές κατανοµές µε τα διαφορετικούς µέσους (mean) και διακυµάνσεις αντίστοιχα. Εποµένως, η προηγούµενη εξίσωση µπορεί να ξαναγραφεί µε τη χρήση του θεωρήµατος Bayes όπως Όπου είναι η προγενέστερη πιθανότητα ότι δύο αντικείµενα ανήκουν στην ίδια συστάδα και είναι τα µέσα και οι διακυµάνσεις για τις οµοιότητες µεταξύ συστάδων και τις οµοιότητες ανάµεσα στις συστάδες αντίστοιχα. Αυτές οι παράµετροι µπορούν να υπολογιστούν είτε από την προγενέστερη γνώση, είτε µε τη χρήση των µεθόδων παραµετρικής εκτίµησης. Ο CLICK κατ' επανάληψη ελέγχει τον τρέχον υπογράφο, και παράγει έναν κατάλογο πυρήνων, ο οποίος αποτελείται από τα συστατικά που ικανοποιούν κάποια κρητήρια. Οι υπογράφοι που περιλαµβάνουν µόνο έναν κόµβο θεωρούνται ως µονήρεις, και διαχωρίζονται για περεετέρω παρακολούθηση 34

40 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Χρησιµοποιώντας τους πυρήνες ως βασικές συστάδες, ο CLICK πραγµατοποιεί µια σειρά υιοθετήσεων µονήρων συστάδων και συγχώνευσης συστάδων για να παραγάγει τις τελικές συστάδες. Πρόσθετα ευρετικά (heuristics) παρέχονται για να επιταχύνουν την απόδοση αλγορίθµου. Οµοίως, ο CAST εξετάζει ένα πιθανολογικό µοντέλο στο σχεδιασµό ενός βασισµένου στη θεωρία-γράφου αλγόριθµου συγκέντρωσης. Οι συστάδες διαµορφώνονται ως κλίκες γράφων, οι οποίοι, στις ιδανικές συνθήκες, θεωρούνται σαν ένα σύνολο από χωρισµένες κλίκες. Η επίδραση του θορύβου ενσωµατώνεται από την προσθήκη ή την αφαίρεση ακµών από το ιδανικό µοντέλο, µε πιθανότητα α. Αλγόριθµος CAST Υπάρχουν αποδείξεις για την ανάκτηση του αδιάφθορου γράφου µε µια υψηλή πιθανότητα. Ο CAST είναι η ευρετική εφαρµογή της αρχικής θεωρητικής έκδοσης. Ο CAST δηµιουργεί συστάδες διαδοχικά, και κάθε συστάδα αρχίζει µε έναν τυχαία επιλεγµένο σηµείο δεδοµένων. Η σχέση µεταξύ ενός σηµείου δεδοµένων i και µιας συστάδας Co συστάδων που δηµιουργείται καθορίζεται από τν οµοιότητα, που ορίζεται ως και το κατώφλι παράµετρου συγγένειας t. Όταν σηµαίνει ότι το σηµείο δεδοµένων συσχετίζεται ιδιαίτερα µε τη συστάδα και αντίστροφα. Ο CAST διαδοχικά προσθέτει τα υψηλά σχετιζόµενα ή διαγράφει τα χαµηλά σχετιζόµενα σηµεία δεδοµένων οµοιότητας από τη συστάδα έωςότου δεν εµφανίζονται άλλες αλλαγές. Αλγόριθµος ROCK (χρησιµοποιώντας συνδέσεις) Ο ROCK είναι ένας αλγόριθµος συσταδοποίησης για δεδοµένα µε κατηγορικά γνωρίσµατα. Ένα ζέυγος σηµείων ορίζεται να είναι γείτονες εάν η οµοιότητά τους είναι µεγαλύτερη από κάποιο κατώτατο όριο. Χρησιµοποιεί ένα ιεραρχικό σχήµα συσταδοποίησης για να οµαδοποιηθούν τα δεδοµένα. Λαµβάνει ένα δείγµα των σηµείων από το σύνολο δεδοµένων Υπολογίζει την τιµή συνδέσεων για κάθε σύνολο σηµείων, δηλ., µετασχηµατίζει τις αρχικές οµοιότητες (που υπολογίζονται από το συντελεστή Jaccard) σε οµοιότητες που απεικονίζουν τον αριθµό των κοινών γειτόνων µεταξύ των σηµείων Εκτελεί µία συσσωρευτική ιεραρχική συσταδοποίηση στα δεδοµένα χρησιµοποιώντας τον «αριθµό κοινών γειτόνων» ως µέτρο οµοιότητας και µεγιστοποιώντας την αντικειµενική συνάρτηση «των κοινών γειτόνων» Αναθέτει τα υπόλοιπα σηµεία στις συστάδες που έχουν βρεθεί 35

41 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Βήµατα Συσταδοποίησης µε γράφο εγκύτητας: Βρείτε το πίνακα εγγύτητας (proximity matrix). Θεωρήστε κάθε σηµείο ως κόµβο σε έναν γράφο. Κάθε ακµή µεταξύ δύο κόµβων έχει ένα βάρος που είναι η εγγύτητα µεταξύ των δύο σηµείων. Αρχικά ο γράφος εγγύτητας συνδέεται πλήρως. Οι αλγόριθµοι απλού συνδέσµου (single link, MIN ) και πλήρους συνδέσµου (Complete link, MAX ) ξεκινάνε επίσης µε ένα τέτοιο γράφο. Στην απλούστερη περίπτωση, οι συστάδες είναι συνδεδεµένα συστατικά (connected components) στο γράφο. Αλγόριθµος CHAMELEON Ο CHAMELEON είναι ένας συσσωρευτικός ιεραρχικός αλγόριθµος που µετρά την οµοιότητα δύο συστάδων που βασίζονται σε ένα δυναµικό µοντέλο, ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδοµένων χρησιµοποιώντας έναν αλγόριθµο δύο φάσεων. Κατά τη διάρκεια της πρώτης φάσης ο CHAMELEON χρησιµοποιεί έναν αλγόριθµο συσταδοποίησης βασισµένο σε γράφους για να τµηµατοποιήσει τα δεδοµένα σε έναν µεγάλο αριθµό σχετικά µικρών υποσυστάδων. Κατά τη διάρκεια της δεύτερης φάσης χρησιµοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθµο για να βρει τις συστάδες από επαναληπτικούς συνδυασµούς των υποσυστάδων που προέκυψαν από την πρώτη φάση. Η οµοιότητα µεταξύ των συστάδων καθορίζεται µε τον έλεγχο της σχετικής ενδοσυνδετικότητας και της σχετικής εγγύτητας αυτών. Η αναπαράσταση των δεδοµένων βασίζεται στη συνήθως χρησιµοποιηµένη προσέγγιση του κ-πλησιέστερου γράφου γειτνίασης. Οι κορυφές του κ- πλησιέστερου γράφου γειτνίασης αντιπροσωπεύουν τα αντικείµενα του συνόλου δεδοµένων και υπάρχει µια ακµή µεταξύ δύο κόµβων ν1 ν2 εάν το αντικείµενο που αντιστοιχεί στον ν είναι µεταξύ των κοντινότερων γειτόνων του ν1. Κατόπιν ο αλγόριθµος βρίσκει τις αρχικές υποσυστάδες χρησιµοποιώντας έναν αλγόριθµο τµηµατοποίησης γράφου ώστε να κατατµηθεί ο κ-πλησιέστερος γράφος γειτνίασης του συνόλου δεδοµένων σε έναν µεγάλο αριθµό τµηµάτων. Κατά τη διάρκεια της επόµενης φάσης ο CHAMELEON χρησιµοποιεί έναν συσσωρευτικό αλγόριθµο συσταδοποίησης ο οποίος συνδυάζει µαζί αυτές τις υποσυστάδες του γράφου. Για τη συγχώνευση των υποσυστάδων λαµβάνει υπόψη τη σχετική ενδο-συνδετικότητά και την εγγύτητα των υποσυστάδων. Κατά συνέπεια εκείνα τα ζευγάρια των συστάδων των οποίων η σχετική ενδο-συνδετικότητα και εγγύτητα είναι πάνω από το όριο που ορίζεται από τους χρήστες συγχωνεύονται. Αλγόριθµος C^2P Ένας πρόσφατος αλγόριθµος συσταδοποίησης που συνδυάζει τα χαρακτηριστικά των ιεραρχικών αλγορίθµων και της θεωρίας γράφων είναι ο C^2P. Ο C^2P εκµεταλλεύεται τις δοµές ευρετηρίων και την επεξεργασία των ερωτήσεων του πιο κοντινού ζευγαριού (CPQ) στις χωρικές βάσεις δεδοµένων. Ο C^2P οργανώνει το αποτέλεσµα του CPQ σε µια χωρική µέθοδο προσπέλασης σε µια δοµή γράφου. Κατόπιν η συσταδοποίηση εκτελείται µε τον προσδιορισµό των συστάδων ως συστατικό του γράφου. Ο C^2P αποτελείται από δύο βασικές φάσεις: 36

42 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Φάση 1: Παράγει διάφορες υποσυστάδες που είναι µια αποτελεσµατική αντιτροσώπευση των τελικών συστάδων. Είναι µια επαναληπτική διαδικασία κατά την οποία διάφορες συστάδες συγχωνεύονται. Η διαδικασία self Semi - CPQ βρίσκει τα ζευγάρια των σηµείων (ρ. ρ ) που ανήκουν σε ένα σύνολο δεδοµένων 8 έτσι ώστε dist(ρ. ρ ) = min{ dist(ρ. x). Ο αλγόριθµος χρησιµοποιεί µια γραφική αναπαράσταση που οργανώνει τις πληροφορίες εγγύτητας που υπολογίζονται από τον CPQ και ορίζει τις συστάδες ως συστατικά του γράφου. Χρησιµοποιεί τα κέντρα των συστάδων για την αναπαράστασή τους. Ο αλγόριθµος χρησιµοποιεί τον Depth - First - Search αλγόριθµο στο γράφο για να βρει τα συνδεµένα στοιχεία του γράφου ο οποίος περιλαµβάνει επίσης τις υποσυστάδες του συνόλου δεδοµένων. Κατά συνέπεια σηµεία που ανήκουν στο ίδιο συνδεµένο στοιχείο µπορεί να θεωρηθούν ως µια υποσυστάδα. Σε περίπτωση που ο αριθµός των καθορισµένων υποσυστάδων, έστω c, είναι ίσος µε τον απαιτούµενο αριθµό υποσυστάδων η φάση 1 ολοκληρώνεται. ιαφορετικά βρίσκει το κέντρο κάθε υποσυστάδας για να το αντιπροσωπεύσει. Κατόπιν η ίδια διαδικασία όπως περιγράφηκε πιο πάνω εφαρµόζεται επαναληπτικά στο σύνολο των c κέντρων µέχρι που να οριστεί ο απαιτούµενο s αριθµός υποσυστάδων, Φάση 2: Είναι µια εξειδικευµένη περίπτωση της πρώτης φάσης που χρησιµοποιεί µια διαφορετική αναπαράσταση συστάδας ώστε να παραχθεί το λεπτοµερές τελικό σχήµα συσταδοποίησης. Επιπλέον συγχωνεύει δύο συστάδες σε κάθε βήµα ώστε να ελεγχθεί η διαδικασία συσταδοποίησης. Σε κάθε βήµα όταν συγχωνεύονται δύο συστάδες. Τα σηµεία τ µεταξύ όλων των σηµείων των συγχωνευµένων συστάδων που είναι πιο κοντά στο κέντρο επιλέγονται ως αντιπρόσωποι της νέας συστάδας. Χρησιµοποιώντας περισσότερα σηµεία ως αντιπροσώπους αντί του κέντρου ο C^2P µπορεί αποτελεσµατικά να συλλάβει τη µορφή και το µέγεθος των συστάδων. Κατόπιν η εύρεση του πιο κοντινού ζευγαριού συστάδων γίνεται µε τον self - CPQ. Πιο συγκεκριµένα η φάση 2 έχει ως είσοδο τα κέντρα των υποσυστάδων που καθορίζονται στη Φάση 1. Σε κάθε επανάληψη της φάσης 2, ο self - CPQ βρίσκει το πια κοντινό ζευγάρι των συστάδων βρίσκοντας το πιο κοντινό ζευγάρι µεταξύ των αντιπροσωπευτικών τους σηµείων. Κατόπιν αυτές οι δύο συστάδες συγχωνεύονται και τα σηµεία r για την αντιπροσώπευση των νέων συστάδων επιλέγονται. Η διαδικασία ολοκληρώνεται όταν επιτυγχάνεται ο απαιτούµενος αριθµός συστάδων. Σύγκριση CHAMELEON µε C^2P Ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδοµένων χρησιµοποιώντας ένα αλγόριθµο δύο φάσεων. Κατά τη διάρκεια της πρώτης φάσης, ο CHAMELEON χρησιµοποιεί έναν αλγόριθµο συσταδοποίησης βασισµένο σε γράφους για να τµηµατοποιήσει τα δεδοµένα σε έναν µεγάλο αριθµό σχετικά µικρών υποσυστάδων. Ο αλγόριθµος της πρώτης φάσης προσπαθεί να ελαχιστοποιήσει το βάρος κάθε οµάδας. Κατά τη διάρκεια της δεύτερης φάσης, χρησιµοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθµο για να βρει τις συστάδες από επαναληπτικούς συνδυασµούς των υποσυστάδων που προέκυψαν από την πρώτη φάση. Η οµοιότητα µεταξύ των συστάδων καθορίζεται µε τον έλεγχο της σχετικής ενδοσυνδετικότητας (inter-connectivity) και της σχετικής εγγύτητας (closeness) αυτών. Η αναπαράσταση των δεδοµένων βασίζεται στη προσέγγιση του k-πλησιέστερου γράφου γειτνίασης (k-nearest neighbor graph). 37

43 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Ο C2Ρ εκµεταλλεύεται τις δοµές ευρετηρίων και την επεξεργασία των ερωτήσεων του πιο κοντινού ζευγαριού (Closest Pair Queries CPQ) στις χωρικές βάσεις δεδοµένων. Ο C2Ρ οργανώνει το αποτέλεσµα του CPQ πάνω µια χωρική µέθοδο προσπέλασης (R- Tree) σε µια δοµή γράφου. Η δοµή γράφου αναπαριστά τα Closest Pairs. Κατόπιν η συσταδοποίηση εκτελείται µε τον προσδιορισµό των συστάδων ως συστατικά του γράφου. Ο CHAMELEON δουλεύει αποτελεσµατικά για την εύρεση συστάδων µε περίεργα σχήµατα έχει όµως σηµαντικές απαιτήσεις από άποψη πολυπλοκότητας, καθώς η πολυπλοκότητα του είναι Ο(n2). ο C2P συνδυάζει αποδοτικά τα πλεονεκτήµατα των ιεραρχικών και βασισµένων στην θεωρία των γράφων αλγορίθµων επιτυγχάνοντας τόσο καλή ποιότητα συσταδοποίησης όσο και καλή προσαρµογή στην διαχείριση µεγάλου όγκου δεδοµένων. 4.2 Αραιοποίηση Sparsification Μέτρο sparsification. Η ποσότητα δεδοµένων που πρέπει να υποβληθεί σε επεξεργασία είναι δραστικά µειωµένη. Το Sparsification µπορεί να απαλήψει περισσότερο από 99% των καταχωρήσεων σε ένα γράφο εγγύτητας Το χρονικό διάστηµα που απαιτείται για να οµαδοποιηθούν τα δεδοµένα µειώνεται δραστικά αυξάνοντας έτσι το µέγεθος των προβληµάτων που µπορούν να αντιµετωπιστούν µε αυτό τον τρόπο. Οι τεχνικές Sparsification τηρούν τις συνδέσεις µε τους πιο όµοιους (κοντινότερους) γείτονες ενός σηµείου σπάζοντας τις συνδέσεις στα λιγότερα όµοια σηµεία. Οι κοντινότεροι γείτονες ενός σηµείου τείνουν να ανήκουν στην ίδια κλάση µε αυτή που ανήκει το ίδιο το σηµείο. Αυτό µειώνει τον αντίκτυπο του θορύβου και των ακραίων σηµείων και βελτιώνει τη διάκριση µεταξύ δύο συστάδων. Το Sparsification διευκολύνει τη χρήση γραφοθεωρητίκων- αλγορίθµων. 38

44 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4.3 GRAPH-JARVIS-PATRIC Μία προσέγγιση οµοιότητας βασισµένη σε γράφο κοινών κοντινών γειτόνων όπως προτάθηκε από τους Jarvis-Patrick και µετέπειτα στον αλγόριθµο ROCK, είναι µία προτεινόµενη µέθοδος λύσης και για το παραπάνω πρόβληµα, καθώς επίσης και για την συσταδοποίηση µη-αριθµητικών δεδοµένων κατηγοριών. Η οµοιότητα δύο σηµείων καθορίζεται όχι σύµφωνα µε κάποια απόσταση αλλά µε τον αριθµό των κοντινών γειτόνων που µοιράζονται. Ο αλγόριθµος Jarvis- Patrick µοιάζει έπειτα ως προς τα αποτελέσµατα µε την τεχνική της ιεραρχικής συσωρευτικής συσταδοποίησης απλού συνδέσµου και ο ROCK µε αυτή του µέσου συνδέσµου. i j i 4 j Ο αλγόριθµος Jarvis-Patrick είναι ο πρώτος µη ιεραρχικός αλγόριθµος που εισήγαγε τον γράφο κοινών κοντινών γειτόνων. Οµοίως ο αλγόριθµος ROCK µετασχηµατίζει τις αρχικές οµοιότητες µεταξύ δύο αντικειµένων, που υπολογίζονται (π.χ. µε συντελεστές Jaccard), σε οµοιότητες που αντανακλούν τον αριθµό των κοινών γειτόνων τους. Οι αλγόριθµοι που ακολούθησαν όπως οι Chameleon, DTG (Delaunay triangulation graph), Min-cut, HCS (highly connected subgraphs), CLICK (clustering identification via connectivity kernels), CAST (cluster affinity search technique), AMOEBA, SNN, C2P αποδεικνύουν την δηµοφιλία της χρήσης των γράφων γειτνίασης k-πλησιέστερων κορυφών και των γράφων κοινών κοντινών γειτόνων σε παρόµοιες εφαρµογές. Οι δύο τελευταίοι αλγόριθµοι SNN και C2P που είναι και πρόσφατοι εµπεριέχουν στα βήµατά τους τον αρχικό αλγόριθµο Jarvis-Patrick, και έπειτα συνεχίζουν ο πρώτος µε τον DBSCAN και ο δεύτερος µε τον MST. ΑΛΓΟΡΙΘΜΟΣ JARVIS & PATRICK Απαραίτητες παράµετροι εισόδου: J = το µέγεθος της λίστας γειτόνων, Κ = αριθµός κοινών γειτόνων που χρειάζονται για την οπαδοποίηση. 1. Υπολογίζονται οι Κ κοντινότεροι γείτονες κάθε δείγµατος στο σύνολο δεδοµένων 2. Στο στάδιο της συσταδοποίησης, δύο δείγµατα ι και j οµαδοποιούνται στην ίδια συστάδα εάν : Το i είναι ένας από τους Κ πλησίον-γείτονες του j, το j είναι ένας από τους Κ πλησίον-γείτονες του i, το i και το j έχουν τουλάχιστον Μ κοινούς γείτονες από τους Κ κοντινότερους γείτονες τους, όπου το Κ και Μ είναι παράµετροι καθορισµένοι από το χρήστη. 39

45 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Ολοκληρώνεται σε ένα βήµα, από τη στιγµή που η συσταδοποίηση είναι µεταβατική. (δηλ. εάν το Α - Β ικανοποιεί τα κριτήρια και το Β - C ικανοποιεί τα κριτήρια, τότε το A-B-C τίθεται σε µια συστάδα, ακόµα κι αν το A-C ΕΝ ικανοποιεί τα κριτήρια) Jarvis-Patrick Example Parameters: J = 3, K = 2 Πρόσθετη παράµετρος Κ (ο αριθµός κοινών κοντινότερων γειτόνων για να διαµορφώνει «σφιχτές συστάδες») Πλεονεκτήµατα: µπορεί να χειριστεί µεγάλα σύνολα δεδοµένων Μειονεκτήµατα: Πρέπει να επιλεγούν οι κατάλληλες τιµές παραµέτρων. 40

46 4.3.1 Όταν ο jarvis- Patrick δουλεύει εύλογα καλά ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Jarvis Πάτρικ Συσταδοποίηση. Αρχικά σηµεία 6 κοινοί γείτονες από τα Όταν ο jarvis- Patrick δεν δουλεύει καλά Μικρότερο κατώτατο όριο, Τ, το οποίο δεν συγχωνεύει τις συστάδες. Κατώτατο όριο του Τ 1 41

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα

Κεφάλαιο 7. Τρισδιάστατα Μοντέλα Κεφάλαιο 7. 7.1 ομές εδομένων για Γραφικά Υπολογιστών. Οι δομές δεδομένων αποτελούν αντικείμενο της επιστήμης υπολογιστών. Κατά συνέπεια πρέπει να γνωρίζουμε πώς οργανώνονται τα γεωμετρικά δεδομένα, προκειμένου

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος ΑΛΓΟΡΙΘΜΟΙ Στο σηµείωµα αυτό αρχικά εξηγείται η έννοια αλγόριθµος και παραθέτονται τα σπουδαιότερα κριτήρια που πρέπει να πληρεί κάθε αλγόριθµος. Στη συνέχεια, η σπουδαιότητα των αλγορίθµων συνδυάζεται

Διαβάστε περισσότερα

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια) ΠΜΣ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗ ΥΓΕΙΑ, ΙΑΧΕΙΡΙΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΑΠΟΤΙΜΗΣΗ ΑΚ. ΕΤΟΣ 2006-2007, 3ο εξάµηνο ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Απλή γραµµική παλινδρόµηση Παράδειγµα 6: Χρόνος παράδοσης φορτίου ΜΑΘΗΜΑ

Διαβάστε περισσότερα

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Της σπουδάστριας ΚΑΤΣΑΡΟΥ ΧΑΡΙΚΛΕΙΑΣ Επιβλέπων Δρ. ΓΕΡΟΝΤΙΔΗΣ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

2 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 2 + 0.5 0 0.125 + 1 + 0.5 1 0.125 + 1 + 0.75 1 0.125 1/5

2 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 + 1 + 0.5 2 + 0.25 2 + 0.5 0 0.125 + 1 + 0.5 1 0.125 + 1 + 0.75 1 0.125 1/5 IOYNIOΣ 23 Δίνονται τα εξής πρότυπα: x! = 2.5 Άσκηση η (3 µονάδες) Χρησιµοποιώντας το κριτήριο της οµοιότητας να απορριφθεί ένα χαρακτηριστικό µε βάση το συντελεστή συσχέτισης. Γράψτε εδώ το χαρακτηριστικό

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

Λίγα λόγια από το συγγραφέα... 7. 91 Βάσεις δεδομένων και Microsoft Access... 9. 92 Microsoft Access... 22

Λίγα λόγια από το συγγραφέα... 7. 91 Βάσεις δεδομένων και Microsoft Access... 9. 92 Microsoft Access... 22 ΕΝΟΤΗΤΑ 5 Περιεχόμενα Λίγα λόγια από το συγγραφέα... 7 91 Βάσεις δεδομένων και Microsoft Access... 9 92 Microsoft Access... 22 93 Το σύστημα Βοήθειας του Microsoft Office... 32 94 Σχεδιασμός βάσης δεδομένων

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

Υπολογιστικές Μέθοδοι στις Κατασκευές

Υπολογιστικές Μέθοδοι στις Κατασκευές Γενικά Για Τη Βελτιστοποίηση Η βελτιστοποίηση µπορεί να χωριστεί σε δύο µεγάλες κατηγορίες: α) την Βελτιστοποίηση Τοπολογίας (Topological Optimization) και β) την Βελτιστοποίηση Σχεδίασης (Design Optimization).

Διαβάστε περισσότερα

Σηµειώσεις στις σειρές

Σηµειώσεις στις σειρές . ΟΡΙΣΜΟΙ - ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ Σηµειώσεις στις σειρές Στην Ενότητα αυτή παρουσιάζουµε τις βασικές-απαραίτητες έννοιες για την µελέτη των σειρών πραγµατικών αριθµών και των εφαρµογών τους. Έτσι, δίνονται συστηµατικά

Διαβάστε περισσότερα

Concept Mapping: H Βασισµένη στον Η/Υ ηµιουργία Εννοιολογικών Χαρτών και η ιδακτική Αξιοποίησή τους.

Concept Mapping: H Βασισµένη στον Η/Υ ηµιουργία Εννοιολογικών Χαρτών και η ιδακτική Αξιοποίησή τους. 4ο ΣΥΝΕ ΡΙΟ ΣΤΗ ΣΥΡΟ - ΤΠΕ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ 1 Concept Mapping: H Βασισµένη στον Η/Υ ηµιουργία Εννοιολογικών Χαρτών και η ιδακτική Αξιοποίησή τους. Κωνσταντίνα Στούµπου Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ

ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ ΚΕΦΑΛΑΙΟ 4 ΤΑΞΙΝΟΜΗΣΕΙΣ ΤΩΝ ΟΡΓΑΝΙΣΜΩΝ 1. Η ΠΡΟΣΕΓΓΙΣΗ 203. Η προσέγγιση εστιάζει στις χαρακτηριστικές ιδιότητες της καινοτοµικής επιχείρησης και όλα τα χαρακτηριστικά των δραστηριοτήτων καινοτοµίας και

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 16. Απλή Γραμμική Παλινδρόμηση και Συσχέτιση ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

2. Στοιχεία Πολυδιάστατων Κατανοµών

2. Στοιχεία Πολυδιάστατων Κατανοµών Στοιχεία Πολυδιάστατων Κατανοµών Είναι φανερό ότι έως τώρα η µελέτη µας επικεντρώνεται κάθε φορά σε πιθανότητες που αφορούν µία τυχαία µεταβλητή Σε αρκετές όµως περιπτώσεις ενδιαφερόµαστε να εξετάσουµε

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Χειμερινό Εξάμηνο 2013 - ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΒΔ - ΕΙΣΑΓΩΓΗ ΣΤΟ ΜΟΝΤΕΛΟ ΟΝΤΟΤΗΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ Δρ. Βαγγελιώ Καβακλή ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ, ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 Αρχιτεκτονική

Διαβάστε περισσότερα

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS) ρ. ΧΑΛΚΙΑΣ ΧΡΙΣΤΟΣ xalkias@hua.gr Χ. Χαλκιάς - Εισαγωγή στα GIS 1 Ορισµοί ΓΠΣ Ένα γεωγραφικό πληροφοριακό σύστηµα Geographic Information

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες ΕΙΣΑΓΩΓΗ Βασικές έννοιες Σε ένα ερωτηματολόγιο έχουμε ένα σύνολο ερωτήσεων. Μπορούμε να πούμε ότι σε κάθε ερώτηση αντιστοιχεί μία μεταβλητή. Αν θεωρήσουμε μια ερώτηση, τα άτομα δίνουν κάποιες απαντήσεις

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Φροντιστήρια Επίγνωση Προτεινόμενα Θέματα Πανελλαδικών ΑΕΠΠ 2015

Φροντιστήρια Επίγνωση Προτεινόμενα Θέματα Πανελλαδικών ΑΕΠΠ 2015 Φροντιστήρια Επίγνωση Προτεινόμενα Θέματα Πανελλαδικών ΑΕΠΠ 2015 Βάλβης Δημήτριος Μηχανικός Πληροφορικής ΘΕΜΑ Α Α1. Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς από τις παρακάτω προτάσεις 1-5 και δίπλα

Διαβάστε περισσότερα

(GNU-Linux, FreeBSD, MacOsX, QNX

(GNU-Linux, FreeBSD, MacOsX, QNX 1.7 διαταξεις (σελ. 17) Παράδειγµα 1 Θα πρέπει να κάνουµε σαφές ότι η επιλογή των λέξεων «προηγείται» και «έπεται» δεν έγινε απλώς για λόγους αφαίρεσης. Μπορούµε δηλαδή να ϐρούµε διάφορα παραδείγµατα στα

Διαβάστε περισσότερα

1.1.3 t. t = t2 - t1 1.1.4 x2 - x1. x = x2 x1 . . 1

1.1.3 t. t = t2 - t1 1.1.4  x2 - x1. x = x2 x1 . . 1 1 1 o Κεφάλαιο: Ευθύγραµµη Κίνηση Πώς θα µπορούσε να περιγραφεί η κίνηση ενός αγωνιστικού αυτοκινήτου; Πόσο γρήγορα κινείται η µπάλα που κλώτσησε ένας ποδοσφαιριστής; Απαντήσεις σε τέτοια ερωτήµατα δίνει

Διαβάστε περισσότερα

ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης)

ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης) ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης) Καλλονιάτης Χρήστος Επίκουρος Καθηγητής Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας, Πανεπιστήμιο Αιγαίου http://www.ct.aegean.gr/people/kalloniatis

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.)

ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.) ΔΙΟΙΚΗΣΗΣ MANAGEMENT INFORMATION SYSTEMS (M.I.S.) 2.1 Κωνσταντίνος Ταραμπάνης Καθηγητής Τμήμα Οργάνωσης και Διοίκησης Επιχειρήσεων Πανεπιστήμιο Μακεδονίας Γρ. 307 2310-891-578 kat@uom.gr ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ

Διαβάστε περισσότερα

Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει Πληροφορίας Θέσης

Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει Πληροφορίας Θέσης ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει

Διαβάστε περισσότερα

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Πρόβλημα 1 Το πρώτο πρόβλημα λύνεται με τη μέθοδο του Δυναμικού Προγραμματισμού. Για να το λύσουμε με Δυναμικό Προγραμματισμό

Διαβάστε περισσότερα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ ΠΡΩΤΟ ΘΕΩΡΙΑΣ-ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ ΕΡΓΑΣΤΗΡΙΟ PASW 18 Δρ. Κουνετάς Η Κωνσταντίνος Ακαδημαϊκό Έτος 2011 2012 ΕΠΙΧ

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βασικές Έννοιες Προγραμματισμού Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Αριθμητικά συστήματα Υπάρχουν 10 τύποι ανθρώπων: Αυτοί

Διαβάστε περισσότερα

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή ΜΕΡΟΣ Α ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 1 Εξόρυξη Δεδομένων 22 Η επανάσταση του ΚΡΙΟΥ 1.1 Εισαγωγή Το Data Mining αποτελεί μια νέα ερευνητική περιοχή, ραγδαία εξελισσόμενη, που είναι η τομή πολλών θεωριών και επιστημών,

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Διαβάστε περισσότερα

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Αθηνά - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης "Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης ΙΝΣΤΙΤΟΥΤΟ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΡΟΣΚΛΗΣΗ ΕΚΔΗΛΩΣΗΣ ΕΝΔΙΑΦΕΡΟΝΤΟΣ Ημ/νία ανάρτησης στον ιστότοπο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ ΔΕΟ 13 ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ 3 η ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑΤΑ

ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ ΔΕΟ 13 ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ 3 η ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑΤΑ ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ ΔΕΟ 13 ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ 3 η ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΘΕΜΑΤΑ ΘΕΜΑ 1 ο Τα δεδομένα της στήλης Grade (Αρχείο Excel, Φύλλο Ask1) αναφέρονται στη βαθμολογία 63 φοιτητών που έλαβαν μέρος σε

Διαβάστε περισσότερα

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Επαναληπτική Εξέταση (3 ώρες) Ηµεροµηνία:

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 1 Ο ΠΙΘΑΝΟΤΗΤΕΣ

ΚΕΦΑΛΑΙΟ 1 Ο ΠΙΘΑΝΟΤΗΤΕΣ ΚΕΦΛΙΟ Ο ΠΙΘΝΟΤΗΤΕΣ. Εισαγωγή Στην Θεωρία Πιθανοτήτων, ξεκινάµε από το λεγόµενο πείραµα δηλαδή µια διαδικασία η οποία µπορεί να επαναληφθεί θεωρητικά άπειρες φορές, κάτω από τις ίδιες ουσιαστικά συνθήκες,

Διαβάστε περισσότερα

Συνολικός Χάρτης Πόλης

Συνολικός Χάρτης Πόλης Στα πλαίσια εφαρµογής της οδηγίας 2002/49/ΕΚ, για την αντιµετώπιση των σοβαρών περιβαλλοντικών προβληµάτων που αντιµετωπίζουν οι πόλεις, εξαιτίας του οδικού Θορύβου, µε σοβαρές επιπτώσεις στην ανθρώπινη

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

Cross sectional Panel Omnibus

Cross sectional Panel Omnibus είδη ερευνών Ποσοτικές έρευνες Η έρευνα µε δοµηµένο ερωτηµατολόγιο Πρόσωπο µε πρόσωπο Τηλεφωνική Ταχυδροµική Μέσω ιαδικτύου 1 Ποσοτικές έρευνες (συνέχεια) Η έρευνα µε δοµηµένο ερωτηµατολόγιο Cross sectional

Διαβάστε περισσότερα

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu.

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business. e-mail: kyritsis@ist.edu. Managing Information Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business e-mail: kyritsis@ist.edu.gr Διαχείριση Γνώσης Knowledge Management Learning Objectives Ποιοί

Διαβάστε περισσότερα

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ

ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ ΓΡΑΜΜΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΞΙΣΩΣΕΩΝ Θα ξεκινήσουµε την παρουσίαση των γραµµικών συστηµάτων µε ένα απλό παράδειγµα από τη Γεωµετρία, το οποίο ϑα µας ϐοηθήσει στην κατανόηση των συστηµάτων αυτών και των συνθηκών

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS) Έλεγχος Υποθέσεων για τους Μέσους - Εξαρτημένα Δείγματα (Paired samples t-test) Το κριτήριο Paired samples t-test χρησιμοποιείται όταν θέλουμε να συγκρίνουμε

Διαβάστε περισσότερα

Γνωστό: P (M) = 2 M = τρόποι επιλογής υποσυνόλου του M. Π.χ. M = {A, B, C} π. 1. Π.χ.

Γνωστό: P (M) = 2 M = τρόποι επιλογής υποσυνόλου του M. Π.χ. M = {A, B, C} π. 1. Π.χ. Παραδείγματα Απαρίθμησης Γνωστό: P (M 2 M τρόποι επιλογής υποσυνόλου του M Τεχνικές Απαρίθμησης Πχ M {A, B, C} P (M 2 3 8 #(Υποσυνόλων με 2 στοιχεία ( 3 2 3 #(Διατεταγμένων υποσυνόλων με 2 στοιχεία 3 2

Διαβάστε περισσότερα

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER» Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Διαβάστε περισσότερα

R n R 2. x 2. x 1. x: συντεταγµένες του z

R n R 2. x 2. x 1. x: συντεταγµένες του z Αναγνώριση Προσώπου µε Σύγκριση Υπερεπιφανειών Θανάσης Ζάγουρας.Π.Μ.Σ Η.Ε.Π, Τµήµα Φυσικής, Πανεπιστήµιο Πατρών Επιβλέποντες: Σπ. Φωτόπουλος Γ. Οικονόµου Ανάλυση Εικόνων Προσώπου Πεδία Αναγνώρισης Προτύπων

Διαβάστε περισσότερα

ο ρόλος των αλγορίθμων στις υπολογιστικές διαδικασίες Παύλος Εφραιμίδης Δομές Δεδομένων και Αλγόριθμοι

ο ρόλος των αλγορίθμων στις υπολογιστικές διαδικασίες Παύλος Εφραιμίδης Δομές Δεδομένων και Αλγόριθμοι Παύλος Εφραιμίδης 1 περιεχόμενα αλγόριθμοι τεχνολογία αλγορίθμων 2 αλγόριθμοι αλγόριθμος: οποιαδήποτε καλά ορισμένη υπολογιστική διαδικασία που δέχεται κάποια τιμή ή κάποιο σύνολο τιμών, και δίνεικάποιατιμήήκάποιοσύνολοτιμώνως

Διαβάστε περισσότερα

Περιεχόµενο. ΕΠΛ 422: Συστήµατα Πολυµέσων. Σχεδίαση και Ανάπτυξη Πολυµεσικών Εφαρµογών. Βιβλιογραφία. Καγιάφας [2000]: Κεφάλαιο 9, [link]

Περιεχόµενο. ΕΠΛ 422: Συστήµατα Πολυµέσων. Σχεδίαση και Ανάπτυξη Πολυµεσικών Εφαρµογών. Βιβλιογραφία. Καγιάφας [2000]: Κεφάλαιο 9, [link] Περιεχόµενα ΕΠΛ 422: Συστήµατα Πολυµέσων Σχεδίαση και Ανάπτυξη Πολυµεσικών Εφαρµογών Βασικά ζητήµατα σχεδίασης Η διαδικασία ανάπτυξης πολυµεσικών εφαρµογών Η οµάδα ανάπτυξης πολυµεσικών εφαρµογών Σχεδίαση

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Μια εισαγωγή στο φίλτρο Kalman

Μια εισαγωγή στο φίλτρο Kalman 1 Μια εισαγωγή στο φίλτρο Kalman Το 1960, R.E. Kalman δημόσιευσε το διάσημο έγγραφό του περιγράφοντας μια επαναλαμβανόμενη λύση στο γραμμικό πρόβλημα φιλτραρίσματος διακριτών δεδομένων. Από εκείνη τη στιγμή,

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 1 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΛΥΣΗ ΠΡΟΒΛΗΜΑΤΟΣ 1.1 Να δοθεί ο ορισμός του προβλήματος καθώς και τρία παραδείγματα

Διαβάστε περισσότερα

ΥΠΗΡΕΣΙΕΣ ASP B2B ΣΤΑΤΙΣΤΙΚΩΝ. Παρουσίαση Υπηρεσίας

ΥΠΗΡΕΣΙΕΣ ASP B2B ΣΤΑΤΙΣΤΙΚΩΝ. Παρουσίαση Υπηρεσίας ΥΠΗΡΕΣΙΕΣ ASP B2B ΣΤΑΤΙΣΤΙΚΩΝ ΠΩΛΗΣΕΩΝ Παρουσίαση Υπηρεσίας Τι είναι i2dealer; Είναι µία υπηρεσία η οποία παρέχεται από την Vellum, σε συνεργασία µε τον µεγαλύτερο Internet Services Provider της χώρας,

Διαβάστε περισσότερα

Περιεχόμενο του μαθήματος

Περιεχόμενο του μαθήματος ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Απαιτήσεις Λογισμικού Περιπτώσεις χρήσης Δρ Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου Εαρινό Εξάμηνο 2012-2013 1 Περιεχόμενο του μαθήματος

Διαβάστε περισσότερα

ιδάσκων: ηµήτρης Ζεϊναλιπούρ

ιδάσκων: ηµήτρης Ζεϊναλιπούρ Κεφάλαιο 1.3-1.4: Εισαγωγή Στον Προγραµµατισµό ( ιάλεξη 2) ιδάσκων: ηµήτρης Ζεϊναλιπούρ Περιεχόµενα Εισαγωγικές Έννοιες - Ορισµοί Ο κύκλος ανάπτυξης προγράµµατος Παραδείγµατα Πότε χρησιµοποιούµε υπολογιστή?

Διαβάστε περισσότερα

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ 1 ΕΙΣΑΓΩΓΗ Με την ολοένα και ταχύτερη ανάπτυξη των τεχνολογιών και των επικοινωνιών και ιδίως τη ραγδαία, τα τελευταία

Διαβάστε περισσότερα

Κεφάλαιο Η2. Ο νόµος του Gauss

Κεφάλαιο Η2. Ο νόµος του Gauss Κεφάλαιο Η2 Ο νόµος του Gauss Ο νόµος του Gauss Ο νόµος του Gauss µπορεί να χρησιµοποιηθεί ως ένας εναλλακτικός τρόπος υπολογισµού του ηλεκτρικού πεδίου. Ο νόµος του Gauss βασίζεται στο γεγονός ότι η ηλεκτρική

Διαβάστε περισσότερα

Νέα µέθοδος προσδιορισµού κατανοµής µεγέθους πόρων για νανοπορώδη υλικά

Νέα µέθοδος προσδιορισµού κατανοµής µεγέθους πόρων για νανοπορώδη υλικά ΑΚΜΩΝ Νέα µέθοδος προσδιορισµού κατανοµής µεγέθους πόρων για νανοπορώδη υλικά Νέα µέθοδος προσδιορισµού κατανοµής µεγέθους πόρων για νανοπορώδη υλικά Τα πορώδη υλικά αποτελούν µια πολύ σηµαντική κατηγορία

Διαβάστε περισσότερα

Θέµατα αξιολόγησης εκπαιδευτικού λογισµικού

Θέµατα αξιολόγησης εκπαιδευτικού λογισµικού Θέµατα αξιολόγησης εκπαιδευτικού λογισµικού Όνοµα: Τάσος Αναστάσιος Επώνυµο: Μικρόπουλος Τίτλος: Αναπληρωτής Καθηγητής, Εργαστήριο Εφαρµογών Εικονικής Πραγµατικότητας στην Εκπαίδευση, Πανεπιστήµιο Ιωαννίνων

Διαβάστε περισσότερα

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή

Η Κανονική Κατανομή κανονική κατανομή (normal distribution) Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) συνδέει οποιαδήποτε άλλη κατανομή Η Κανονική Κατανομή H κανονική κατανομή (ormal dstrbuto) θεωρείται η σπουδαιότερη κατανομή της Θεωρίας Πιθανοτήτων και της Στατιστικής. Οι λόγοι που εξηγούν την εξέχουσα θέση της, είναι βασικά δύο: ) Πολλές

Διαβάστε περισσότερα

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας ΙΕΚ ΞΑΝΘΗΣ Μάθημα : Στατιστική Ι Υποενότητα : Τρόποι και μέθοδοι δειγματοληψίας Επαμεινώνδας Διαμαντόπουλος Ιστοσελίδα : http://users.sch.gr/epdiaman/ Email : epdiamantopoulos@yahoo.gr 1 Στόχοι της υποενότητας

Διαβάστε περισσότερα

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting Διαδικτυακό OLAP Σύστημα Λήψης Αποφάσεων και δημιουργίας έξυπνων προσαρμοστικών γραφημάτων

Διαβάστε περισσότερα

PROJECT ΕΡΓΑΣΤΗΡΙΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ι. Τμήμα Μηχανικών Πληροφορικής Τ.Ε.

PROJECT ΕΡΓΑΣΤΗΡΙΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ι. Τμήμα Μηχανικών Πληροφορικής Τ.Ε. Παραδοτέα 1. Το αρχείο.mdb της βάσης δεδομένων σας σε ACCESS 2. Ένα CD που θα αναγράφει το ονοματεπώνυμο του σπουδαστή και το ΑΕΜ και θα περιέχει το αρχείο.mdb της βάσης δεδομένων καθώς και το εγχειρίδιο

Διαβάστε περισσότερα

ΕΚΠΑΙ ΕΥΤΙΚΕΣ ΡΑΣΤΗΡΙΟΤΗΤΕΣ ΜΕ ΤΟ ΑΒΑΚΙΟ/E-SLATE

ΕΚΠΑΙ ΕΥΤΙΚΕΣ ΡΑΣΤΗΡΙΟΤΗΤΕΣ ΜΕ ΤΟ ΑΒΑΚΙΟ/E-SLATE Θέµα ιερεύνησης: Σχεδιασµός γραµµάτων Μπορώ να φτιάξω το δικό µου επεξεργαστή κειµένου; Στη διερεύνηση αυτή οι µαθητές καλούνται να κατασκευάσουν µια γραµµατοσειρά µε όλα τα κεφαλαία γράµµατα του ελληνικού

Διαβάστε περισσότερα

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1 ιαφάνεια 14-1 Κεφάλαιο 14 οµές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. NavatheΕλληνικήΈκδοση, ιαβλος, Επιµέλεια Μ.Χατζόπουλος 1 Θα µιλήσουµε για Τύποι Ταξινοµηµένων Ευρετηρίων

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Θέµα 1 ο Α. Να απαντήσετε τις παρακάτω ερωτήσεις τύπου Σωστό Λάθος (Σ Λ) 1. Σκοπός της συγχώνευσης 2 ή περισσοτέρων ταξινοµηµένων πινάκων είναι η δηµιουργία

Διαβάστε περισσότερα

3. Σηµειώσεις Access. # Εισαγωγή ψηφίου ή κενού διαστήµατος. Επιτρέπονται τα ση-

3. Σηµειώσεις Access. # Εισαγωγή ψηφίου ή κενού διαστήµατος. Επιτρέπονται τα ση- Μάθηµα 3 Προχωρηµένες ιδιότητες πεδίων Μάσκες εισαγωγής Οι ιδιότητες Μορφή και Μάσκα εισαγωγής περιγράφονται µαζί γιατί έχουν κοινά χαρακτηριστικά που αφορούν την εµφάνιση. Με την ιδιότητα Μορφή καθορίζουµε

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Στα πλαίσια της ΣΤΑΤΙΣΤΙΚΗΣ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑΣ προσπαθούµε να προσεγγίσουµε τα χαρακτηριστικά ενός συνόλου (πληθυσµός) δια της µελέτης των χαρακτηριστικών αυτών επί ενός µικρού

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

5 ο ΚΕΦΑΛΑΙΟ: ΠΡΑΚΤΙΚΟ ΚΟΜΜΑΤΙ

5 ο ΚΕΦΑΛΑΙΟ: ΠΡΑΚΤΙΚΟ ΚΟΜΜΑΤΙ 5 ο ΚΕΦΑΛΑΙΟ: ΠΡΑΚΤΙΚΟ ΚΟΜΜΑΤΙ 5.1 Εισαγωγή Το πρακτικό κομμάτι της πτυχιακής μας εργασίας αφορά την δημιουργία μιας λειτουργικής ιστοσελίδας με την χρήση της πλατφόρμας του Weebly, που αποτελεί μια σύγχρονη

Διαβάστε περισσότερα

Πληροφοριακά Συστήµατα

Πληροφοριακά Συστήµατα Nell Dale John Lewis Chapter 12 Πληροφοριακά Συστήµατα Στόχοι Ενότητας Η κατανόηση της έννοιας «Πληροφοριακό Σύστηµα» Επεξήγηση της οργάνωσης λογιστικών φύλλων (spreadsheets) Επεξήγηση της ανάλυσης δεδοµένων

Διαβάστε περισσότερα

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Η χρησιμοποίηση των τεχνικών της παλινδρόμησης για την επίλυση πρακτικών προβλημάτων έχει διευκολύνει εξαιρετικά από την χρήση διαφόρων στατιστικών

Διαβάστε περισσότερα

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων Περίληψη ιδακτορικής ιατριβής Τριχακης Ιωάννης Εργαστήριο

Διαβάστε περισσότερα

ιαγράµµατα Ελέγχου Ιδιοτήτων (Control Charts for Attributes)

ιαγράµµατα Ελέγχου Ιδιοτήτων (Control Charts for Attributes) ιαγράµµατα Ελέγχου Ιδιοτήτων (Control Charts for Attributes) Πολλά ΧΠ δεν µπορούν να αναπαρασταθούν αριθµητικά. Τα ΧΠ χαρακτηρίζονται συµµορφούµενα και µη-συµµορφούµενα. Τα ΧΠ τέτοιου είδους ονοµάζονται

Διαβάστε περισσότερα

Μάθημα Αστικής Γεωγραφίας

Μάθημα Αστικής Γεωγραφίας Μάθημα Αστικής Γεωγραφίας Διδακτικό Έτος 2015-2016 Παραδόσεις Διδακτικής Ενότητας: Πληθυσμιακή πρόβλεψη Δούκισσας Λεωνίδας, Στατιστικός, Υποψ. Διδάκτορας, Τμήμα Γεωγραφίας, Χαροκόπειο Πανεπιστήμιο Σελίδα

Διαβάστε περισσότερα

Ελληνικό Ανοικτό Πανεπιστήµιο. Η Ανάλυση και ο Σχεδιασµός στην Ενοποιηµένη ιαδικασία. ρ. Πάνος Φιτσιλής

Ελληνικό Ανοικτό Πανεπιστήµιο. Η Ανάλυση και ο Σχεδιασµός στην Ενοποιηµένη ιαδικασία. ρ. Πάνος Φιτσιλής 1 Ελληνικό Ανοικτό Πανεπιστήµιο Η και ο στην Ενοποιηµένη ιαδικασία ρ. Πάνος Φιτσιλής Περιεχόµενα Γενικές αρχές ανάλυσης και σχεδιασµού Τα βήµατα της ανάλυσης και του σχεδιασµού Συµπεράσµατα 2 3 Η ανάλυση

Διαβάστε περισσότερα

ΕΣΠΑ 2007-13\Ε.Π. Ε&ΔΒΜ\Α.Π. 1-2-3 «ΝΕΟ ΣΧΟΛΕΙΟ

ΕΣΠΑ 2007-13\Ε.Π. Ε&ΔΒΜ\Α.Π. 1-2-3 «ΝΕΟ ΣΧΟΛΕΙΟ Υπεύθυνη Συντονισµού Διδακτικού Μαθησιακού Αντικειµένου της Γεωγραφίας: Αικατερίνη Κλωνάρη, Επίκουρη Καθηγήτρια, Τµήµα Γεωγραφίας, Πανεπιστήµιο Αιγαίου ΕΣΠΑ 2007-13\Ε.Π. Ε&ΔΒΜ\Α.Π. 1-2-3 «ΝΕΟ ΣΧΟΛΕΙΟ (Σχολείο

Διαβάστε περισσότερα

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ Ενότητα 2: Επαγωγική-περιγραφική στατιστική, παραµετρικές

Διαβάστε περισσότερα

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ και ΔΟΜΗ ΑΚΟΛΟΥΘΙΑΣ 2.1 Να δοθεί ο ορισμός

Διαβάστε περισσότερα

INFO. Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ ΑΠΟΚΛΕΙΣΤΙΚΑ ΤΑ ΕΞΕΤΑΣΤΙΚΑ ΚΕΝΤΡΑ ECDL

INFO. Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ ΑΠΟΚΛΕΙΣΤΙΚΑ ΤΑ ΕΞΕΤΑΣΤΙΚΑ ΚΕΝΤΡΑ ECDL INFO ECDL Expert Ένα ολοκληρωµένο Πρόγραµµα Πιστοποίησης γνώσεων πληροφορικής και δεξιοτήτων χρήσης Η/Υ ΠΡΟΧΩΡΗΜΕΝΟΥ ΕΠΙΠΕ ΟΥ Copyright ECDL Ελλάς, Σεπτέµβριος 2004 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΑΥΤΟΥ ΤΟΥ ΕΝΤΥΠΟΥ ΑΦΟΡΑ

Διαβάστε περισσότερα

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ Η Αναλυτική Επεξεργασία Δεδομένων (On Line Analytical Processing) στην Υποστήριξη Αποφάσεων των Υπευθύνων Περιβαλλοντικής Εκπαίδευσης των Διευθύνσεων Εκπαίδευσης Γιώργος Ραβασόπουλος 1, Ιωάννα Παπαιωάννου

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΙΣΑΓΩΓΗ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ. ΤΙ ΕΙΝΑΙ ΤΑ ΜΑΘΗΜΑΤΙΚΑ; Η επιστήμη των αριθμών Βασανιστήριο για τους μαθητές και φοιτητές Τέχνη για τους μαθηματικούς ΜΑΘΗΜΑΤΙΚΑ Α Εξάμηνο ΙΩΑΝΝΗΣ

Διαβάστε περισσότερα

ÏÅÖÅ. Β. Να αναφέρετε τις κυριότερες τυποποιηµένες τεχνικές σχεδίασης αλγορίθµων. ΜΟΝΑ ΕΣ 3

ÏÅÖÅ. Β. Να αναφέρετε τις κυριότερες τυποποιηµένες τεχνικές σχεδίασης αλγορίθµων. ΜΟΝΑ ΕΣ 3 1 Γ' ΛΥΚΕΙΟΥ ΤΕΧΝΟΛΟΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΘΕΜΑ 1 Ο ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Α. Να γράψετε στο τετράδιό σας τον αριθµό καθεµιάς από τις παρακάτω προτάσεις 1-5 και δίπλα τη λέξη Σωστό

Διαβάστε περισσότερα

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της; 1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι

Διαβάστε περισσότερα

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος.

Α) Αν η διάμεσος δ του δείγματος Α είναι αρνητική, να βρεθεί το εύρος R του δείγματος. ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΣΥΛΛΟΓΗ ΑΣΚΗΣΕΩΝ ου ΚΕΦΑΛΑΙΟΥ Άσκηση 1 (Προτάθηκε από Χρήστο Κανάβη) Έστω CV 0.4 όπου CV ο συντελεστής μεταβολής, και η τυπική απόκλιση s = 0. ενός δείγματος που έχει την ίδια

Διαβάστε περισσότερα

Διαχείριση Δεδομένων

Διαχείριση Δεδομένων Διαχείριση Δεδομένων Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου 1 Εαρινό Εξάμηνο 2012-13 Περιεχόμενο σημερινής διάλεξης Βάσεις Δεδομένων Ορισμοί Παραδείγματα

Διαβάστε περισσότερα

2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) 2.2.1. Βασικές έννοιες 2.2.2 Ιστορική εξέλιξη τον µάνατζµεντ.

2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) 2.2.1. Βασικές έννοιες 2.2.2 Ιστορική εξέλιξη τον µάνατζµεντ. 2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) 2.2.1. Βασικές έννοιες Έχει παρατηρηθεί ότι δεν υπάρχει σαφής αντίληψη της σηµασίας του όρου "διοίκηση ή management επιχειρήσεων", ακόµη κι από άτοµα που

Διαβάστε περισσότερα

Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Τμήμα Εφαρμοσμένης Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών Ειδίκευσης Συστήματα Υπολογιστών ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Δημιουργία μοντέλου γνώσης από βάση δεδομένων βλαβών ΑDSL με την χρήση εργαλείων DATA

Διαβάστε περισσότερα

Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες

Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες Σχετικές πληροφορίες: http://dlib.ionio.gr/~spver/seminars/statistics/ Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες Σπύρος Βερονίκης Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Θεματικές

Διαβάστε περισσότερα

αντισταθµίζονται µε τα πλεονεκτήµατα του άλλου, τρόπου βαθµολόγησης των γραπτών και της ερµηνείας των σχετικών αποτελεσµάτων, και

αντισταθµίζονται µε τα πλεονεκτήµατα του άλλου, τρόπου βαθµολόγησης των γραπτών και της ερµηνείας των σχετικών αποτελεσµάτων, και 1. ΕΙΣΑΓΩΓΗ Όλα τα είδη ερωτήσεων που αναφέρονται στο «Γενικό Οδηγό για την Αξιολόγηση των µαθητών στην Α Λυκείου» µπορούν να χρησιµοποιηθούν στα Μαθηµατικά, τόσο στην προφορική διδασκαλία/εξέταση, όσο

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Predicting the Choice of Contraceptive Method using Classification

Predicting the Choice of Contraceptive Method using Classification ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΣΣΑΛΟΝΙΚΗ Predicting the Choice of Contraceptive Method using Classification ΠΑΠΑΔΟΠΟΥΛΟΣ ΧΡΗΣΤΟΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Νικόλαος Σαμαράς ΕΞΕΤΑΣΤΗΣ:

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 3 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 3 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29 ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ... 1 Μεταβλητές...5 Πληθυσμός, δείγμα...7 Το ευρύτερο γραμμικό μοντέλο...8 Αναφορές στη βιβλιογραφία... 11 2 ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ... 13 Περίληψη... 13 Εισαγωγή... 13 Με μια ματιά...

Διαβάστε περισσότερα

Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem)

Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem) Το Πρόβλημα της Πινακοθήκης (The Art Gallery Problem) Τι είναι το Πρόβλημα της Πινακοθήκης; Σας ανήκει μια πινακοθήκη και επιθυμείτε να τοποθετήσετε κάμερες ασφαλείας έτσι ώστε όλη η γκαλερί να είναι προστατευμένη

Διαβάστε περισσότερα

Μοντέλο πρόβλεψης αγοραίων αξιών ακινήτων βάσει των μεθόδων OLS και GWR με χρήση GIS Η περίπτωση του Δήμου Θεσσαλονίκης

Μοντέλο πρόβλεψης αγοραίων αξιών ακινήτων βάσει των μεθόδων OLS και GWR με χρήση GIS Η περίπτωση του Δήμου Θεσσαλονίκης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΓΙΑ ΣΤΕΛΕΧΗ (EMBA) Διατριβή μεταπτυχιακού Μοντέλο πρόβλεψης αγοραίων αξιών ακινήτων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΓΩΓΗΣ- ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Εργασία για το σεµινάριο «Στατιστική περιγραφική εφαρµοσµένη στην ψυχοπαιδαγωγική(β06σ03)» ΤΙΤΛΟΣ: «ΜΕΛΕΤΗ ΠΕΡΙΓΡΑΦΙΚΗΣ

Διαβάστε περισσότερα

ηµόσια ιαβούλευση επί των συντελεστών απωλειών εγχύσεως του Ελληνικού Συστήµατος Μεταφοράς

ηµόσια ιαβούλευση επί των συντελεστών απωλειών εγχύσεως του Ελληνικού Συστήµατος Μεταφοράς ηµόσια ιαβούλευση επί των συντελεστών απωλειών εγχύσεως του Ελληνικού Συστήµατος Μεταφοράς ΜΕΡΟΣ ΠΡΩΤΟ - Επί της Μελέτης 1. Προκαθορισµένα επίπεδα φόρτισης Σύµφωνα µε το Άρθρο 50 - Μελέτη προσδιορισµού

Διαβάστε περισσότερα