Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος"

Transcript

1 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Συσταδοποίηση IIΙ DBSCAN Μέρος των διαφανειών είναι από το P.-N. Tan, M.Stenbach, V. Kumar, «Introducton to Data Mnng», Addson Wesle, 6 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ DBSCAN: Γενικά DBSCAN: Γενικά O DBSCAN είναι ένας αλγόριθμος βασισμένος στην πυκνότητα Πυκνότητα = αριθμός σημείων (MnPts) μέσα σε ποια προκαθορισμένη ακτίνα (Eps) Τα σημεία διαχωρίζονται σε: Βασικά (core): ένα σημείο για το οποίο υπάρχουν περισσότερα από ένα προκαθορισμένο αριθμό (MnPts) σημεία σε ακτίνα Eps Αυτά είναι τα σημεία που είναι στο εσωτερικό μιας συστάδας Οριακά (border): ένα σημείο για το οποίο υπάρχουν λιγότερα από ένα προκαθορισμένο αριθμό (MnPts) σημεία σε ακτίνα Eps, αλλά είναι στη γειτονιά ενός βασικού σημείου Θορύβου (nose): ένα σημείο που δεν είναι ούτε βασικό ούτε οριακό Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ DBSCAN: Αλγόριθμος DBSCAN: Αλγόριθμος Βήμα & Βασικός Αλγόριθμος : Χαρακτήρισεκάθεσημείοωςβασικό, οριακό ή θόρυβο : Διέγραψε τα σημεία θορύβου : Τοποθέτησε μια ακμή μεταξύ όλων των βασικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους : Κάνε κάθε ομάδα συνδεδεμένων βασικών σημείων μια διαφορετική συστάδα : Ανάθεσε κάθε οριακό σημεία σε μία από τις συστάδες των συσχετιζόμενων του βασικών σημείων Αρχικά σημεία Τύποι σημείων: core, border και nose Eps =, MnPts = Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6

2 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 DBSCAN: Πλεονεκτήματα DBSCAN: Πολυπλοκότητα Βήμα & O(m χρόνος εντοπισμού σημείων σε eps-γειτονιά) Ο(m ) Για μικρό αριθμό διαστάσεων, υπάρχουν δομές που υποστηρίζουν την πράξη σε Ο(m logm) O(m) χώρος (κρατάμε μόνο ένα label) Αρχικά Σημεία Συστάδες Δεν επηρεάζεται από το θόρυβο Μπορεί να χειριστεί συστάδες με διαφορετικά σχήματα και μεγέθη Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 DBSCAN: Περιορισμοί DBSCAN: Καθορισμός των MnPts και Eps Αρχικά Σημεία (MnPts=, Eps=9.7). Η ιδέα είναι να κοιτάξουμε την απόσταση ενός σημείου από τον k-οστό κοντινότερο γείτονα του -> k-dst Γενικά, για τα σημεία που ανήκουν στην ίδια ομάδα, ητιμήτουk-dst θα είναι μικρή (αν το k δεν είναι μεγαλύτερο από το μέγεθος της συστάδας) Θαθέλαμεγιατασημείαμιαςσυστάδας, να έχουν περίπου την ίδια k-dst Τα σημεία θορύβου έχουν μεγαλύτερες k-dst Υπολογίζουμε την k-dst για όλα τα σημεία, για κάποιο k Ταξινομούμε τις αποστάσεις με φθήνουσα διάταξη Περιμένουμε ξαφνική αλλαγή στο k-dst που αντιστοιχεί στο Eps Οπότε k = MnPts και Eps = k-dst Διαφορετικές πυκνότητες Πολυ-διάστατα δεδομένα δύσκολος ορισμός πυκνότητας και δαπανηρός υπολογισμός γειτόνων (MnPts=, Eps=9.9) Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 9 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Μεγάλα Σύνολα εδομένων Περιορισμένη μνήμη (πολύ μικρότερη από το μέγεθος των δεδομένων) ΣΤΟΧΟΣ: μείωση του χρόνου εισόδου/εξόδου (I/O) Κόστος I/O γραμμικό στο μέγεθος του συνόλου δεδομένων Αρκεί ένα πέρασμα (scan) των δεδομένων Ένα ή περισσότερα επιπρόσθετα περάσματα για βελτίωση της ποιότητας της συσταδοποίησης T. Zhang, R. Ramakrshnan and M. Lnv. : An Effcent Data Clusterng Method for Ver Large Databases, SIGMOD 996 : Balanced Iteratve Reducng and Clusterng usng Herarches Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ

3 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Έστω μια συστάδα σημείων: Αντί να κρατάμε όλα τα σημεία μιας συστάδας κρατάμε κάποια «στατιστικά» για κάθε συστάδα και για τις σχέσεις μεταξύ των συστάδων Centrod(κεντρικό σημείο): Radus (ακτίνα) μέση απόσταση των σημείων της συστάδας από το κεντρικό σημείο Dameter (διάμετρος): μέση ανα-δύο απόσταση των σημείων της συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Μας ενδιαφέρει και η απόσταση των κεντρικών σημείων δυο συστάδων Συγχώνευση Συστάδων Μεταξύ δυο συστάδων Συστάδα {X }: =,,, N Συστάδα {X j }: j = N +, N +,, N +N centrod Eucldean dstance centrod Manhattan dstance X X j Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Συστάδα X k = {X } + {X j }: l =,,, N, N +, N +,, N +N average nter-cluster (D) μέση απόσταση των σημείων της μιας συστάδας από τα σημεία της άλλης ntra-cluster (D) μέση απόσταση όλων των σημείων varance ncrease (D) Νέα Απόσταση D της συγχωνευμένης συστάδας Απόσταση στο C Απόσταση στο C j Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8

4 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 9 : CF : CF Clusterng Feature (CF): μια περίληψη μιας υπο-συστάδας δεδομένων - Μια τριάδα (αριθμός-σημείων, γραμμικό-άθροισμα-σημείων-συστάδας, άθροισμα-τετραγώνου-σημείων-συστάδας) CF εγγραφές είναι συνοπτικές πολύ λιγότερη πληροφορία από ότι όλατασημείατηςυπο-συστάδας Λόγω της προσθετικής ιδιότητας μπορούμε να συγχωνεύσουμε δυο υπο-συστάδες σταδιακά Μια εγγραφή τα D-D CF έχει αρκετή πληροφορία για να υπολογίσουμε Σημαντική (προσθετική) ιδιότητα: Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Ιεραρχικός αλγόριθμος Χτίζει σταδιακά καθώς διαβάζει τα δεδομένα ένα δεντρόγραμμα του οποίου κόμβοι είναι οι τιμές CF που περιγράφουν τα δεδομένα κάθε υπο-συστάδας Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εσωτερικός κόμβος Φύλλο CF CF CF B CF CF CF L A CF tree s a heght-balanced tree wth three parameters: branchng factor B, threshold T, and a leaf node contans Τ at most L entres. Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Ρίζα CF CF CF B CF B CF B CF BB Υπο-συστάδα Εσωτερικός κόμβος Κάθε εσωτερικός κόμβος περιέχει έναν αριθμό από παιδιά - B (παράγοντας διακλάδωσης) εγγραφές <CF, παιδί > Κάθε φύλλο περιέχει έναν αριθμό από υπο-συστάδες το πολύ L CF εγγραφές [CF ] και <prev>, <net> ponters Κάθε εσωτερικός κόμβος μια υποσυστάδα που αποτελείται από τις υποσυστάδες των παιδιών του Όπως σε όλες τις σχετικές δομές απαιτούμε κάθε κόμβος του δέντρου να χωρά σε ένα block Το μέγεθος των κόμβων (B, L) καθορίζεται από τη διάσταση των δεδομένων και το μέγεθος της σελίδας P (που δίνεται ως είσοδος) Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ

5 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ : CF δέντρο Κάθε υποσυστάδα ενός φύλλου πρέπει να έχει διάμετρο μικρότερη από κάποιο κατώφλι T Το μέγεθος του T καθορίζει το μέγεθος του δέντρου Όσο πιο μεγάλο είναι το Τ, τόσο μικρότερο είναι το δέντρο Συνοπτικά, το CF-δέντρο είναι ένα ισοζυγισμένο δέντρο με δυο παραμέτρους Παράγοντα διακλάδωσης Β (που καθορίζεται από το μέγεθος του block) Κατώφλι Τ (που καθορίζει την ποιότητα της συσταδοποίησης) Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Για ένα φύλλο: LS = SS = P N v P v P P N εισαγωγή στοιχείου Ο αλγόριθμος διαβάζει (scan) τα δεδομένα και τα εισάγει στο CF δέντρο ένα-ένα Για κάθε εσωτερικό κόμβο που έχει παιδιά τα N, N,, N k LS = SS = k = k = LS of N SS of N Η εισαγωγή ενός στοιχείου στο CF-δέντρο γίνεται με top-down διάσχιση ξεκινώντας από τη ρίζα με βάση μια συνάρτηση απόστασης Dstance(σημείο, cluster) Χρήση της D, D, D, D ή D Κάθε σημείο εισάγεται στην κοντινότερη υπο-συστάδα που υπάρχει σε κάποιο από τα φύλλα Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 εισαγωγή στοιχείου εισαγωγή στοιχείου. Εύρεση κατάλληλου φύλου αν το φύλλο μπορεί να το απορροφήσει (διάμετρος παραμένει <= Τ) ok, Αλλιώς. Ενημέρωση του φύλλου. ιάσπαση φύλλου. Ενημέρωση τιμής CF. Εύρεση φύλλου CF CF CF B CF CF CF L CF CF CF B CF B CF B CF BB subcluster Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 9 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ

6 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ. Τροποποίηση CF τιμών CF CF CF B CF CF CF L εισαγωγή στοιχείου CF CF CF B CF B CF B CF BB subcluster. Μετατροπή φύλλου CF CF CF B CF CF CF L εισαγωγή στοιχείου CF CF CF B CF B CF B CF BB subcluster Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ - ιάσπαση και ενημέρωση του μονοπατιού από τη ρίζα εισαγωγή στοιχείου CF CF CF B CF CF CF B CF B CF B CF BB - ιάσπαση και ενημέρωση του μονοπατιού από τη ρίζα εισαγωγή στοιχείου CF CF CF B CF CF CF B CF B CF B CF BB CF CF CF L subcluster CF CF CF CF subcluster Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Κάθε σημείο εισάγεται στο κοντινότερη υπο-συστάδα που υπάρχει σε κάποιο από τα φύλλα Ανηεισαγωγήενόςσημείουμεγαλώσει τη διάμετρο της υποσυστάδας πάνω από T, τότε έχουμε δημιουργία νέας υποσυστάδας Αν η νέα συστάδα χωρά στο φύλλο, οk -> ενημέρωση προγόνων Αν η νέα συστάδα δε χωρά -> υπερχείλιση στο φύλλο ιάσπαση φύλλου (splt) ημιουργία νέου φύλλου και μοίρασμα των συστάδων, πως; Εύρεση των δύο υπο-συστάδων του φύλλου πού έχουν τη μεγαλύτερη απόσταση μεταξύ τους, έστω C και Cj Αυτές οι δύο αποτελούν το κριτήριο διάσπασης των υπο-συστάδων του φύλλου κάθε μια από αυτές σε ένα από τα δύο νέα φύλλα όλες οι άλλες υπο-συστάδες C ανατίθενται στο φύλλο της C ή στο φύλλο της Cj με βάση ποια από τις δύο είναι πιο όμοια της Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6

7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 ιάσπαση φύλλου μπορεί να οδηγήσει σε υπερχείλιση εσωτερικού κόμβου (όταν περιέχει περισσότερα παιδιά από ότι ο παράγοντας διακλάδωσης) ιάσπαση εσωτερικού κόμβου Οι εσωτερικοί κόμβοι διασπούνται αναδρομικά με βάση μια μέτρηση της απόσταση των συστάδων τους ιάσπαση της ρίζας, οδηγεί σε αύξηση του ύψους του δέντρου κατά Οι διασπάσεις οφείλονται στο ότι ξεπερνιέται το όριο της σελίδας μπορούν να οδηγήσουν σε κακές διασπάσεις! Μια μικρή διόρθωση: Όταν η διάσπαση κάποιων κόμβων τελειώνει (χωρούν σεένα κόμβο) έστω στον κόμβο N j κοιτάμε τον κόμβο N j και προσπαθούμε να συγχωνεύσουμε τις δύο πιο κοντινές συστάδες αν αυτές δε προέκυψαν από την πιο πρόσφατη διάσπαση Αυτό σημαίνει ότι πρέπει να συγχωνεύσουμε και τα αντίστοιχα παιδιά Αν χωρούν σε μια σελίδα -> ελάττωση χώρου, Αλλιώς ανακατανέμουμε τις εγγραφές Πως; κάνουμε πάλι διάσπαση Τελικά ή συγχώνευση και ελευθέρωση χώρου ή καλύτερη ανακατανομή των εγγραφών σε κάποιο από τα παιδιά Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Νέα υπο-συστάδα sc sc8 sc sc sc sc7 sc sc8 sc sc sc sc7 sc LN sc sc8 LN Root LN LN LN sc sc sc sc sc Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 9 sc7 LN Αν ο παράγοντας διακλάδωσης του φύλλου είναι => διάσπαση του LN LN LN sc8 LN LN Root LN LN Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ LN sc sc sc sc sc7 sc LN Αν ο παράγοντας διακλάδωσης εσωτερικού κόμβου είναι είναι => διάσπαση της ρίζας και αύξηση του ύψους Έστω ότι η αρίθμηση των υποσυστάδων αντιστοιχεί στη σειρά δημιουργίας τους sc sc8 sc sc sc sc7 sc sc LN sc LN LN sc sc sc LN NLN LN LN Root NLN LN LN LN LN root LN LN Αν ο παράγοντας διακλάδωσης του φύλλου είναι => διάσπαση του LN sc8 sc sc sc sc sc sc7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ sc sc sc sc sc Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ

8 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ sc sc sc sc sc sc sc LN sc sc sc LN LN sc sc LN sc sc root LN sc LN Merge? LN LN sc LN Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ root LN sc sc sc sc LN LN Συγχώνευση LN και LN και ο καινούργιος κόμβος θα διασπαστεί πάλι : αλγόριθμος Επειδή η κατασκευή επηρεάζεται από το μέγεθος της σελίδας: Οι συστάδες που δημιουργούνται μπορεί να μην είναι πραγματικές ανάλογα με το skew (κατανομή) και τη σειρά που έρχονται τα δεδομένα : αλγόριθμος Αυτό αντιμετωπίζεται με προαιρετικές επιπρόσθετες φάσεις Επίσης, αν ξανά-εισάγουμε ένα σημείο μπορεί να εισαχθεί σε διαφορετική συστάδα Αριθμός αντιστοιχεί στη σειρά εισαγωγής, Έστω dst(, ) > T Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Δεδομένα Αρχικό CF δέντρο Μικρότερο CF δέντρο Καλές Συστάδες Καλύτερες Συστάδες Φάση : Κατασκευή CF δέντρου Φάση (προαιρετική): Κατασκευή μικρότερου CF δέντρου Φάση : Ολική Συσταδοποίηση Φάση (προαιρετική): βελτίωση της Συσταδοποίησης -αλγόριθμος Φάση : Μια δομή κύριας μνήμης που συνοψίζει τα δεδομένα Φάση : Κοιτά τα φύλλα και προσπαθεί να διώξει τους outlers και να ενοποιήσει «όμοιες» συστάδες που αντιστοιχούν σε περιοχές με πολλά σημεία Χρειάζεται για να βελτιώσει τη Φάση Φάση Ξανα-συσταδοποιεί τα φύλλα του δέντρου Γιατί; Πχ κοντινές συστάδες που (έτυχε να) είναι σε διαφορετικά φύλλα Πως; Για κάθε συστάδα που εμφανίζεται στα φύλλα, υπολογίζουμε το κεντρικό της σημείο (centrod) και τα θεωρούμε ως αρχικά σημεία αυτά τα αρχικά σημεία μπορούμε να τα συσταδοποιήσουμε χρησιμοποιώντας έναν οποιαδήποτε αλγόριθμο συσταδοποίησης Μπορούμε αντί ένα σημείο ανά συστάδα, κάθε συστάδα τόσες φορές όσες τα σημεία της Εναλλακτικά, μπορούμε να συσταδοποιήσουμε τις συστάδες ως έχουν πχ με έναν ιεραρχικό συγκεντρωτικό αλγόριθμο Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8

9 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 9 Φάση (προαιρετική) Χρησιμοποιεί τα κεντρικά σημεία των συστάδων που παράγει η Φάση ως seeds, και αναδιανέμει όλα τα στοιχεία εισόδου (δεύτερο πέρασμα!) Μπορεί να έχουμε και παραπάνω από ένα επιπρόσθετα περάσματα (έχει αποδειχτεί σύγκλιση) Εξασφαλίζει ότι όλα τα αντίγραφα ενός σημείου πάνε στην ίδια συστάδα Μπορούμε επίσης να βάλουμε ως ετικέτα σε κάθε σημείο, τη συστάδα που ανήκει Μπορούμε να απαλλαγούμε από outlers (πχ σημεία πολύ μακριά από όλα τα seeds) Λίγα ακόμα για τη Φάση -αλγόριθμος Ξεκίνα με κάποια αρχική τιμή για το threshold (Τ) ιαβάζει τα δεδομένα και τα εισάγει στο δέντρο Αν ξεπεράσει το διαθέσιμο χώρο πριν διαβάσει όλα τα δεδομένα: Αύξηση του threshold Κτίσιμο νέου (μικρότερου) δέντρου ξαναεισάγοντας τις τιμές από το παλιό δέντρο Μόλις εισαχθούν όλες οι τιμές από το παλιό στο νέο δέντρο, Συνεχίζεται η ανάγνωση των δεδομένων από εκεί που είχε σταματήσει Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Πως γίνεται η ανα-κατασκευή -αλγόριθμος Μονοπάτι-Μονοπάτι Ανακατασκευάζουμε κάθε μονοπάτι από τη ρίζα στο φύλλο, ξεκινώντας από το πιο αριστερό μονοπάτι (old-current path) ημιουργούμε το new-current path Κάθε φύλλο είτε στο new είτε στο newclosest -αλγόριθμος. Create the correspondng NewCurrentPath n the new tree. Insert leaf entres n OldCurrentPath to the new tree NewClosestPath NewCurrentPath. Free space n OldCurrentPath and NewCurrentPath. Set OldCurrentPath to the net path f there ests one Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Καιάλλεςβελτιώσειςόπως: Έλεγχος για outlers Dela-splt Τοπικότητα: κάθε απόφαση σχετικά με συσταδοποίηση παίρνετε χωρίς να χρειάζεται να διαβαστούν όλα τα σημεία ή όλες οι υπάρχουσες συστάδες Σημεία σε αραιές περιοχές θεωρούνται οριακά (outlers) και (προαιρετικά) αφαιρούνται Λαμβάνει υπ όψιν τη διαθέσιμη μνήμη Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ

10 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Ποιότητα Συσταδοποίησης Πόσο καλή είναι συσταδοποίηση που επιτύχαμε; ιαχείριση Ποιότητας Cluster valdt Οι αλγόριθμοι που είδαμε παράγουν κάποιες συστάδες ακόμα και όταν τα δεδομένα παράγονται τυχαία ύσκολη η αξιολόγηση, ιδιαίτερα σε πολλές διαστάσεις Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Συστάδες σε Τυχαία εδομένα Κριτήρια Ορθότητας Συσταδοποίησης Τυχαία Σημεία DBSCAN ομάδες κοιτώντας την απόσταση του ου γείτονα. Υπάρχει τάση ομαδοποίησης (clusterng tendenc), δηλαδή μη τυχαία δομή στοσύνολοτωνδεδομένων;. Σύγκριση των αποτελεσμάτων της ανάλυσης της ομαδοποίησης με κάποια ήδη γνωστά αποτελέσματα, πχ κάποια ετικέτα που ήδη έχει δοθεί για μια συστάδα. Πόσο καλά τα αποτελέσματα της ανάλυσης ταιριάζουν με τα δεδομένα χωρίς αναφορά σε εξωτερική πληροφορία, χρησιμοποιώντας μόνο τα δεδομένα K-means ΣΙΣ με MAX-lnk. Σύγκριση των αποτελεσμάτων δυο διαφορετικών συσταδοποιήσεων για να αποφασιστεί ποια είναι καλύτερη.. Καθορισμός του «σωστού» αριθμού συστάδων Τα, και μπορεί να αφορούν είτε την ολική συσταδοποίηση είτε τη κάθε συστάδα χωριστά Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Μετρήσεις Ποιότητας Συσταδοποίησης Μετρήσεις Ποιότητας Συσταδοποίησης Οι μετρήσεις για την ποιότητα (το πόσο καλή) είναι μια συσταδοποίηση ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervsed) - Εξωτερικό Ευρετήριο (Eternal Inde): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις συστάδες Μετράμε πόσο οι περιγραφές των συστάδων ταιριάζουν με τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervsed) Εσωτερικό Ευρετήριο (Internal Inde): Εκτιμάμε το πόσο καλή είναι μια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (coheson) ιακριτότητα ή διαχωρισμός (separaton) Συγκριτικοί -Σχετικό Ευρετήριο (Relatve Inde): Χρησιμοποιείται για τη σύγκριση δυο διαφορετικών συσταδοποιήσεων ή συστάδων - Συχνά για αυτό το σκοπό χρησιμοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο Εσωτερικό, πχ δυο k-means συσταδοποιήσεις με βάση το SSE Κριτήρια vs Eυρετήρια κριτήριο: η γενική στρατηγική και ευρετήριο η αριθμητική μέτρηση που υλοποιεί το κριτήριο Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 9 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6

11 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη Χρήση Συνεκτικότητας και ιαχωρισμού Χρήση Πίνακα Γειτνίασης overall valdt = k = w valdt( C) Όπου το βάρος (w ) μπορεί να είναι πχ ανάλογο του μεγέθους της συστάδας ή η τετραγωνική ρίζα της συνεκτικότητας ή Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Συσταδοποίηση βασισμένη σε κεντρικά σημεία - Centrod-based clusterng (πχ k-means) Συσταδοποίηση βασισμένη σε γραφήματα (ΣΙΣ) Η συνεκτικότητα μιας συστάδας (cluster coheson) είναι το άθροισμα των βαρών (συνήθως απόσταση) μεταξύ όλων των συνδέσεων σε μια συστάδα. Ο διαχωρισμός (cluster separaton) είναι το άθροισμα των βαρών (συνήθςσ απόσταση) μεταξύ κόμβων της συστάδας και των κόμβων εκτός συστάδας n coheson ( C) = promt(, c) C Αν promt = τετράγωνο της Ευκλείδειας, τότε ESS Όπου c to κεντρικό σημείο (X ) στον ακτίνα R στον ΒΙRCH/k-means seperaton ( C, Cj) = promt( c, cj) seperaton( C ) = promt( c, c) Όπου c το κέντρο όλων των σημείων αντιστοιχεί στa D (D) στον ΒΙRCH n coheson ( C) = promt(, ) seperaton ( C, Cj) = promt(, ) C C αντιστοιχεί στo D - διάμετρο στον ΒΙRCH C C j αντιστοιχεί στo D στον ΒΙRCH n Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 overall coheson = k = w coheson( C) Άθροισμα συνεκτικότητας κάθε συστάδας Σχέση prototpe και graph-based συνεκτικότητας και διαχωρισμού (για Ευκλείδειες αποστάσεις) overall seperaton = k = w seperaton( C) Άθροισμα διαχωρισμού των συστάδων overall valdt = k = seperaton(c) coheson(c) Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 6 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 66

12 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 67 Σχέση prototpe και graph-based συνεκτικότητας (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSE με συνεκτικότητα (πόσο στενά σχετιζόμενα είναι τα αντικείμενα μιας συστάδας); cluster SSE = dst ( c, ) Αποδεικνύεται ότι Total SSE = cluster SSE = C K = C C dst ( c, ) dst (, c) = m C C dst(, ) ηλαδή, είτε πάρουμε την απόσταση από το κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των σημείων είναι το ίδιο Σχέση διαμέτρου και ακτίνας Σχέση δυο προσεγγίσεων διαχωρισμού (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSB (group sum of squares) με διαχωρισμό (πόσο μακριά είναι οι συστάδες); Αποδεικνύεται ότι ολικό SSB = cluster SSB = dst( c, c) (ολικό ) SSB = C m dst K = m dst( c, c K K ( c, c) = dst( c, cj) K = j= K ηλαδή, είτε πάρουμε την απόσταση των κέντρων κάθε συστάδας από το ολικό κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των κέντρων κάθε συστάδας είναι το ίδιο ) m Ισομεγέθεις συστάδες m = m / K Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 68 c c c K= cluster: Total-SSE + Total-SSB = constant total SSE= ( ) + ( ) + ( ) + ( ) = total SSB= ( ) = Total = + = Αποδεικνύεται ότι Total SSB + Total SSE = constant TSS = K = C ( c) Ίσο με το τετράγωνο των αποστάσεων όλων των σημείων από το ολικό μέσο K= clusters: total SSE= (.) + (.) + (.) + (.) = total SSB= (.) + (. ) = 9 Total = + 9 = Ελαχιστοποίηση της SSE (συνεκτικότητας) => Μεγιστοποίηση του SSB (διαχωρισμού) Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 69 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Μπορούν να χρησιμοποιηθούν για τη βελτίωση της συσταδοποίησης Πχ μια συστάδα με κακή συνεκτικότητα μπορεί να χρειαστεί να διασπαστεί υο συστάδες όχι καλά διαχωρισμένες μπορεί να συγχωνευτούν Το πόσο καλή είναι μια συσταδοποίηση Το ποσό καλή είναι μια συστάδα Το ποσό καλό είναι ένα σημείο σε μια συστάδα Συντελεστής Σκιαγράφησης Slhouette Coeffcent (συντελεστής σκιαγράφησης) Για κάθε σημείο, Υπολογισμός a = μέση απόσταση του από τα σημεία της συστάδας Υπολογισμός b = μέση απόσταση του aπόόλατασημείακάθεάλλης συστάδας επιλογή του μικρότερου, δηλαδή μέση απόσταση από την κοντινότερη συστάδα s = a/b f a < b, (or s = b/a - Συνήθως μεταξύ του και του Όσο πιο κοντά στο, τόσο το καλύτερο f a b, not the usual case) Μπορεί να χρησιμοποιηθεί και για μια συστάδα ή συσταδοποίηση θεωρώνταςμέσεςτιμέςγιαόλατασημείατουςήσυστάδες a b Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7

13 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Συντελεστής Σκιαγράφησης Slhouette Coeffcent (συντελεστής σκιαγράφησης) Πίνακας Γειτνίασης ύο Πίνακες Πίνακας Γειτνίασης (promt matr) ο πίνακας με την ομοιότητα των σημείων Πίνακας Εμφάνισης ( ncdence matr) Μιαγραμμήκαιμιαστήληγιακάθεσημείο Μια εγγραφή είναι αν το αντίστοιχο ζευγάρι σημείων ανήκει στην ίδια συστάδα Μια εγγραφή είναι αν το αντίστοιχο ζευγάρι σημείων ανήκει σε διαφορετική συστάδα O συντελεστής σκιαγράφησης για σημεία στις συστάδες Υπολογισμός της συσχέτισης (correlaton) των δύο πινάκων Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Πίνακας Γειτνίασης Πίνακας Γειτνίασης Υπολογισμός correlaton των δύο πινάκων όταν χρησιμοποιείται ο K-means στα παρακάτω σύνολα Υψηλή συσχέτιση σημαίνει ότι τα σημεία που ανήκουν στην ίδια συστάδα είναι κοντινά μεταξύ τους εν είναι καλή μέτρηση για κάποιες συστάδες που βασίζονται σε πυκνότητα και σε συνέχεια (contgut) Επειδή, οι δυο πίνακες είναι συμμετρικοί, χρειάζεται ο υπολογισμός n(n-) / εγγραφών Corr = - Corr = -8 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 7 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 76 Πίνακας Γειτνίασης - Οπτικοποίηση Πίνακας Γειτνίασης - Οπτικοποίηση Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουνστηνίδιασυστάδαναείναιγειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας, Σημεία Συστάδας, Σημεία Συστάδας Αναδιατάσσουμετασημείαστονπίνακαέτσιώστετασημείαπου ανήκουνστηνίδιασυστάδαναείναιγειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας, Σημεία Συστάδας, Σημεία Συστάδας... Σημείωση s = (d mn_d)/(ma_d mn_d) Ponts Smlart Ponts Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 77 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 78

14 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 79 Πίνακας Γειτνίασης - Οπτικοποίηση Πίνακας Γειτνίασης - Οπτικοποίηση Ponts 6 Ponts Smlart Ponts. 6 8 Smlart Ponts. DBSCAN Κάποιεςσυστάδεςακόμακαι σε τυχαία δεδομένα K-means Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Πίνακας Γειτνίασης - Οπτικοποίηση Πίνακας Γειτνίασης - Οπτικοποίηση 6 Ponts Smlart Ponts ΣΙΣ-ma DBSCAN Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Πίνακας Γειτνίασης Ειδικά για ιεραρχικούς αλγόριθμους Cophenetc dstance: είναι η απόσταση (promt) όταν ο αλγόριθμος τοποθετεί τα δυο σημεία στην ίδια συστάδα για πρώτη φορά Πχ συγχωνεύω τα σημεία του C με τα σημεία του C σε απόσταση., όλατασημείατουc απέχουν από το C. CoPhenetc Correlaton Coeffcent (CPCC) Χρησιμοποείται για επιλογή του είδους της ιεραρχικής συσταδοποίησης Κατασκευάζω τον πίνακα των cophenetc αποστάσεων Θεωρώ τη συνέλιξη του με τον αρχικό πίνακα αποστάσεων Πίνακας Γειτνίασης 6 6 MIN 6 Group Average MAX Ward s Method 6 6 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8

15 Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 8 Χρήση SSE για υπολογισμό του σωστού αριθμού συστάδων χρησιμοποιώντας τον K-means (Κ = και φαίνονται καλές τιμές) SSE K Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 86 Χαρακτηρισμός Ποιότητας Συσταδοποίησης με Επίβλεψη: Μας δίνονται κάποιες ετικέτες κλάσεων και θέλουμε να δούμε πόσο καλά ταιριάζουν με τα δεδομένα Classfcaton-orented (μετρήσεις για ταξινόμηση): κατά πόσο μια συστάδα περιέχει αντικείμενα μίας μόνο κλάσης Smlart-orented: κατά πόσο δύο αντικείμενα που ανήκουν στην ίδια κλάση, ανήκουν και στην ίδια συστάδα Θα τα δούμε όταν μιλήσουμε για ταξινόμηση Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ 87

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση

Διαβάστε περισσότερα

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος

Διαβάστε περισσότερα

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος 006-007

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining», Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

Συσταδοποίηση/ Ομαδοποίηση

Συσταδοποίηση/ Ομαδοποίηση Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 14: Δέντρα IV B Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2 3 Δένδρα, Εισαγωγή και άλλες πράξεις Άλλα Δέντρα: Β δένδρα, Β+ δέντρα, R δέντρα Διδάσκων: Παναγιώτης Ανδρέου ΕΠΛ231

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Advanced Data Indexing

Advanced Data Indexing Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Αναζήτηση Δέντρα (2 ο Μέρος) Διαχρονικά -Δέντρα (Persistent -trees) Σε μερικές εφαρμογές βάσεων/δομών δεδομένων όπου γίνονται ενημερώσεις μας ενδιαφέρει

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Διάλεξη 18: B-Δένδρα

Διάλεξη 18: B-Δένδρα Διάλεξη 18: B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή & Ισοζυγισμένα Δένδρα 2-3 Δένδρα, Περιγραφή Πράξεων της Εισαγωγής και άλλες πράξεις Β-δένδρα Διδάσκων: Κωνσταντίνος

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Διάλεξη 14: Δέντρα IV - B-Δένδρα ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Θέματα Μεταγλωττιστών

Θέματα Μεταγλωττιστών Γιώργος Δημητρίου Ενότητα 7 η : Περιοχές: Εναλλακτική Μέθοδος Ανάλυσης Ροής Δεδομένων Περιοχές (Regions) Σε κάποιες περιπτώσεις βρόχων η ανάλυση ροής δεδομένων με τον επαναληπτικό αλγόριθμο συγκλίνει αργά

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

BIRCH: : An Efficient Data Clustering Method for Very Large Databases BIRCH: : An Efficient Data Clustering Method for Very Large Databases Tian Zhang Raghu Ramakrishnan Miron Livny Παρουσίαση: Μαρία Καθηγητής: Μιχάλης Μάθημα: Θέματα Μαρία Δήμα Μιχάλης Χατζόπουλος Θέματα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2007-2008 14.02.2008 EΠΙΣΤΡΕΦΕΤΑΙ ΔΙΔΑΣΚΩΝ Ιωάννης Βασιλείου, Καθηγητής,

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ ΣΤΑΘΕΡΕΣ είναι τα μεγέθη που δεν μεταβάλλονται κατά την εκτέλεση ενός αλγόριθμου. Εκτός από τις αριθμητικές σταθερές (7, 4, 3.5, 100 κλπ), τις λογικές σταθερές (αληθής και ψευδής)

Διαβάστε περισσότερα

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

ΕΠΛ 231 Δοµές Δεδοµένων και Αλγόριθµοι 8-1

ΕΠΛ 231 Δοµές Δεδοµένων και Αλγόριθµοι 8-1 B-Δένδρα Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: 2-3 Δένδρα, Υλοποίηση και πράξεις Β-δένδρα ΕΠΛ 231 Δοµές Δεδοµένων και Αλγόριθµοι 8-1 2-3 Δένδρα Γενίκευση των δυαδικών δένδρων αναζήτησης.

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Αναζήτηση Δοθέντος ενός προβλήματος με περιγραφή είτε στον χώρο καταστάσεων

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 3η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 3η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson ΘΕΜΑ : Αλγόριθμος Ford-Fulkerson Α Να εξετάσετε αν ισχύει η συνθήκη συντήρησης της αρχικής ροής στο δίκτυο. Β Με χρήση του αλγορίθμου Ford-Fulkerson να βρεθεί η μέγιστη ροή που μπορεί να σταλεί από τον

Διαβάστε περισσότερα

ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι Άννα Φιλίππου,

ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι Άννα Φιλίππου, B- ένδρα Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: 2-3 ένδρα, Υλοποίηση και πράξεις Β-δένδρα ΕΠΛ 231 οµές εδοµένων και Αλγόριθµοι Άννα Φιλίππου, 2006 8-1 2-3 ένδρα Γενίκευση των δυαδικών

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας

Διαβάστε περισσότερα

Ταχεία Ταξινόμηση Quick-Sort

Ταχεία Ταξινόμηση Quick-Sort Ταχεία Ταξινόμηση Quc-Sort 7 4 9 6 2 2 4 6 7 9 4 2 2 4 7 9 7 9 2 2 9 9 Δομές Δεδομένων και Αλγόριθμοι Εργαστήριο Γνώσης και Ευφυούς Πληροφορικής 1 Outlne Quc-sort Αλγόριθμος Βήμα διαχωρισμού Δένδρο Quc-sort

Διαβάστε περισσότερα

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Η διαδικασία PercolateDown, Δημιουργία Σωρού O Αλγόριθμος Ταξινόμησης HeapSort Υλοποίηση, Παραδείγματα

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Πως δομούνται οι ιεραρχικές μνήμες; Αναφέρετε τα διάφορα επίπεδά τους από τον επεξεργαστή μέχρι τη δευτερεύουσα

Διαβάστε περισσότερα

Heapsort Using Multiple Heaps

Heapsort Using Multiple Heaps sort sort Using Multiple s. Λεβεντέας Χ. Ζαρολιάγκης Τµήµα Μηχανικών Η/Υ & Πληροφορικής 29 Αυγούστου 2008 sort 1 Ορισµός ify Build- 2 sort Πως δουλεύει Ιδιότητες 3 4 Προβλήµατα Προτάσεις Ανάλυση Κόστους

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα 7ο εξάμηνο Σ.Η.Μ.Μ.Υ. & Σ.Ε.Μ.Φ.Ε. http://www.corelab.ece.ntua.gr/courses/ 4η εβδομάδα: Εύρεση k-οστού Μικρότερου Στοιχείου, Master Theorem, Τεχνική Greedy: Knapsack, Minimum Spanning Tree, Shortest Paths

Διαβάστε περισσότερα

Εξωτερική Ταξινόμηση. Μ.Χατζόπουλος 1

Εξωτερική Ταξινόμηση. Μ.Χατζόπουλος 1 Εξωτερική Ταξινόμηση Μ.Χατζόπουλος 1 Γιατί είναι απαραίτητη; Κλασσικό Πρόβλημα της Πληροφορικής Πολλές φορές θέλουμε να παρουσιάσουμε δεδομένα σε ταξινομημένη μορφή Είναι σημαντική για την απαλοιφή διπλοτύπων

Διαβάστε περισσότερα

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Φωτεινή Καλαφάτη Πολυτεχνείο Κρήτης Σχολή Μηχανικών Παραγωγής και Διοίκησης Πολυτεχνειούπολη, 73100 Χανιά email: fot.kalafati@yahoo.com

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Παναγιώτα Παναγοπούλου Χριστίνα Σπυροπούλου 8η Διάλεξη 8 Δεκεμβρίου 2016 1 Ασύγχρονη κατασκευή BFS δέντρου Στα σύγχρονα συστήματα ο αλγόριθμος της πλημμύρας είναι ένας απλός αλλά

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα

Διδάσκων: Κωνσταντίνος Κώστα Διάλεξη Ε4: Επανάληψη Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή σε δενδρικές δομές δεδομένων, Δυαδικά Δένδρα Αναζήτησης Ισοζυγισμένα Δένδρα & 2-3 Δένδρα Διδάσκων: Κωνσταντίνος

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράμματα γιατηδιαχείρισητηςβδ Αρχεία ευρετηρίου Αρχεία δεδομένων Κατάλογος συστήματος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Σύστημα Βάσεων Δεδομένων (ΣΒΔ) 2 :

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

εντρικά Ευρετήρια έντρα Αναζήτησης

εντρικά Ευρετήρια έντρα Αναζήτησης εντρικά Ευρετήρια 1 έντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτεςωςεξής P 1 K 1 P j K

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας Εισαγωγή στους Αλγόριθμους Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr 1 Περιεχόμενα Μαθήματος Εισαγωγή στου Αλγόριθμους Πολυπλοκότητα Αλγορίθμων Ασυμπτωτική Ανάλυση Θεωρία Γράφων Κλάσεις Πολυπλοκότητας

Διαβάστε περισσότερα

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών &

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών & Data Path Allocation Σύνθεση Data Path Το DataPath είναι ένα netlist που αποτελείται από τρεις τύπους µονάδων: (α) Λειτουργικές Μονάδες, (β) Μονάδες Αποθήκευσης και (γ) Μονάδες ιασύνδεσης Αριθµό Μονάδων

Διαβάστε περισσότερα

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Διαβάστε περισσότερα

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινομημένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis) Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα