Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
|
|
- Τιτάνος Μητσοτάκης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ gounaris/courses/dwdm/
2 Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» Αρχικές εκδόσεις από μέρος των διαφανειών ετοιμάστηκαν από τον Δρ. Α. Νανόπουλο. Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2
3 Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 3
4 Εγκυρότητα ομαδοποίησης ης Πόσα clusters? 2 ή 3? 4
5 Εγκυρότητα ομαδοποίησης ης Πώς αξιολογείται η ποιότητα των συστάδων; ; Πολλές φορές το πόσο καλό είναι το αποτέλεσμα είναι υποκειμενικό clusters are in the eye of the beholder! Γιατί χρειάζεται η αξιολόγηση Για την αποφυγή έρευσης προτύπων σε θόρυβο. Για τη σύγκριση διαφορετικών αλγορίθμων. Για τη σύγκριση δύο συνόλων από συστάδες. Για τη σύγκριση γρ δύο συστάδων. Αποτίμηση αποτελέσματος ομαδοποίησης Εσωτερικά κριτήρια (καμία γνώση κλάσεων) Εξωτερικά κριτήρια (γνώση κλάσεων) Σχετικά κριτήρια 5
6 Εγκυρότητα αλγορίθμων τμηματοποίησης η ης Συμπάγεια (Συνοχή) Πόσο κοντά ή στενά συσχετισμένα είναι τα αντικείμενα μίας συστάδας SSE = i x C i ( x m i είναι το κέντρο της συστάδας i Απομόνωση m i ) 2 Πόσο μακρυά ή καλά διαχωρισμένες είναι οι συστάδες μεταξύ τους. 2 SSB = C i ( m m i ) i C i είναι το μέγεθος της συστάδας i m το κέντρο όλων των συστάδων 6
7 Αλληλεξάρτηση η η SSE και SSB m 1 m m 2 5 K=1 cluster: SSE= (1 3) 2 SSB= 4 (3 3) Total + (2 3) 2 = = 10 = (4 3) 2 + (5 3) 2 = 10 K=2 clusters: SSE= SSB= (1 1.5) 2 2 (3 1.5) + (2 1.5) (4 4.5) + 2 (4.5 3) 2 = (5 4.5) 2 = 1 Total = = 10 Αποδεικνύεται ότι πάντα το άθροισμα παραμένει σταθερό. Άρα η ελαχιστοποίηση του SSE σημαίνει μεγιστοποίηση του SSB. 7
8 Αλληλεξάρτηση η η SSE και SSB Απόδειξη: 0 8
9 Περισσότερα ρ για συνοχή-απομόνωση Η συνοχή μπορεί να υπολογιστεί αν πάρουμε την απόσταση των σημείων της συστάδας μεταξύ τους. cluster SSE = x C ( x i m i ) = 1 2c i x Ci y Ci ( x 2 ) 2 y Η απομόνωση μπορεί να υπολογιστεί αν πάρουμε την απόσταση μεταξύ των κέντρων των συστάδων. Για ισομεγέθεις συστάδες: ολικό SSB = 1 K K 2 c 2 i ( mi m) = ( mi mj) x C 2 K i 1 j 1 K i = = n 9
10 Έλεγχος σημαντικότητας η SSE και SSB Οι τιμές SSE και SSB ερμηνεύονται μόνο συγκριτικά. Παράγουμε έναν αριθμό συνόλων με αντικείμενα που ακολουθούν ομοιόμορφη μ κατανομή και έχουν τον ίδιο αριθμό αντικειμένων Ομαδοποιούμε μ κάθε τέτοιο σύνολο και υπολογίζουμε γζ τις τιμές SSE και SSB. Εξετάζουμε την κατανομή των τιμών SSE και SSB. Ελέγχουμε κατά πόσο μη αναμενόμενες είναι οι τιμές SSE και SSB που προέκυψαν από την υπό εξέταση ομαδοποίηση. 10
11 Παράδειγμα Παράγουμε 100 τυχαία σύνολα 150 σημείων στο ίδιο εύρος τιμών. SSE = μ = , σ=7.43 Επίπεδο εμπιστοσύνης 90% 11
12 Συντελεστής σιλουέτας (αλγόριθμοι τμηματοποίησης) Συνδυασμός συμπάγειας και απομόνωσης Απόσταση ενός αντικειμένου από τα αντικείμενα της ομάδας του συγκριτικά με την απόσταση από τα αντικείμενα άλλων ομάδων α i = μέση απόσταση i-οστού αντικειμένου από τα αντικείμενα της ομάδας του b i = η ελάχιστη μέση απόσταση i-οστού αντικειμένου από αντικείμενα άλλης ομάδας S i = bi ai max{ a i, b Τιμή στο [-1,1], επιθυμητές τιμές > 0 i } 12
13 Παράδειγμα Εφαρμογή του K-means στα δεδομένα IRIS Η μέση τιμή του συντελεστή σιλουέτας είναι ένα μέτρο αξιολόγησης της συσταδοποίησης. Έμμεσα μπορεί να εκτιμηθεί και ο αριθμός των συστάδων! 13
14 Εγκυρότητα για ιεραρχικούς ρχ αλγορίθμους Συντελεστής CPCC (cophenetic correlation coefficient) μετράει κατά πόσο τα αντικείμενα ταιριάζουν στο (πλήρες) δενδρόγραμμα d(x,y): απόσταση x, y d c (x,y): απόσταση των ομάδων που περιείχαν τα x και y, όταν αυτά τοποθετήθηκαν για πρώτη φορά στην ίδια ομάδα, έπειτα από συγχώνευση των ομάδων τους Οι τιμές είναι στο διάστημα [-1,1]. Οι τιμές πλησιέστερα στο 1 υποδηλώνουν καλύτερη συσταδοποίηση 14
15 Παράδειγμα Παράγουμε 100 τυχαία σημεία βάσει δύο κανονικών κατανομών και εισάγουμε θόρυβο. Ιεραρχική συσταδοποίηση μονής (αριστερά) και πλήρους (δεξιά) σύνδεσης. CPCC = 0.78 CPCC =
16 Γενική μέθοδος εγκυρότητας μέσω συσχέτισης Δύο πίνακες Πίνακας Γειτνίασης (Ομοιότητας ή απόστασης) Πίνακας Εμφάνισης (Incidence) Μία γραμμή και μία στήλη για κάθε σημείο. Τιμή 1 σημαίνει ότι τα αντίστοιχα α σημεία βρίσκονται στην ση ίδια συστάδα. σ Τιμή 0 σημαίνει ότι τα αντίστοιχα σημεία βρίσκονται σε διαφορετικη συστάδα. Υπολογισμός συσχέτισης μεταξύ των δύο πινάκων. Καθώς οι πίνακες είναι συμμετρικοί, χρειάζεται ο υπολογισμός μόνο n(n-1) )/ 2 συνδυασμών. Υψηλή συσχέτιση σημαίνει ότι τα σημεία μιας συστάδας είναι κοντά το ένα στο άλλο. Δεν ενδύκνειται για συσταδοποίηση βάσει πυκνότητας ή συνέχειας. 16
17 Παράδειγμα Εφαρμογή του k-means means. y x y x Corr = Corr =
18 Αποτίμηση η μέσω οπτικοποίησης ης Ταξινομούμε τα αντικείμενα ως προς την ομάδα που ανήκουν και αναπαριστούμε τις αποστάσεις τους σε έναν πίνακα y Points P x Similarity 0 Points 18
19 Αποτίμηση η μέσω οπτικοποίησης ης Ταξινομούμε τα αντικείμενα ως προς την ομάδα που ανήκουν και αναπαριστούμε τις αποστάσεις τους σε έναν πίνακα
20 Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες Points y Similarity 0 Points x DBSCAN 20
21 Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες Po oints y Similarity Points x K-means 21
22 Αποτίμηση η μέσω οπτικοποίησης ης Οι συστάδες σε τυχαία δεδομένα δεν είναι ξεκάθαρες Po ints y Similarity 0 Points x Complete Link 22
23 Εγκυρότητα με εξωτερικά κριτήρια γνωρίζουμε εκ των προτέρων την κλάση στην οποία ανήκουν a: Το πλήθος των αντικειμένων που ανήκουν και στην ίδια ομάδα και στην ίδια κλάση. b: Το πλήθος των αντικειμένων που ανήκουν και στην ίδια ομάδα αλλά όχι στην ίδια κλάση. c: Το πλήθος των αντικειμένων που δεν ανήκουν στην ίδια ομάδα αλλά ανήκουν στην ίδια κλάση. Συντελεστής Jaccard a a + b + c πλησιέστερα στο 1 δηλώνουν Ο συντελεστής Jaccard παίρνει τιμές στο διάστημα [0,1]. Τιμές καλύτερη ομαδοποίηση. 23
24 Παράδειγμα Σύγκριση ιεραρχικών αλγορίθμων Jaccard = 0.58 Jaccard =
25 Τελευταίο σχόλιο πάνω στην εγκυρότητα The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes 25
26 Πόσες συστάδες υπάρχουν; ; Μελετούμε τις γραφικές παραστάσεις του συντελεστή σιλουέτας ως προς τον αριθμό των συστάδων
27 Πόσες συστάδες υπάρχουν; ; Επίσης μελετούμε τις γραφικές παραστάσεις του SSE ως προς τον αριθμό των συστάδων SSE K 27
28 Τάση ομαδοποίησης ης 150 σημεία με τυχαία κατανομή Υπάρχουν clusters? 28
29 Έλεγχος βάσει MST Παράγουμε σημεία με τυχαία κατανομή Έστω η υπόθεση Η 0 ότι τα σύνολα δεδομένων προέρχονται από τον ίδιο πληθυσμό. 29
30 Βήματα ελέγχου Βρες την κυρτή (convex) περιοχή που περικλείει όλα τα σημεία του συνόλου δεδομένων δδ X. Δημιούργησε σύνολο δεδομένων Y με Y = X σημεία, που βρίσκονται εντός της κυρτής ρήςπεριοχής του βήματος 1. Βρες το MST του συνόλου X Y. T είναι ο αριθμός των ακμών του MST, των οποίων η μία τους κορυφή ανήκει στο X και η άλλη στο Y. Απόρριψε την υπόθεση H 0, αν ο αριθμός T είναι μικρός. Εναλλακτικά Απορρίπτουμε την Η 0 σε επίπεδο εμπιστοσύνης a αν Τ < z(a) 30
31 Παράδειγμα Υπάρχουν clusters? T= 73 από 299 Τ = -8.9 (για επίπεδο σημαντικότητας 95%, αρκεί Τ < 1.96) 31
32 Έλεγχος βάσει κοντινότερων γειτόνων Βρες την κυρτή (convex) περιοχή που περικλείει όλα τα σημεία του συνόλου δεδομένων X. Δημιούργησε το σύνολο δεδομένων Y με Y << X σημεία που βρίσκονται εντός της κυρτής περιοχής του βήματος 1. Πάρε ένα τυχαίο δείγμα S από σημεία του X, όπου S = Y. Θέτουμε ως X'=X-SX το σύνολο των σημείων που δεν επιλέχθηκαν στο δείγμα. Για κάθε σημείο y i στο Y βρίσκουμε την απόσταση u i από τον κοντινότερο γείτονα που ανήκει στο X. Ομοίως, για κάθε σημείο s i στο S βρίσκουμε την απόσταση w i από τον κοντινότερο γείτονα που ανήκει στο X. S Υπολόγισε το στατιστικό του Hopkins: u i i = 1 = S S i = 1 i = 1 Aπόρριψε ό την υπόθεση H 0, αν το H είναι περίπου Υπάρχουν συστάδες όταν H > 0.5 H w i + u i 32
33 Παράδειγμα Υπάρχουν clusters? Δείγμα 50 σημείων. Η=
34 Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 34
35 Θέματα που πρέπει να προσεχθούν εκτός της πολυπλοκότητας απαιτήσεις σε μνήμη. αποδοτικός υπολογισμός πλησιέστερου κέντρου, γειτόνων ή σημείων μέσα σε δεδομένη απόσταση. όρια στην γειτονικότητα μείωση του αριθμού συγκρίσεων γρ ενός σημείου με κεντρικά σημεία δειγματοληψία τεχνικές διαίρει και βασίλευε περίληψη των δεδομένων παραλληλισμός 35
36 Θέματα που θα εξετάσουμε σήμερα Έλεγχος Εγκυρότητας και τάσης ομαδοποίησης Γενικά θέματα κλιμάκωσης Ποιός αλγόριθμος πρέπει να επιλέγεται 36
37 Τύπος συσταδοποίσης: Κριτήρια-παράγοντες επιλογής αλγορίθμου ιεραρχίες, πληρότητα, μοναδικότητα Τύπος συστάδων: Βάσει πρωτοτύπου-κεντρικού σημείου Βάσει γράφου Βάσει πυκνότητας Άλλα κριτήρια, όπως αποδοτικότητα σε συστάδες διαφορετικού μεγέθους, σχήματος, πυκνότητας, δυνατότητα υπολογισμού κεντρικού σημείου, συσταδοποίηση σε υποσύνολο χαρακτηριστικών 37
38 Κριτήρια-παράγοντες επιλογής αλγορίθμου θόρυβος και ανώμαλες-ακραίες ακραίες τιμές περιγραφή συστάδας ντετερμινιστική συπεριφορά ευαισθησία στη σειρά των δεδομένων αυτόματος υπολογισμός αριθμού συστάδων ύπαρξη αντικειμενικής συνάρτησης 38
39 Άσκηση η 1 Να αποδειχθεί ότι το παρακάτω άθροισμα είναι 0 39
40 Να αποδείξετε ότι Άσκηση η 2 cluster SSE = 1 2c ( ( x m = i) 2 ( x y ) 2 x C i i x Ci y Ci 40
41 Να αποδείξετε ότι Άσκηση η 3 ολικό SSB = x C i c i K 1 K n 2 2 ( mi m) = ( mi mj) 2K i= 1 j= 1 K 41
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Ομαδοποίηση ΙΙ (Clustering)
Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Αποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων
Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία
Αποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε
Συσταδοποίηση/ Ομαδοποίηση
Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι
Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data
Ζητήματα ηήμ με τα δεδομένα
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών
Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία
ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση
Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH
Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος
Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης
Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής
Οικονομετρία Ι Ενότητα 5: Ανάλυση της Διακύμανσης Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό
2.5.1 ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ
.5. ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ Η μέθοδος κατασκευής διαστήματος εμπιστοσύνης για την πιθανότητα που περιγράφεται στην προηγούμενη ενότητα μπορεί να χρησιμοποιηθεί για την κατασκευή διαστημάτων
Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity
Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος 006-007
ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση
P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,
Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 3: Ανάλυση γραμμικού υποδείγματος Απλή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές
Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Κεφάλαιο 6: Συσταδοποίηση
Κεφάλαιο 6: Συσταδοποίηση Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εξοικείωση με θέματα που αφορούν την τρίτη σημαντική εργασία της εξόρυξης δεδομένων, δηλαδή την ανάλυση των συστάδων. Πιο συγκεκριμένα,
Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι
Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές
ΟΜΑΔΕΣ. Δημιουργία Ομάδων
Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο
Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:
Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον
Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων
Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile
Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:
Άσκηση 1: Δύο τυχαίες μεταβλητές Χ και Υ έχουν στατιστικές μέσες τιμές 0 και διασπορές 25 και 36 αντίστοιχα. Ο συντελεστής συσχέτισης των 2 τυχαίων μεταβλητών είναι 0.4. Να υπολογισθούν η διασπορά του
ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX
ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX Θεμελιώδης αλγόριθμος επίλυσης προβλημάτων Γραμμικού Προγραμματισμού που κάνει χρήση της θεωρίας της Γραμμικής Άλγεβρας Προτάθηκε από το Dantzig (1947) και πλέον
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Διαδικαστικά Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile
Ανάλυση κατά Συστάδες. Cluster analysis
Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες
ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012
ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό
Ουρά Προτεραιότητας: Heap
Ουρά Προτεραιότητας: Heap Επιμέλεια διαφανειών: Δ. Φωτάκης (λίγες τροποποιήσεις: Α. Παγουρτζής) Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Δομές Δεδομένων (Αναπαράσταση,)
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο
ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)
«ΣΠ0ΥΔΑI», Τόμος 47, Τεύχος 3o-4o, Πανεπιστήμιο Πειραιώς / «SPOUDAI», Vol. 47, No 3-4, University of Piraeus ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) Υπό Γιάννης
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 4ο
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΜΑΘΗΜΑ 4ο Διαδικασία των συντελεστών αυτοσυσχέτισης Ονομάζουμε συνάρτηση αυτοσυσχέτισης (autocorrelation function) και συμβολίζεται με τα γράμματα
Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς
Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Φωτεινή Καλαφάτη Πολυτεχνείο Κρήτης Σχολή Μηχανικών Παραγωγής και Διοίκησης Πολυτεχνειούπολη, 73100 Χανιά email: fot.kalafati@yahoo.com
ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012
ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε
ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ
ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ Παράρτημα Πανεπιστημίου: Δεληγιώργη 6 Α (έναντι Πανεπιστημίου Πειραιώς) Τηλ.: 4..97,,, Fax : 4..634 URL : www.vtal.gr emal: f@vtal.gr Παράρτημα Πανεπιστημίου: Δεληγιώργη 6 Α (έναντι
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα
Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x
Εργαστήριο Μαθηματικών & Στατιστικής η Πρόοδος στο Μάθημα Στατιστική // (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) ο Θέμα [] Επιλέξαμε φακελάκια (της μισής ουγκιάς) που περιέχουν σταφίδες από την παραγωγή μιας εταιρείας
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ Στατιστικά περιγραφικά μέτρα Τα στατιστικά περιγραφικά μέτρα είναι αντιπροσωπευτικές τιμές οι οποίες περιγράφουν με τρόπο ποσοτικό την κατανομή μιας μεταβλητής. Λειτουργούν
Στατιστική Επιχειρήσεων Ι
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 7: Παρουσίαση δεδομένων-περιγραφική στατιστική Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων
Ομαδοποίηση Ι (Clustering)
Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος
Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης
ΟΚΙΜΑΣΙΕΣ χ 2 (CHI-SQUARE)
ΔΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE) ΟΚΙΜΑΣΙΕΣ χ (CI-SQUARE). Εισαγωγή Οι στατιστικές δοκιμασίες που μελετήσαμε μέχρι τώρα ονομάζονται παραμετρικές (paramtrc) διότι χαρακτηρίζονται από υποθέσεις σχετικές είτε για
ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ
ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ Το ενδιαφέρον επικεντρώνεται πάντα στον πληθυσμό Το δείγμα χρησιμεύει για εξαγωγή συμπερασμάτων για τον πληθυσμό π.χ. το ετήσιο εισόδημα των κατοίκων μιας περιοχής Τα στατιστικά
«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»
Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Της σπουδάστριας ΚΑΤΣΑΡΟΥ ΧΑΡΙΚΛΕΙΑΣ Επιβλέπων Δρ. ΓΕΡΟΝΤΙΔΗΣ
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas
ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Συσχέτιση (Correlation) - Copulas Σημασία της μέτρησης της συσχέτισης Έστω μία εταιρεία που είναι εκτεθειμένη σε δύο μεταβλητές της αγοράς. Πιθανή αύξηση των 2 μεταβλητών
Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:
Ένας Πληθυσμός, μεγάλο δείγμα, άγνωστη κατανομή Έλεγχος για την μέση τιμή, με άγνωστη διασπορά Δίνονται ομαδοποιημένες οι ημερήσιες καταναλώσεις ηλεκτρικής ενέργειας (σε 100-άδες κιλοβατώρες) μιας χημικής
28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)
Στατιστική Ι 9 η Διάλεξη (Περιγραφική Στατιστική) 1 2 Πληθυσμός ή στατιστικός πληθυσμός Ονομάζεται η κατανομή των τιμών μιας τ.μ., δηλαδή η κατανομή των τιμών που παίρνει ένα χαρακτηριστικό μιας ομάδας
ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΣΤΙΣ ΣΥΝΑΡΤΗΣΕΙΣ
ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΣΤΙΣ ΣΥΝΑΡΤΗΣΕΙΣ Άσκηση 1. Έστω ότι η συνάρτηση f: R R είναι γνησίως αύξουσα στο R και η γραφική της παράσταση τέµνει τον άξονα y y στο. Να λύσετε την ανίσωση: f(x 9)
Συμπίεση Δεδομένων
Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Αναλογικά Ψηφιακά Σήματα Αναλογικό Σήμα x t, t [t min, t max ], x [x min, x max ] Δειγματοληψία t n, x t x n, n = 1,, N Κβάντιση x n x(n) 3 Αλφάβητο
5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500
Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της
Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες
ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων
ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς
Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων
Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό
Προσαρμογή καμπύλης με τη μέθοδο των ελαχίστων τετραγώνων
Σχολή Χημικών Μηχανικών ΕΜΠ Εισαγωγή στην Χημική Μηχανική, ο εξάμηνο Προσαρμογή καμπύλης με τη μέθοδο των ελαχίστων τετραγώνων Εισαγωγή Με βάση κάποιο δείγμα (Χ,Υ) ζητούμε να εξάγουμε συμπεράσματα για
ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά
ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ Καθ Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 05 Έλεγχος διακυμάνσεων Μας ενδιαφέρει να εξετάσουμε 5 δίαιτες που δίνονται
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική
ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 6: Ανάλυση γραμμικού υποδείγματος Πολυμεταβλητή παλινδρόμηση (2 ο μέρος) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage:
10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ
0. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 0. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ Συχνά στην πράξη το μοντέλο της απλής γραμμικής παλινδρόμησης είναι ανεπαρκές για την περιγραφή της μεταβλητότητας που υπάρχει στην εξαρτημένη
Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1
Στατιστική Επιχειρήσεων Ι Περιγραφική Στατιστική 1 2 Πληθυσμός ή στατιστικός πληθυσμός Ονομάζεται η κατανομή των τιμών μιας τ.μ., δηλαδή η κατανομή των τιμών που παίρνει ένα χαρακτηριστικό μιας ομάδας
Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση I Εισαγωγή Ο αλγόριθμος k-means Αποστάσεις Ιεραρχική Συσταδοποίηση Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Τι
ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )
Πληθυσμός (populaton) ονομάζεται ένα σύνολο, τα στοιχεία του οποίου εξετάζουμε ως προς τα χαρακτηριστικά τους. Μεταβλητές (varables ) ονομάζονται τα χαρακτηριστικά ως προς τα οποία εξετάζουμε έναν πληθυσμό.
Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας
Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.
ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα. Στα παραπάνω ιστογράμματα, παρατηρούμε, ότι αν και υπάρχει διαφορά στη διασπορά των τιμών
Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:
Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον
Γραμμικός Προγραμματισμός Μέθοδος Simplex
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επιχειρησιακή Έρευνα Γραμμικός Προγραμματισμός Μέθοδος Simplex Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου Περιεχόμενα Παρουσίασης 1. Πρότυπη Μορφή ΓΠ 2. Πινακοποίηση
Χ. Εμμανουηλίδης, 1
Εφαρμοσμένη Στατιστική Έρευνα Απλό Γραμμικό Υπόδειγμα AΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟ ΕΙΓΜΑ Δρ. Χρήστος Εμμανουηλίδης Αν. Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Εφαρμοσμένη Στατιστική, Τμήμα Ο.Ε. ΑΠΘ Χ. Εμμανουηλίδης,
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις
Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη
Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης
Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»
Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία
Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006
Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία Πέτρος Ποτίκας CoReLab 4/5/2006 Επισκόπηση Ετικέτες σε συνιστώσες (Component labelling) Hough μετασχηματισμοί (transforms) Πλησιέστερος
Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,
Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση
9. Παλινδρόμηση και Συσχέτιση
9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε
Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα
Στατιστική, Άσκηση 2. (Κανονική κατανομή)
Στατιστική, Άσκηση 2 (Κανονική κατανομή) Στον πίνακα που ακολουθεί δίνονται οι μέσες παροχές όπως προέκυψαν από μετρήσεις πεδίου σε μια διατομή ενός ποταμού. Ζητείται: 1. Να αποδειχθεί ότι το δείγμα προσαρμόζεται
Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o
ΙΩΑΝΝΗΣ Κ. ΔΗΜΗΤΡΙΟΥ Εφαρμογές Ποσοτικές Ανάλυσης με το Excel 141 ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Ανάλυση Δεδομένων Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας
Εισαγωγή στους Αλγόριθμους Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr 1 Περιεχόμενα Μαθήματος Εισαγωγή στου Αλγόριθμους Πολυπλοκότητα Αλγορίθμων Ασυμπτωτική Ανάλυση Θεωρία Γράφων Κλάσεις Πολυπλοκότητας
Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017
Τμήμα Μηχανικών Πληροφορικής ΤΕ 2016-2017 Η μέθοδος Simplex Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα τελευταία ενημέρωση: 19/01/2017 1 Πλεονεκτήματα Η μέθοδος Simplex Η μέθοδος Simplex είναι μια
Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Κουγιουμτζής Δημήτρης Τμήμα Πολιτικών Μηχανικών Α.Π.Θ. Θεσσαλονίκη, Μάρτιος 4 Άδειες Χρήσης Το παρόν
ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΔΙΟΙΚΗΤΙΚΑ ΣΤΕΛΕΧΗ Ενότητα # 7: Δειγματοληψία Μιλτιάδης Χαλικιάς Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης