Αποθήκες εδομένων και Εξόρυξη εδομένων:
|
|
- Ανδώνης Ταμτάκος
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α gounaris/courses/dwdm/
2 Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν το σύγγραμμα «Εισαγωγή στην Εξόρυξη και τις Αποθήκες εδομένων» Xρησιμοποιήθηκε μ ή η επιπλέον υλικό από τα βιβλία ββ «Introduction to Data Mining» των Tan, Steinbach, Kumar, και «Data Mining: Concepts and Techniques» των Jiawei Han, Micheline Kamber. 2
3 Θέματα προς εξέταση Μέρος Α Εισαγωγικές Έννοιες ένδρα Απόφασης Μέρος Β Bayesian κατηγοριοποιητές Κατηγοριοποιητές πλησιέστερων γειτόνων Αποτίμηση Ακρίβειας 3
4 Κατηγοριοποίηση η η H ανάθεση αντικειμένων σε προκαθορισμένες κλάσεις Ιδιότητες Χ 1, Χ 2,... Χ κ Μοντέλο κατηγοριοποίησης η ης f: D(Χ 1 ) x... x D(Χ k ) D(C) Εκπαίδευση από υπάρχοντα δεδομένα (σύνολο εκμάθησης) 4
5 Παράδειγμα Ηλικία Οικογενειακή Κατάσταση Αγοραστής 20 ιαζευγμένος ΝΑΙ 30 ιαζευγμένος ΝΑΙ 25 Έγγαμος ΟΧΙ 30 Άγαμος ΝΑΙ 40 Άγαμος ΝΑΙ 20 Έγγαμος ΟΧΙ 30 αζε ιαζευγμένος ΝΑΙ 25 ιαζευγμένος ΝΑΙ 40 ιαζευγμένος ΝΑΙ 20 Άγαμος ΟΧΙ f: [ ] x {Άγαμος, Έγγαμος, ιαζευγμένος} {ΝΑΙ, ΟΧΙ} 5
6 Κατηγοριοποιητής η Αλγόριθμος κατασκευής μοντέλου ιαμερισμός σε περιοχές Εξέταση κατανομών πιθανότητας Εξέταση πλησιέστερων αντικειμένων 6
7 Παράδειγμα 7
8 ιαμερισμός μρ μςσε περιοχές 8
9 Εξέταση κατανομών πιθανότητας 9
10 Εξέταση πλησιέστερων αντικειμένων 10
11 Κριτήρια Αξιολόγησης ης Κατηγοριοποιητών η Ακρίβεια πρόβλεψης του μοντέλου ακρίβεια = # σωστ έ ς προβλ έ ψεις # προβλέψεις Ευκολία στην κατανόηση του μοντέλου Κλιμάκωση στο μέγεθος του συνόλου εκμάθησης Ανοχή στο θόρυβο και στις ελλιπείς τιμές 11
12 ένδρα απόφασης 12
13 Κατηγοριοποίηση η η με δένδρο {Έγγαμος, 22 ετών}. Πιθανός αγοραστής; 13
14 Μονοπάτι = συζεύξεις Εξαγωγή γή κανόνων Κλάση = διάζευξη συζεύξεων Μονοπάτια: 1. Ηλικία<30 και Ο.Κ. {Α,Ε} 2. Ηλικία<30 και Ο.Κ. { } 3. Ηλικία >= 30 Κλάση ΝΑΙ: (Ηλικία<30 και Ο.Κ. { }) ή (Ηλικία >= 30) 14
15 Κατασκευή δένδρου απόφασης (brute-force) Κατασκευή κάθε δυνατού πιθανού δένδρου Επιλογή του ακριβέστερου NP-complete 15
16 Κατασκευή δένδρου απόφασης (greedy) 16
17 Παράδειγμα 1/3 17
18 Παράδειγμα 2/3 18
19 Παράδειγμα 3/3 19
20 Πόσα παιδιά; Σημαντικό πρόβλημα στις συμβολικές ιδιότητες: 2 ή 3(όσες οι διαφορετικές Οικ. Καταστάσεις); 20
21 Πλεονεκτήματα-Μειονεκτήματα Πολλά παιδιά (=όλα) + εύκολη διάσπαση - περίπλοκο δένδρο - αριθμητικές ιδιότητες? (μόνο με κβάντωση) 2 παιδιά - δύσκολη διάσπαση + απλό/ευνόητο δένδρο + χειρισμός αριθμητικών ιδιοτήτων + συχνά καλύτερη ακρίβεια στην πράξη! Πρώτη μας επιλογή: δυαδικά δένδρα (2 παιδιά) 21
22 ιάσπαση σε δυαδικά δένδρα #δυνατές επιλογές: n
23 Παράδειγμα δυαδικής διάσπασης μίας συμβολικής μεταβλητής με τιμές abc a,b,c a b c a,b a,c b,c a,b,c - b, c a, c a, b c b a - a,b,c (2 n -2)/ 2 = 2 n
24 ιάσπαση αριθμητικών ιδιοτήτων Ταξινόμηση τιμών Αν υπάρχουν n διαφορετικές αριθμητικές τιμές στην ιδιότητα, τότε εξέταση n-1 διαχωριστικών θέσεων 24
25 Πώς επιλέγουμε τη διαχωριστική ιδιότητα 0 ΝΑΙ:3 ΟΧΙ 2:0 2:1 02 0:2 0:1 2:2 25
26 Μέτρο ανομοιογένειας Εντροπία για c κλάσεις Για c = 2 26
27 Εντροπία για c = 2 27
28 Παράδειγμα 0:3 2:0 2:1 0:2 0:1 2:2 Υπολογίστε την εντροπία κάθε περίπτωσης (p Ναι) 28
29 Παράδειγμα Α) ) Α: -0log0-1log1=0 g : -1log1-0log0=0 B) A: -2/3 log (2/3) 2:0 0:2 0:3 2:1 1/3 log (1/3) -1/3 log (1/3) = : -0log0-1log1=0 22 2:2 0:1 Γ) Α: - 2/4 log (2/4) - 2/4 log (2/4) = 1 : -0log0-1log1=0 29
30 Αξιολόγηση διαχωριστικής ιδιότητας Πληροφοριακό όφελος για μία ιδιότητα: 30
31 Παράδειγμα πληροφοριακού ρ οφέλους Πριν τη διάσπαση: Ε(Ν) = Υπολογίστε το πληροφοριακό ρ όφελος κάθε περίπτωσης 31
32 Παράδειγμα πληροφοριακού ρ οφέλους Πριν τη διάσπαση: Ε(Ν) = A) /5 *0-2/5*0 = B) /5* /5 * 0 = 0.42 Γ) /5 *1 1/5 * 0 =
33 Επιλογή διαχωριστικής ιδιότητας Εξετάζουμε για κάθε ιδιότητα όλους τους δυνατούς διαχωρισμούς επιλέγουμε το διαχωρισμό με το μέγιστο όφελος Επιλέγουμε την ιδιότητα με το μεγαλύτερο πληροφοριακό όφελος εφαρμόζουμε το διαχωρισμό μεγίστου οφέλους 33
34 Κατασκευή δένδρου απόφασης (greedy) ΜΗ ΠΡΑΚΤΙΚΟ ΚΡΙΤΗΡΙΟ 34
35 Εναλλακτικά κριτήρια τερματισμού Ένα ποσοστό (π.χ., χ 80%) ανήκουν στην ίδια κλάση Αν ο κόμβος περιέχει λιγότερα από, π.χ., 10, αντικείμενα α η κλάση του φύλλου είναι η πλειοψηφούσα Μπορούμε να έχουμε και τα δύο κριτήρια 35
36 Αποτέλεσμα εναλλακτικών κριτηρίων 36
37 Χαρακτηριστικά ένδρων Απόφασης Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (είναι NP-complete πρόβλημα). Για το λόγο αυτό χρησιμοποιούνται ευρετικοί αλγόριθμοι, οι οποίοι είναι άπληστοι και δεν χρησιμοποιούν οπισθοδρόμηση. Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων Γρήγορη εφαρμογή. Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες ρ περιπτώσεις, συγκρίσιμη γρ με την ακρίβεια άλλων κατηγοριοποιητών Το μοντέλο που προκύπτει είναι πολύ εύκολο στην κατανόηση. Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο ειδικά όταν εφαρμόζεται ψαλιδισμός 37
38 Επιπλέον Τα Α μπορούν να διαχειριστούν πολυδιάστατα δεδομένα 1 διάσταση τη φορά χρησιμοποιείται κατά την ανάπτυξη του μοντέλου και κάθε τύπο μεταβλητών Συμβολικές, αριθμητικές, κλπ. 38
39 Μειονεκτήματα Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Προβλήματα όταν λείπουν πολλά δεδομένα ιάσπαση ως προς μία ιδιότητα => αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες. Π.χ., η παρακάτω διάσπαση ΕΝ γίνεται σε ένα στάδιο. 39
40 Πλάγια ένδρα Απόφασης Oblique (πλάγιο) Δέντρο Απόφασης x + y < 1 Class = + Class = Οι συνθήκες ελέγχου μπορούν να περιλαμβάνουν περισσότερα από ένα γνωρίσματα Μεγαλύτερη εκφραστικότητα Η εύρεση βέλτιστων συνθηκών ελέγχου είναι υπολογιστικά ακριβή 40
41 Πρόβλημα αστάθειας Μικρή μετακίνηση ενός μόνο δείγματος, οδηγεί σε πολύ διαφορετικά αποτελέσματα. Η εικόνα είναι από Duda, Hart & Stork, Chap. 8 41
42 Βελτίωση της ακρίβειας ρβ Ξέρουμε πώς να εκτιμούμε σωστά την ακρίβεια Μπορούμε να βελτιώσουμε την ακρίβεια χρησιμοποιώντας διαφορετικά τους γνωστούς μας κατηγοριοποιητές; Κλάδεμα Σύνολα κατηγοριοποιητών 42
43 Το φαινόμενο της υπερβολικής προσαρμογής ρμ 2000 δισδιάστατα σημεία σε δύο κλάσεις (1000 σημεία ανά κλάση), που ακολουθούν κανονική κατανομή. Προσθέτουμε θόρυβο: ανταλλάζουμε την κλάση 150 σημείων ιαχωρίζουμε 1000 σημεία στο σύνολο ελέγχου Προσθέτουμε επιπλέον θόρυβο στο σύνολο εκμάθησης: ανταλλάζουμε την κλάση άλλων 200 τυχαίων σημείων 43
44 Το φαινόμενο της υπερβολικής προσαρμογής ρμ 44
45 Το φαινόμενο της υπερβολικής προσαρμογής ρμ Μικρός αριθμός κόμβων: ανεπαρκής αεαρήςπροσαρμογή ο (undefiting) Στο δένδρο απόφασης προστίθενται ολοένα και περισσότεροι κόμβοι με σκοπό να καλυφθούν (δηλαδή, να γίνει εκμάθηση) τα σημεία θορύβου. Η υπερβολική προσαρμογή, που δηλώνεται από τη μείωση του λάθους εκμάθησης, μειώνει όμως τη δυνατότητα του δένδρου απόφασης να γενικεύει σε άγνωστα αντικείμενα, κάτι που δηλώνεται από την αύξηση του λάθους ελέγχου. Το πρόβλημα είναι γενικό σε όλους τους κατηγοριοποιητές, όχι μόνο στα Α. 45
46 Κλάδεμα (pruning) Προ-κλάδεμα: εναλλακτικά κριτήρια τερματισμού κατά τη δημιουργία (διαφ. 35) ύσκολη επιλογή κατωφλίου Μετά-κλάδεμα: Πρώτα δημιουργούμε το δένδρο Μετά, διαγράφουμε δα υποδένδρα δρα ώστε να μειώσουμε την υπερβολική προσαρμογή 46
47 Αλγόριθμος REP REP: Reduced Error Pruning 47
48 Αλγόριθμος REP 1. Κατηγοριοποιούμε τα αντικείμενα του συνόλου ψαλιδισμού. 2. Εφαρμόζουμε μ μετα-διατεταγμένη διάσχιση στο δένδρο. 3. Εξετάζουμε κάθε εσωτερικό κόμβο ν που είναι πατέρας φύλλου: Ε(Τ_ν): αντικείμενα του συνόλου ψαλιδισμού που κατατάσσονται λανθασμένα σε όλα τα φύλλα του ν Ε(ν): αντικείμενα του συνόλου ψαλιδισμού που κατατάσσονται λανθασμένα αν θέσουμε το ν ως φύλλο κλάση του νέου φύλλου ν : η πιο συχνή κλάση των αντικειμένων των τωρινών φύλλων 48
49 Αλγόριθμος REP (συνέχεια) χ 4. Αν για κάθε κόμβο ν ισχύει Ε(ν)>Ε(Τ_ν), ) Ε(Τ ) τότε ο αλγόριθμος τερματίζει. 5. ιαφορετικά βρίσκουμε τον κόμβο ν με τη μεγαλύτερη διαφορά Ε(Τ_ν)-Ε(ν). 6. Ψαλιδίζουμε το υποδένδρο με ρίζα το ν, θέτοντας το ν ως φύλλο και αναθέτοντάς του την κλάση που πλειοψηφεί μεταξύ των αντικειμένων του συνόλου ανάπτυξης. 7. Πίσω στο Βήμα 1. 49
50 Παράδειγμα 50
51 Κλιμακούμενοι μ αλγόριθμοι ένδρα απόφασης: απαίτηση η τα δεδομένα να είναι στην κύρια μνήμη για αποδεκτή απόδοση, αλλεπάλληλες ταξινομήσεις συμβολικών και αριθμητικών δεδομένων σε κάθε κόμβο. εν κλιμακώνονται εύκολα. Κλιμακούμενες μ παραλλαγές που θα εξετάσουμε: SLIQ, SPRINT ΔΕΝ μειώνουν την ακρίβεια 51
52 SLIQ: Supervised Learning In Quest Αρχές του SLIQ: Προ-ταξινόμηση Ανάπτυξη κατά πλάτος 52
53 Προ-ταξινόμηση: Λίστες Ιδιοτήτων/Κλάσεων Αρχική ρίζα 53
54 ιάσπαση με gini index Έστω c κλάσεις και n αντικείμενα. P i : σχετική συχνότητα της κλάσης i στο σύνολο S είκτης gini: gini c 2 ( S) = 1 Σ pi i= 1 Αν ένα διαχωριστικό σημείο χωρίζει το σύνολο S σε δύο υποσύνολα, S 1 και S 2, μεγέθους n 1 και n 2 αντίστοιχα: n n ( S) 1 gini( S ) 2 gini( S 1 2 n n gini = + split ) 54
55 Παράδειγμα SLIQ 55
56 Παράδειγμα SLIQ 56
57 Παράδειγμα SLIQ 57
58 Ένα ακόμη παράδειγμα: κατά πλάτος ανάπτυξη μισθός RID RID κλάση Φύλλο ΝΑΙ Ν1 2 ΟΧΙ Ν1 3 ΝΑΙ Ν2 4 ΟΧΙ Ν2 5 ΝΑΙ Ν ΝΑΙ Ν2 Μελετούμε τη διάσπαση των Ν1, Ν2 ταυτόχρονα βάσει μισθού: Εξετάζουμε μία μία τις εγγραφές της αντίστοιχης λίστας Ν1 Ν Ο Ν2 Ν Ο Αρι 0 0 Αρι 0 0 εξ 1 1 εξ 1 3 Ν1 Ν Ο Ν2 Ν Ο Αρι 1 0 Αρι 0 0 εξ 0 1 εξ 1 3 Ν1 Ν Ο Ν2 Ν Ο Αρι 1 0 Αρι 1 0 εξ 0 1 εξ 0 3 Αρχικά (μισθός < 15) Μετά την 1 η εγγραφή Μετά την 2 η εγγραφή (μισθός < 27.5) (μισθός < 50) κ.ο.κ 58
59 Πολυπλοκότητα Αν έχουμε D εγγραφές στο σύνολο εκπαίδευσης και k αριθμητικές ιδιότητες: Σε κάθε επίπεδο του δένδρου έχουμε κόστος O(kD), για την εξέταση όλων των πιθανών ιδιοτήτων διάσπασης. Άρα το κόστος είναι O(kD*depth) depth), όπου depth το βάθος του δένδρου. Αν έχουμε συμβολικές ιδιότητες και κάνουμε δυαδικές διασπάσεις, τότε πρέπει να ληφθεί υπόψιν η συζήτηση στις προηγούμενες διαφάνειες. 59
60 SPRINT (Scalable PaRallelizable INndution of decision Tree) Ο SLIQ απαιτεί η λίστα κλάσης να παραμένει στη μνήμη Πρόβλημα αν αυτό δεν είναι εφικτό Ο SPRINT καταργεί τη λίστα κλάσης προσθέτει την κλάση στις λίστες ιδιοτήτων Κάθε κόμβος έχει τη δική του λίστα ιδιοτήτων υνατότητα για παραλληλισμό 60
61 Λίστες ιδιοτήτων SPRINT 61
62 Ενημέρωση η λιστών Για την ιδιότητα διάσπασης: απλώς διαχωρίζεται η αντίστοιχη λίστα σε 2 άλλες (δυαδική δ ή διάσπαση) δά ) Για τις υπόλοιπες ιδιότητες: ο διαχωρισμός γίνεται βάσει RID 62
63 SPRINT vs. SLIQ SPRINT εν έχει περιορισμό μνήμης Απαιτεί χρόνο ενημέρωσης και επαναποθήκευσης λιστών Παραλληλίζεται εύκολα SLIQ Μειώνει τους περιορισμούς μνήμης αλλά δεν τους εξαλείφει (λίστα κλάσης) Ενημερώνει μόνο τη λίστα κλάσεων (στη μνήμη) εν παραλληλίζεται εύκολα (λόγω μίας κεντρικής λίστας κλάσης) 63
64 Σχετικά με τα μέτρα διάσπασης Το πληροφοριακό όφελος, τείνει να προτείνει διασπάσεις σε πολλά μονοπάτια, σε περίπτωση που εξετάζουμε μη δυαδικά δένδρα. Μπορούμε να μετριάσουμε αυτή την τάση ζυγίζοντας το όφελος με ένα «κόστος διάσπασης». Αυτό το μέτρο λέγεται Gain Ratio. To gini i split δεν έχει τέτοια τάση. 64
65 Οι δύο βασικοί αλγόριθμοι που χρησιμοποιούνται στην πράξη C4.5 (J48 στο WEKA): Χρησιμοποιεί το Gain Ratio Επιτρέπει διάσπαση συμβολικών ιδιοτήτων σε πάνω από 2 παιδιά ιαδέχθηκε το ID3 που χρησιμοποιεί το πληροφοριακό όφελος, δεν κάνει κλάδεμα, δεν χειρίζεται ελλιπείς τιμές και διασπά σε όσα παιδιά όσες και οι διακριτές τιμές μς CART: Χρησιμοποιεί το gini Εφαρμόζει δυαδικές διασπάσεις Και οι 2 αλγόριθμοι χρησιμοποιούν διαφοροποιημένες τεχνικές για pruning, που είναι πιο εξελιγμένες από το REP διαχείριση ελλειπών τιμών 65
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Αποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Υπερπροσαρμογή (Overfitting) (1)
Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών
Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός
ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Δέντρα Απόφασης (Decision(
Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα
Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή
Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach,
Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.
Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:
Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»
Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία
Ταξινόμηση II Σύντομη Ανακεφαλαίωση
0 0 0 Ταξινόμηση II Σύντομη Ανακεφαλαίωση Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος 2007-2008 ΤΑΞΙΝΟΜΗΣΗ
Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κατηγοριοποίηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης
Ευφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 11: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Εξαγωγή Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων Από Δεδομένα-
Διδάσκουσα: Χάλκου Χαρά,
Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Ευφυής Προγραμματισμός
Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Ταξινόμηση I Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός
Δομές Δεδομένων & Αλγόριθμοι
Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν
Μάθηση με παραδείγματα Δέντρα Απόφασης
Μάθηση με παραδείγματα Δέντρα Απόφασης Μορφές μάθησης Επιβλεπόμενη μάθηση (Ταξινόμηση Πρόβλεψη) Παραδείγματα: {(x, t )} t κατηγορία ταξινόμηση t αριθμός πρόβλεψη Μη-επιβλεπόμενη μάθηση (Ομαδοποίηση Μείωση
Ζητήματα ηήμ με τα δεδομένα
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Αναζήτηση Δοθέντος ενός προβλήματος με περιγραφή είτε στον χώρο καταστάσεων
ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων
ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο
Ουρές προτεραιότητας Πελάτες φθάνουν στο ταμείο μιας τράπεζας Eνα μόνο ταμείο είναι ανοικτό Κάθε πελάτης παρουσιάζεται με ένα νούμερο - αριθμός προτεραιότητας Όσο ο αριθμός είναι μεγάλος, τόσο οι πελάτες
Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι
Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης
Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.
Κεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Ανάλυση Συσχέτισης IΙ
Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ
Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή
0 0 0 Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) Ταξινόμηση Οι διαφάνειες στηρίζονται στο P.-N. Tan,
Δομές Δεδομένων και Αλγόριθμοι
Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 1 Εισαγωγή 1 / 14 Δομές Δεδομένων και Αλγόριθμοι Δομή Δεδομένων Δομή δεδομένων είναι ένα σύνολο αποθηκευμένων
Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Μάθηση από Παρατηρήσεις Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος http://ai.uom.gr/aima/ 2 Μορφές μάθησης
Παραμετρική Πολυπλοκότητα και Αλγόριθμοι
Παραμετρική Πολυπλοκότητα και Αλγόριθμοι Πληροφορίες Βιβλίο: e-class: MATH278 Βαθμολογία 2 Πακέτα ασκήσεων Παρουσίαση Βαθμολογία 2 Πακέτα ασκήσεων 2 μονάδες Παρουσίαση Βαθμολογία 2 Πακέτα ασκήσεων 2 μονάδες
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Αλγόριθµοι και Πολυπλοκότητα
Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα Φεβρουαρίου 0 / ένδρα Ενα δένδρο είναι
ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση
ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης
Ουρές προτεραιότητας
Ουρές προτεραιότητας Πελάτες... στο ταµείο µιας τράπεζας Κάθε πελάτης µε ένα νούµερο/αριθµός προτεραιότητας! Όσοοαριθµός είναι µεγάλος, τόσο οι πελάτες είναι πιο ενδιαφέροντες(!) ένα µόνο ταµείο ανοικτό
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2
Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),
Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.
Ανάλογα με το αν ένας αλγόριθμος αναζήτησης χρησιμοποιεί πληροφορία σχετική με το πρόβλημα για να επιλέξει την επόμενη κατάσταση στην οποία θα μεταβεί, οι αλγόριθμοι αναζήτησης χωρίζονται σε μεγάλες κατηγορίες,
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος
Δομές Δεδομένων και Αλγόριθμοι
Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 9 P vs NP 1 / 13 Δυσκολία επίλυσης υπολογιστικών προβλημάτων Κάποια προβλήματα είναι εύκολα να λυθούν με
Διάλεξη 18: B-Δένδρα
Διάλεξη 18: B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή & Ισοζυγισμένα Δένδρα 2-3 Δένδρα, Περιγραφή Πράξεων της Εισαγωγής και άλλες πράξεις Β-δένδρα Διδάσκων: Κωνσταντίνος
Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1
ιαφάνεια 14-1 Κεφάλαιο 14 οµές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. NavatheΕλληνικήΈκδοση, ιαβλος, Επιµέλεια Μ.Χατζόπουλος 1 Θα µιλήσουµε για Τύποι Ταξινοµηµένων Ευρετηρίων
Εισαγωγή ενός νέου στοιχείου. Επιλογή i-οστoύ στοιχείου : Εύρεση στοιχείου με το i-οστό μικρότερο κλειδί
Δομές Αναζήτησης Χειριζόμαστε ένα σύνολο στοιχείων κλειδί από ολικά διατεταγμένο σύνολο όπου το κάθε στοιχείο έχει ένα Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες: Εισαγωγή ενός νέου στοιχείου με
ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ
ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί
HY Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο. Φροντιστήριο 6
HY-180 - Λογική Διδάσκων: Δ. Πλεξουσάκης Εαρινό Εξάμηνο 2015-2016 Φροντιστήριο 6 Α) ΘΕΩΡΙΑ Μέθοδος Επίλυσης (Resolution) Στη μέθοδο της επίλυσης αποδεικνύουμε την ικανοποιησιμότητα ενός συνόλου προτάσεων,
ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ & ΔΙΟΙΚΗΣΗ» ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ
Ασκήσεις μελέτης της 16 ης διάλεξης
Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο
Επίλυση Προβλημάτων και Τεχνικές Αναζήτησης Εισαγωγή
Επίλυση Προβλημάτων και Τεχνικές Αναζήτησης Εισαγωγή επίλυση προβλημάτων μέσω αναζήτησης κάθε πρόβλημα το οποίο μπορεί να διατυπωθεί αυστηρά λύνεται μέσω αναζήτησης. Για τα περισσότερα ενδιαφέροντα προβλήματα
Όρια Αλγόριθμων Ταξινόμησης. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη
Όρια Αλγόριθμων Ταξινόμησης Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη Όρια Αλγόριθμων Ταξινόμησης Μέχρι στιγμής εξετάσθηκαν μέθοδοι ταξινόμησης µε πολυπλοκότητα της τάξης Θ ) ή Θlog ). Τι εκφράζει
Βιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2013-2014 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητή: ένα χαρακτηριστικό ή ιδιότητα που μπορεί να πάρει διαφορετικές τιμές
Κατώτερα φράγματα Κατώτερο φράγμα: εκτίμηση της ελάχιστης εργασίας που απαιτείται για την επίλυση ενός προβλήματος. Παραδείγματα: Αριθμός συγκρίσεων π
Περιορισμοί Αλγοριθμικής Ισχύος Κατηγοριοποίηση πολυπλοκοτήτων Κατώτερα φράγματα Κατώτερο φράγμα: εκτίμηση της ελάχιστης εργασίας που απαιτείται για την επίλυση ενός προβλήματος. Παραδείγματα: Αριθμός
ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33
ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος του συγγραφέα... 13 Πρόλογος του καθηγητή Τιμολέοντα Σελλή... 15 ΚΕΦΑΛΑΙΟ 1: Εργαλεία γλωσσών προγραμματισμού...17 1.1 Γλώσσες προγραμματισμού τρίτης γεννεάς... 18 τι είναι η γλώσσα
Διδάσκων: Παναγιώτης Ανδρέου
Διάλεξη 12: Δέντρα ΙΙ -Δυαδικά Δέντρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Δυαδικά Δένδρα - Δυαδικά Δένδρα Αναζήτησης(ΔΔΑ) - Εύρεση Τυχαίου, Μέγιστου, Μικρότερου στοιχείου - Εισαγωγή
Βιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό
Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες
Επιλογές και Κριτήρια Σχεδιασμού ΑΤΔ Ανεξαρτήτως από Γλώσσα Υλοποίησης 24/4/2012
Επιλογές και Κριτήρια Σχεδιασμού ΑΤΔ Ανεξαρτήτως από Γλώσσα Υλοποίησης 24/4/2012 Κύκλος (Ζωής) Λογισμικού (ΑΤΔ) Γενικά Ορισμός ΑΤΔ (Προδιαγραφές) Οργάνωση Δεδομένων Τι κάνει Υλοποίηση Σχεδιασμός (ανεξάρτητος
Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο
Πολλαπλασιασμός μεγάλων ακεραίων (1) Για να πολλαπλασιάσουμε δύο ακεραίους με n 1 και n 2 ψηφία με το χέρι, θα εκτελέσουμε n 1 n 2 πράξεις πολλαπλασιασμού Πρόβλημα ρβημ όταν έχουμε πολλά ψηφία: A = 12345678901357986429
i Σύνολα w = = = i v v i=
ΜΕΤΡΑ ΘΕΣΗΣ ΆΣΚΗΣΗ Η βαθμολογία στα 0 μαθήματα ενός μαθητή είναι: 3, 9, 6, 0, 5,,, 0, 0, 4. Να υπολογίσετε: α) Τη μέση τιμή. β) Τη διάμεσο. Απάντηση t t + t + t 0 = = = = 3 + 9 + 6 + 0 + 5 + + + 0 + 0
Επίλυση Προβλημάτων 1
Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης
Μηχανική Μάθηση: γιατί;
Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile
Τηλεπικοινωνιακά Συστήματα ΙΙ
Τηλεπικοινωνιακά Συστήματα ΙΙ Διάλεξη 11: Κωδικοποίηση Πηγής Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ατζέντα 1. Αλγόριθμοι κωδικοποίησης πηγής Αλγόριθμος Fano Αλγόριθμος Shannon Αλγόριθμος Huffman
Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΚΤΥΩΝ Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού Διπλωματική Εργασία του Βασιλακάκη Αναστάσιου(ΑΕΜ:243) Επιβλέπων Καθηγητής:
ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.
ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ. Στατιστική με το SPSS Ως επιστήμονες, χρειαζόμαστε τη Στατιστική για 2 κυρίους λόγους: 1. Για
«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»
Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»
Θέμα 1: Robbie και Αναζήτηση
Θέμα : Robbie και Αναζήτηση Ο Robbie, το ρομπότ του παρακάτω σχήματος-χάρτη, κατά τη διάρκεια των εργασιών που κάνει διαπιστώνει ότι πρέπει να γυρίσει όσο το δυνατόν πιο γρήγορα, από την τρέχουσα θέση,
Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort
Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ Ενότητα 7β: Όρια Αλγόριθμων Ταξινόμησης Μαρία Σατρατζέμη Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commos.
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Διαδικαστικά Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile
Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar
Ταξινόμηση Lecture Notes for Chapter 4 Introduction to Data Mining by Tan, Steinbach, Kumar Εισαγωγή Ταξινόμηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μια ή περισσότερες
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις
Ενότητες 3 & 4: Δένδρα, Σύνολα & Λεξικά Ασκήσεις και Λύσεις
Ενότητες 3 & 4: Δένδρα, Σύνολα & Λεξικά Ασκήσεις και Λύσεις Άσκηση 1 Γράψτε μία αναδρομική συνάρτηση που θα παίρνει ως παράμετρο ένα δείκτη στη ρίζα ενός δυαδικού δένδρου και θα επιστρέφει το βαθμό του
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 2: Επεξεργασία Δεδομένων Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Βιοστατιστική ΒΙΟ-309
Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό
h/2. Άρα, n 2 h/2-1 h 2log(n+1). Πως υλοποιούµε τη LookUp()? Πολυπλοκότητα?
Κόκκινα-Μαύρα ένδρα (Red-Black Trees) Ένα κόκκινο-µαύρο δένδρο είναι ένα δυαδικό δένδρο αναζήτησης στο οποίο οι κόµβοι µπορούν να χαρακτηρίζονται από ένα εκ των δύο χρωµάτων: µαύρο-κόκκινο. Το χρώµα της
Αφηρημένες Δομές Δεδομένων. Στοίβα (Stack) Υλοποίηση στοίβας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής ισαγωγή στην πιστήμη των Υπολογιστών 2015-16 λγόριθμοι και ομές εδομένων (IΙ) (γράφοι και δένδρα) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης φηρημένες
ΕΝΟΤΗΤΑ 4 ΣΥΝΟΛΑ - ΛΕΞΙΚΑ
ΕΝΟΤΗΤΑ 4 ΣΥΝΟΛΑ - ΛΕΞΙΚΑ ΗΥ240 - Παναγιώτα Φατούρου Σύνολα (Sets) Τα µέλη ενός συνόλου προέρχονται από κάποιο χώρο U αντικειµένων/στοιχείων (π.χ., σύνολα αριθµών, λέξεων, ζευγών αποτελούµενων από έναν
Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1
Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Βασικές τεχνικές κωδικοποίησης Κωδικοποίηση Huffman Κωδικοποίηση µετασχηµατισµών Κβαντοποίηση διανυσµάτων ιαφορική κωδικοποίηση Τεχνολογία
MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Δομές Δεδομένων. Ενότητα 13: B-Δέντρα/AVL-Δέντρα. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων
Ενότητα 13: B-Δέντρα/AVL-Δέντρα Καθηγήτρια Μαρία Σατρατζέμη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
ΕΡΩΤΗΜΑΤΑ σε ΑΝΑΖΗΤΗΣΗ
ηµήτρης Ψούνης ΠΛΗ31, Απαντήσεις Ερωτήσεων Quiz - ΑΝΑΖΗΤΗΣΗ 1 ΕΡΩΤΗΜΑΤΑ σε ΑΝΑΖΗΤΗΣΗ ΕΡΩΤΗΜΑ 1 Έστω h µία παραδεκτή ευρετική συνάρτηση. Είναι η συνάρτηση h ½ παραδεκτή; a. Ναι, πάντα. b. Όχι, ποτέ. c.
Ταξινόμηση ΙI. Σύντομη Επανάληψη. Εισαγωγή Κατασκευή έντρου Απόφασης. Εξόρυξη Δεδομένων
Ταξινόμηση ΙI Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Σύντομη Επανάληψη Εισαγωγή Κατασκευή έντρου Απόφασης Εξόρυξη Δεδομένων:
Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ουρές Προτεραιότητας. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο
Δομές Δεδομένων Ουρές Προτεραιότητας Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρά Προτεραιότητας Το πρόβλημα Έχουμε αντικείμενα με κλειδιά και θέλουμε ανά πάσα στιγμή
Μέθοδοι μονοδιάστατης ελαχιστοποίησης
Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν
Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1
Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1 Κεφάλαιο 14 Δομές Ευρετηρίων για Αρχεία Copyright 2007 Ramez Elmasri and Shamkant B. Navathe Ελληνική Έκδοση, Διαβλος, Επιμέλεια Μ.Χατζόπουλος Θα μιλήσουμε
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 2006-2007 2η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 2006-2007 2η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ 1. ίνεται το γνωστό πρόβληµα των δύο δοχείων: «Υπάρχουν δύο δοχεία
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Αλγόριθμοι Τυφλής Αναζήτησης Οι αλγόριθμοι τυφλής αναζήτησης εφαρμόζονται σε
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται