Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων
|
|
- Βαρβάρα Βουρδουμπάς
- 7 χρόνια πριν
- Προβολές:
Transcript
1 Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και μηχανική μάθηση υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων Ένας αλγόριθμος κλιμακώνεται αν ο χρόνος εκτέλεσής του αυξάνεται ανάλογα (γραμμικά) με το μέγεθος του συνόλου δεδομένων για δοσμένους πόρους του συστήματος Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 2 Τι σημαίνει ο ορισμός: Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εισαγωγή Επιλογή εδομένων (Data Selection) Η ιαδικασία Ανακάλυψης Γνώσης The Knowledge Discovery Process (KDD) - Η ιαδικασία Ανακάλυψης Γνώσης σε Βάσεις εδομένων Προσδιορισμός του συνόλου δεδομένων και των σχετικών γνωρισμάτων που μας ενδιαφέρουν στα οποία θα γίνει η εξόρυξη Ερωτήσεις SQL (βασίζονται στη σχεσιακή άλγεβρα) Ερωτήσεις OLAP (υψηλότερου επιπέδου σύνταξη που βασίζεται στη χρήση του πολυδιάστατου μοντέλου δεδομένων) Τεχνικές Εξόρυξης εδομένων Καθαρισμός εδομένων Data Cleaning Εξόρυξη εδομένων Αξιολόγηση (Evaluation) Απομάκρυνση θορύβου και των προς εξαίρεση τιμών (outliers), μετασχηματισμός των τιμών των πεδίων σε κοινές μονάδες μέτρησης, δημιουργία νέων πεδίων, αποθήκευση των δεδομένων σε σχεσιακό σχήμα Παρουσίαση των προτύπων με ένα τρόπο κατανοητό στον τελικό χρήστη (π.χ., μέσω τεχνικών οπτικοποίησης) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 3 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 4 Counting Co-Occurrence (Απαρίθμηση Ταυτόχρονων Εμφανίσεων) Το καλάθι της νοικοκυράς (market basket) είναι μια συλλογή στοιχείων (collection of items) που αγοράστηκαν από ένα πελάτη κατά τη διάρκεια μιας μοναδικής συναλλαγής του (transaction) Στόχος: Εντοπισμός των αντικειμένων που εμφανίζονται μαζί σε μια συναλλαγή Transaction εδώ δεν έχει την αυστηρή έννοια Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 5 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 6 1
2 Transid custid date item qty Μια συναλλαγή Παρατηρείστε ότι υπάρχει επανάληψη πληροφορίας Παράδειγμα Παρατηρήσεις του τύπου: σε 75% των συναλλαγών αγοράστηκαν μαζί και μελάνι και πένες Στοιχειοσύνολο (Itemset): είναι ένα σύνολο από αντικείμενα Υποστήριξη ενός στοιχειοσυνόλου (Support of an itemset): το ποσοστό των συναλλαγών της βάσης δεδομένων που περιέχουν όλα τα στοιχεία του στοιχειοσυνόλου Παράδειγμα: Στοιχειοσύνολο {pen, ink} Υποστήριξη 75% Στοιχειοσύνολο {milk, juice} Υποστήριξη 25% Μας ενδιαφέρουν στοιχειοσύνολα με μεγάλη υποστήριξη, γιατί; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 7 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 8 : Στοιχειοσύνολα των οποίων η υποστήριξη είναι μεγαλύτερη από κάποια ελάχιστη υποστήριξη (minimum support, minsup) που θέτουν οι χρήστες Έναν αλγόριθμο που να εντοπίζει (όλα) τα συχνά στοιχειοσύνολα Οπιο απλός αλγόριθμος, Παράδειγμα: Αν minsup = 70%, : {pen}, {ink}, {milk}, {pen, ink}, {pen, milk} For k = 1 to n Κατασκεύασε όλα τα δυνατά στοιχειοσύνολα με k στοιχεία έλεγξε αν είναι συχνά Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 9 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 10 Παράδειγμα Transid custid date item qty Έστω minsum = 70% k=1 {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι k = 2 {pen, ink} 3/4 ok {pen, milk} 3/4 ok {pen, juice} κλπ Μπορούμε να κάνουμε κάτι καλύτερο; Η ιδιότητα a priory: Κάθε υποσύνολο ενός συχνού συνόλου πρέπει να αποτελεί επίσης ένα συχνό σύνολο Γιατί; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 11 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 12 2
3 Αλγόριθμος For each item, check if it is a frequent itemset /* δηλαδή, αν υπάρχει > minsum συναλλαγές */ k = 1 repeat Until n for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Βελτιωμένος Αλγόριθμος Εύρεσης Συχνών Στοιχειοσυνόλων For each item, check if it is a frequent itemset k = 1 repeat for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 whose subsets are frequent itemsets Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Until no new frequent itemsets are identified Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 13 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 14 Παράδειγμα Transid custid date item qty Έστω minsum = 70% {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι {pen, ink} 3/4 ok {pen, milk} 3/4 ok {ink, milk} 2/4 όχι Άρα τέλος Αποτέλεσμα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 15 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 16 Ερωτήσεις Τύπου Παγόβουνου Ερωτήσεις Τύπου Παγόβουνου Υποθέστε ότι θέλουμε να βρούμε ζεύγη αγοραστών και στοιχείων τέτοιων ώστε ο αγοραστής τους να έχει αγοράσει το στοιχείο τουλάχιστον 5 φορές select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item Πως θα υπολογιζόταν αυτή ερώτηση σε ένα σχεσιακό Σ Β ; Ο αριθμός των ομάδων είναι πολύ μεγάλος αλλά η απάντηση στην ερώτηση (η κορυφή του παγόβουνου) είναι πολύ μικρή Iceberg query (Ερώτηση τύπου παγόβουνου) select R.A1, R.A2,, R.Ak, aggregate (R.B) from Relation R group by R.A1, R.A2,, R.Ak having aggregate (R.B) > = constant Μπορείτε να παρατηρείστε κάποια ιδιότητα a priory παρόμοια με αυτήν στην περίπτωση των συχνών στοιχειοσυνόλων; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 17 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 18 3
4 select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item Ερωτήσεις Τύπου Παγόβουνου Αρκεί να εξετάσουμε μόνο εκείνες τις τιμές για το custid που αφορά πελάτες που έχουν αγοράσει τουλάχιστον 5 στοιχεία συνολικά (όχι απαραίτητα το ίδιο στοιχείο) Q1: select P.custid from Purchases P group by P.custid Q2: Ερωτήσεις Τύπου Παγόβουνου Αντίστοιχα, αρκεί να εξετάσουμε μόνο εκείνες τις τιμές για το item που αφορούν στοιχεία που έχουν αγοραστεί 5 φορές συνολικά (όχι απαραίτητα από τον ίδιο πελάτη) select P.item from Purchases P group by P.item Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 19 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 20 select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item select P.custid from Purchases P Q1 group by P.custid Ερωτήσεις Τύπου Παγόβουνου select P.item from Purchases P group by P.item ημιουργία (custid, item) ζευγών μόνο για custid από την Q1 και item από την Q2 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 21 Q2 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 22 LHS RHS Παράδειγμα {pen} {ink} Αν ένα στοιχείο pen αγοράζεται σε μια συναλλαγή, τότε είναι πιθανό ότι αγοράζεται και το στοιχείο ink Γενικά, συνδυαστικός κανόνας (association rule) LHS RHS Όπου LHS και RHS είναι στοιχειοσύνολα Υποστήριξη (support): support(lhs RHS) Το ποσοστό των συναλλαγών που περιέχουν όλα τα στοιχεία του (LHS RHS) Εμπιστοσύνη (confidence): support(lhs RHS) / support(lhs) Μια ένδειξη της ισχύος του κανόνα P(RHS LHS) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 23 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 24 4
5 Παράδειγμα Transid custid date item qty pen milk (K1) support(k1) = 75% confidence(k1) = 75% milk pen (K2) support(k2) = 75% confidence(k2) = 100% Έναν αλγόριθμο εύρεσης όλων των κανόνων με ελάχιστο minsup και ελάχιστο minconf Ελάχιστο minsum, support(lhs RHS) minsum Βήμα 1: Βρες όλα τα συχνά στοιχειοσύνολα με minsup Βήμα 2: Παρήγαγε όλους τους κανόνες από το Βήμα 1 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 25 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 26 Παράδειγμα Transid custid date item qty Αποτέλεσμα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} υνατοί κανόνες pen ink ink pen pen milk milk pen Βήμα 2 For each frequent itemset I with support support(i) Divide I into LHS I and RHS I confidence = support(i) / support(lhs I ) Παρατήρηση Τα support(i) και support(lhs I ) τα έχουμε ήδη υπολογίσει σε προηγούμενα βήματα του αλγορίθμου εύρεσης συχνών στοιχειοσυνόλων Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 27 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 28 και Ιεραρχίες ISA Γενικευμένοι Μια ISA ιεραρχία ή ιεραρχία κατηγοριών (category hierarchy) ανάμεσα στα σύνολα των στοιχείων: μια συναλλαγή εμμέσως περιέχει για κάθε στοιχείο και όλα τα στοιχεία που είναι προγονοί του στην ιεραρχία Beverage Milk Juice Pen Stationery Ink Επιτρέπει τον εντοπισμό σχέσεων μεταξύ στοιχείων που ανήκουν σε διαφορετικά επίπεδα της ιεραρχίας Γενικά, η υποστήριξη (support) ενός στοιχείου μπορεί μόνο να αυξηθεί με την αντικατάσταση του στοιχείου από κάποιο πρόγονο του στην ιεραρχία Πιο γενικά: όχι μόνο συναλλαγές αγοραστών Transid custid date item qty π.χ., Ομαδοποίηση πλειάδων με βάση το custid Ο κανόνας {pen} {milk}: αν το στοιχείο pen αγοραστεί από κάποιο πελάτη είναι πιθανό ότι ο πελάτης θα αγοράσει και το στοιχείο milk (με υποστήριξη και εμπιστοσύνη 100%) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 29 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 30 5
6 Γενικευμένοι Γενικευμένοι Ομαδοποίηση πλειάδων με βάση την ημερομηνία: Ημερολογιακή ανάλυση του καλαθιού της νοικοκυράς (Calendric market basket analysis) Ένα ημερολόγιο (calendar) είναι μια οποιαδήποτε ομάδα ημερομηνιών (π.χ., κάθε πρώτη του μήνα) οσμένου ενός ημερολογίου, υπολόγισε τους συνδυαστικούς κανόνες που αφορούν πλειάδες που έχουν πραγματοποιηθεί σε ημερομηνίες που ανήκουν στο ημερολόγιο Ημερολόγιο: κάθε πρώτη του μήνα Ο κανόνας {pen} {juice}: έχει support 100% Ενώ γενικά: 50% Ο κανόνας {pen} {milk}: έχει support 50% Ενώ γενικά: 75% Transid custid date item qty Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 31 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 32 Ακολουθιακά Πρότυπα Ακολουθία (sequence) στοιχειοσυνόλων: Η ακολουθία των στοιχείων που αγοράστηκαν από τον πελάτη: Παράδειγμα custid 201: {pen, ink, milk, juice}, {pen, ink, juice} (διάταξη με βάση την ημερομηνία -ordered by date) Μια υπο-ακολουθία (subsequence) μιας ακολουθίας στοιχειοσυνόλων προκύπτει διαγράφοντας ένα ή περισσότερα στοιχειοσύνολα και αποτελεί επίσης μια ακολουθία στοιχειοσυνόλων Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 33 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 34 Ακολουθιακά Πρότυπα Μια ακολουθία a 1, a 2,.., a n περιέχεται σε μια ακολουθία S αν η S έχει μια υπο-ακολουθία b q,.., b m such that a i b i for 1 i m Παράδειγμα {pen, ink}, {shirt}, {juice, ink, milk}, {juice, pen, milk} Υπακολουθία: {pen}, {ink, milk}, {pen, juice} (δηλαδή περιέχεται στην {pen, ink}, {shirt}, {juice, ink, milk}, {juice, pen, milk}) Η σειρά των στοιχείων σε κάθε στοιχειοσύνολο δεν έχει σημασία αλλά η σειρά των στοχειοοσυνόλων στην ακολουθία έχει Ακολουθιακά Πρότυπα Η υποστήριξη μια ακολουθίας στοιχειοσυνόλων S είναι το ποσοστό των ακολουθιών του πελάτη των οποίων η S είναι υπο-ακολουθία Βρες όλες τις ακολουθίες που έχουν μια ελάχιστη υποστήριξη {pen}, {ink, milk}, {pen, juice} δεν περιέχεται στην {pen, ink}, {shirt}, {juice, pen, milk}, {juice, milk, ink} Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 35 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 36 6
7 Εξόρυξη εδομένων (στο επόμενο μάθημα) Ανακάλυψη ενδιαφερόντων τάσεων ή προτύπων σχημάτων μέσα σε μεγάλα σύνολα δεδομένων με σκοπό να καθοδηγήσει μελλοντικές αποφάσεις υνατότητα Κλιμάκωσης Τα Τέσσερα Στάδια της ιαδικασίας Ανακάλυψης Γνώσης σε Βάσεις εδομένων (KDD Knowledge Discovery in Databases): 1. Επιλογή εδομένων, 2. Καθαρισμός εδομένων, 3. Εξόρυξη εδομένων, 4. Αξιολόγηση Μερικά links ( για Β ) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 37 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά Κατηγορίες Εξόρυξης εδομένων το καλάθι της νοικοκυράς: ποια στοιχεία αγοράζονται μαζί 2. ανακάλυψη διαφόρων τύπων κανόνων που περιγράφουν με περιεκτικό τρόπο τα δεδομένα 3. ο χωρισμός ενός συνόλου έγγραφων σε ομάδες τέτοιες ώστε οι εγγραφές μέσα σε κάθε ομάδα να είναι όμοιες μεταξύ τους, ενώ οι εγγραφές σε διαφορετικές ομάδες να είναι ανόμοιες Κατηγορίες Εξόρυξης εδομένων Προηγούμενο Μάθημα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 39 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά (frequent itemsets) Ποια σύνολα στοιχείων εμφανίζονται μαζί σε «αρκετές» συναλλαγές Υποστήριξη (support) ενός στοιχειοσυνόλου: το ποσοστό των συναλλαγών της βάσης δεδομένων που περιέχουν όλα τα στοιχεία του minsup ελάχιστη υποστήριξη Η ιδιότητα a priori: κάθε υποσύνολο ενός συχνού συνόλου πρέπει επίσης να αποτελεί συχνό υποσύνολο 2. Αιτήματα Τύπου Παγόβουνου (iceberg queries) select R.A1, R.A2,, R.Ak, aggregate (R.B) from Relation R group by R.A1, R.A2,, R.Ak having aggregate (R.B) > = constant Ψάχνουμε τα στοιχεία της ομάδας με τιμές που ικανοποιούν τη συνθήκη (την κορυφή του παγόβουνου) Μια αντίστοιχη ιδιότητα a priori. Ποια; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 41 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 42 7
8 LHS RHS, όπου LHS και RHS είναι στοιχειοσύνολα Υποστήριξη του κανόνα: sup(lhs RHS) Εμπιστοσύνη (confidence) του κανόνα: sup(lhs RHS)/sup(LHS) Γενικεύσεις: (α) Χρήση Ιεραρχιών (β) Γενικευμένοι Κανόνες: Ομαδοποίηση όχι απαραίτητα με βάση τη συναλλαγή, αλλά πχ ημερολογιακή ανάλυση του καλαθιού της νοικοκυράς (γ) Ακολουθιακά Πρότυπα Σχήματα Ακολουθίες στοιχειοσυνόλων Υπακολουθία αν διαγράψουμε κάποια στοιχειοσύνολα Ψάχνουμε για όλες τις ακολουθίες που έχουν την ελάχιστη υποστήριξη (ποσοστό ακολουθιών των οποίων αποτελούν υπακολουθία) Οι συνδυαστικοί κανόνες μπορεί να χρησιμοποιηθούν στην πρόβλεψη {pen} {ink} Η εμπιστοσύνη του κανόνα είναι η υπό συνθήκη πιθανότητα να αγοραστεί ένα στοιχείο ink όταν έχει αγοραστεί ένα στοιχείο pen Αιτιατός σύνδεσμος μεταξύ των αγορών ιάφορες πολιτικές προώθησης Γενική αναπαράσταση ίκτυα Bayes Κόμβοι: μεταβλητή ή γεγονός (πχ αγορά ink) Ακμές: Αιτιότητα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 43 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 44 Κατηγορίες Εξόρυξης εδομένων Κανόνες Κατηγοριοποίησης και Παλινδρόμησης InsuranceInfo(age: integer, cartype: string, highrisk: boolean) Υπάρχει ένα γνώρισμα (highrisk: ΥψηλούΚινδύνου) του οποίου την τιμή θα θέλαμε να προβλέψουμε: Εξαρτημένο Γνώρισμα Τα άλλα γνωρίσματα ονομάζονται προβλέποντα γνωρίσματα (predictors) Ηγενική μορφή των κανόνων που θέλουμε να προβλέψουμε είναι: P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Προβλέποντα γνωρίσματα Εξαρτημένο γνώρισμα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 45 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 46 Κανόνες Κατηγοριοποίησης και Παλινδρόμησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c P i (X i ) είναι κατηγορήματα (predicates) σχετικά με τα γνωρίσματα X i ύο τύποι γνωρισμάτων: αριθμητικά P i (X i ) : l i X i h i κατηγοριακά (categorical) P i (X i ) : X i {v 1,, v j } αριθμητικό εξαρτημένo γνώρισμα κανόνας παλινδρόμησης κατηγοριακό εξαρτημένο γνώρισμα κανόνας κατηγοριοποίησης (16 age 25) (cartype {Sports, Truck}) highrisk = true Κανόνες Κατηγοριοποίησης και Παλινδρόμησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Υποστήριξη: Η υποστήριξη για μια συνθήκη C είναι το ποσοστό των πλειάδων που ικανοποιούν την C. Η υποστήριξη του κανόνα C1 C2 είναι η υποστήριξη της συνθήκης C1 C2 Εμπιστοσύνη: Έστω όλες οι πλειάδες που ικανοποιούν τη συνθήκη C1. Η εμπιστοσύνη του κανόνα C1 C2 είναι το ποσοστό των πλειάδων αυτών που ικανοποιούν και τη συνθήκη C2 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 47 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 48 8
9 Κανόνες Κατηγοριοποίησης και Παλινδρόμησης Γενικεύοντας P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = f(x 1, X 2,, X k ) Η διαφορά από τους συνδυαστικούς κανόνες είναι ότι θεωρούν συνεχή και κατηγοριακά γνωρίσματα και όχι μόνο ένα πεδίο με πολλαπλές καθορισμένες τιμές Πολλές εφαρμογές, π.χ. σε επιστημονικά πειράματα, προώθηση προϊόντων με το ταχυδρομείο, προβλέψεις χρηματοοικονομικών μεγεθών, ιατρικές προγνώσεις έντρα αποφάσεων ή δέντρα κατηγοριοποίησης έντρα Παλινδρόμησης Συνήθως το ίδιο το δέντρο είναι το αποτέλεσμα της εξόρυξης δεδομένων Εύκολο να κατανοηθεί Αποδοτικοί αλγόριθμοι για την κατασκευή του Θα δούμε στη συνέχεια έναν ειδικό τύπο τους Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 49 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 50 Παράδειγμα δέντρου Γραφική απεικόνιση μια συλλογής κανόνων κατηγοριοποίησης. <= 25 Car Type Age > 25 No Εσωτερικοί κόμβοι: ετικέτα (labeled) με ένα προβλέπον γνώρισμα (που ονομάζεται και διαχωρίζον γνώρισμα - splitting attribute) Εξερχόμενες ακμές: έχουν ως ετικέτα το κατηγόρημα που περιλαμβάνει το διαχωρίζον γνώρισμα του κόμβου (κριτήριο διαχωρισμού του κόμβου - splitting criterion) ξένα μεταξύ τους Other Sports, Truck Φύλλα: έχουν ως ετικέτα το κατηγόρημα - μια τιμή του εξαρτώμενου γνωρίσματος No Yes Θα εξετάσουμε δυαδικά δέντρα αποφάσεων αλλά μπορεί να έχουμε και δέντρα υψηλότερου βαθμού Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 51 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 52 οσμένης μια εγγραφής δεδομένων το δέντρο οδηγεί από τη ρίζα σε ένα φύλλο. Age Μπορούμε να κατασκευάσουμε κανόνες κατηγοριοποίησης > 25 <= 25 ακολουθώντας κάθε μονοπάτι από τη ρίζα σε φύλλο: Car Type No LHS σύζευξη των κατηγορημάτων, RHS η τιμή του φύλλου Other Sports, Truck Ένας κανόνας για κάθε φύλλο No Yes (16 age 25) (cartype {Sports, Truck}) highrisk = true Κατασκευή σε δύο φάσεις ΦΑΣΗ 1: φάση ανάπτυξης κατασκευή ενός πολύ μεγάλου δέντρου (π.χ., ένα φύλλο για κάθε εγγραφή της βάσης δεδομένων) ΦΑΣΗ 2: φάση κλαδέματος Κατασκευή του δέντρου greedily από πάνω προς τα κάτω: Στη ρίζα εξέτασε τη βάση δεδομένων και επέλεξε το καλύτερο κριτήριο διαχωρισμού (τοπικά βέλτιστο κριτήριο) ιαμέρισε τη βάση σε δύο μέρη Εφάρμοσε αναδρομικά σε κάθε παιδί Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 53 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 54 9
10 Input: κόμβος n, διαμέρισμα D, μέθοδος επιλογής διαχωρισμού S Output: δέντρο απόφασης για το D με ρίζα τον κόμβο n Top down Decision Tree Induction Schema BuildTree(node n, partition D, method S) Apply S to D to find the splitting criterion If (a good splitting criterion is found) create two children nodes n1 and n2 of n partition D into D1 and D2 BuildTree(n1, D1, S) Build Tree(n2, D2, S) Μέθοδος επιλογής διαχωρισμού Ένας αλγόριθμος που παίρνει ως είσοδο μια σχέση (ή ένα τμήμα μιας σχέσης) και δίνει ως έξοδο το τοπικά βέλτιστο κριτήριο Παράδειγμα: εξετάστε τα γνωρίσματα cartype και age, επέλεξε ένα από αυτό ως γνώρισμα διαχωρισμού και μετά επέλεξε το κατηγόρημα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 55 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 56 Πως μπορούμε να κατασκευάσουμε δέντρα αποφάσεων που είναι μεγαλύτερα από τη κύρια μνήμη; Αντί να φορτώσουμε όλη τη βάση δεδομένων στη μνήμη: ίνουμε στη μέθοδο επιλογής διαχωρισμού συναθροιστική πληροφορία για τα γνωρίσματα Χρειαζόμαστε συναθροιστική πληροφορία για κάθε γνώρισμα πρόβλεψης Σύνολο AVC (Attribute-Value Class label) του γνωρίσματος πρόβλεψης Χ στον κόμβο n είναι η προβολή του διαμερίσματος της βάσης δεδομένων του κόμβου n στο X και στο εξαρτημένο γνώρισμα όπου συναθροίζονται οι συχνότητες (counts) των διακριτών τιμών του εξαρτημένου γνωρίσματος age cartype highrisk 23 Sedan false 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true 30 Truck false 25 Sports true 18 Sedan false Σύνολο AVC του γνωρίσματος πρόβλεψης age στη ρίζα select R.age, R.highrisk, count(*) from InsuranceInfo R group by R.age, R.highrisk true false 18 O Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 57 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 58 age cartype highrisk 23 Sedan false Σύνολο AVC του γνωρίσματος πρόβλεψης cartype στη ρίζα age cartype highrisk 23 Sedan false Σύνολο AVC του γνωρίσματος πρόβλεψης cartype στο αριστερό παιδί της ρίζας 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true select R.cartype, R.highrisk, count(*) from InsuranceInfo R group by R.cartype, R.highrisk 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true select R.cartype, R.highrisk, count(*) from InsuranceInfo R where R.age <=25 group by R.cartype, R.highrisk 30 Truck false 25 Sports true 18 Sedan false true false Sedan 0 4 Sports 1 1 Truck Truck false 25 Sports true 18 Sedan false true false Sedan 0 2 Sports 1 0 Truck 2 0 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 59 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 60 10
11 Ποιο είναι το μέγεθος του συνόλου AVC; Ομάδα AVC ενός κόμβου n: το σύνολο των AVC συνόλων όλων των γνωρισμάτων πρόβλεψης στον κόμβο n Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 61 Input: node n partition D split selection method S Output: decision tree for D rooted at node n Top down Decision Tree Induction Schema BuildTree(node n, partition D, method S) Make a scan over D and construct the AVC group of node n in memory Apply S to AVC group to find the splitting criterion If (a good splitting criterion is found) create two children nodes n1 and n2 of n partition D into D1 and D2 BuildTree(n1, D1, S) Build Tree(n2, D2, S) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 62 ιαμέριση ενός συνόλου εγγραφών σε ομάδες συγκροτήματα (clusters) έτσι ώστε όλες οι εγγραφές που ανήκουν σε μια ομάδα να είναι όμοιες μεταξύ τους και οι εγγραφές που ανήκουν σε διαφορετικές ομάδες να είναι ανόμοιες Η ομοιότητα μεταξύ των εγγραφών υπολογίζεται βάσει μιας συνάρτησης απόστασης distance function. Εξαρτάται από τον τύπο των δεδομένων και την εφαρμογή Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 63 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 64 CustomerInfo(age: integer, salary:real) Η έξοδος ενός αλγορίθμου συγκρότησης είναι μία συνοπτική αναπαράσταση κάθε συγκροτήματος Salary Η μορφή του αποτελέσματος εξαρτάται από τον τύπο και το σχήμα των συγκροτημάτων Για παράδειγμα, για σφαιρικά συγκροτήματα, έξοδος: κέντρο C (μέσο) and ακτίνα R: δοσμένου μιας συλλογής εγγραφών r 1, r 2,.., r n Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 65 Age Μπορούμε να εντοπίσουμε τρία συγκροτήματα (clusters) το σχήμα τους σφαιρικό C = r i R = (r i -C) n n Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 66 11
12 ύο κατηγορίες αλγορίθμων συγκρότησης: Αλγόριθμος ιαχωρισμού: διαμερίζει τα δεδομένα σε k συγκροτήματα έτσι ώστε να βελτιστοποιείται η τιμή κάποιου κριτηρίου το k συνήθως προσδιορίζεται από τον χρήστη Ιεραρχικός Αλγόριθμος παράγει μια ακολουθία από διαμερίσεις των δεδομένων. Ξεκινώντας από μια διαμέριση όπου κάθε εγγραφή αποτελεί ένα συγκρότημα, σε κάθε βήμα συγχωνεύει και δυο συγκροτήματα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 67 Ο αλγόριθμος BIRCH: Υποθέσεις Μεγάλος αριθμός εγγραφών, μόνο ένα πέρασμα Περιορισμένη μνήμη ύο παράμετροι k: όριο διαθεσιμότητας κύριας μνήμης: μέγιστος αριθμός συνοπτικών αναπαραστάσεων συγκροτημάτων που μπορούν αν καταχωρηθούν στην κύρια μνήμη e: αρχικό όριο της ακτίνας κάθε συγκροτήματος καθορίζει και τον αριθμό των συγκροτημάτων. Ένα συγκρότημα είναι συμπαγές αν η ακτίνα του είναι μικρότερη από e. Πάντα διατήρησε στην κύρια μνήμη k ή λιγότερα συμπαγή συγκροτήματα (Ci, Ri) (Αν αυτό δεν είναι δυνατόν, τροποποίησε το e) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 68 Ο αλγόριθμος BIRCH: Read a record r from the database /* διάβασε τις εγγραφές σειριακά */ Compute the distance of r and each of the existing cluster centers Let i be the cluster (index) such that the distance between r and C i is the smallest /* i: το πιο κοντινό συγκρότημα */ Compute R i assuming r is inserted in the ith cluster /* υπολόγισε τη νέα ακτίνα */ Ο αλγόριθμος BIRCH: Μέγιστος αριθμός συγκροτημάτων -> τροποποίησε το e Αποδοτικοί τρόποι εντοπισμού του κοντινότερου συγκροτήματος, π.χ., χρήση Β+ δέντρων If R i e, /* μικρότερη, το συγκρότημα παραμένει συμπαγές, επισύναψε το r */ insert r in the ith cluster recompute R i and C i else /* μεγαλύτερη δημιούργησε νέο συγκρότημα */ start a new cluster containing only r Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 69 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 70 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 71 Ο χρήστης καθορίζει μία ακολουθία αίτημα (query sequence) και θέλει να ανακτήσει όλες τις ακολουθίες δεδομένων που είναι όμοιες με αυτήν Όχι απαραίτητα να ταιριάζουν ακριβώς (Not exact matches) Μια ακολουθία δεδομένων (data sequence) X είναι μια σειρά αριθμών X = <x 1, x 2,.., x k > Συχνά ονομάζεται και χρονολογική σειρά (time series) k μήκος (length) της ακολουθίας Μια υποακολουθία (subsequence) Z = <z 1, z 2,, z j > προκύπτει από μια ακολουθία X με τη διαγραφή αριθμών από των αρχή και το τέλος της ακολουθίας Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 72 12
13 Μπορούμε να ορίσουμε την απόσταση μεταξύ δυο ακολουθιών ως την Ευκλείδεια κανονική (Euclidean norm) οθείσας μιας ακολουθίας-αίτημα και ενός ορίου e, θέλουμε να ανακτήσουμε όλες τις ακολουθίες δεδομένων που είναι μέσα σε απόσταση e Πλήρης ταύτιση ακολουθιών (Complete sequence matching) η ακολουθία-αίτημα και οι ακολουθίες δεδομένων έχουν το ίδιο μήκος Ταύτιση υποακολουθιών (Subsequence matching) η ακολουθία αίτημα έχει μικρότερο μήκος οθείσας μιας ακολουθίας-αίτημα και ενός ορίου e, θέλουμε να ανακτήσουμε όλες τις ακολουθίες δεδομένων που είναι μέσα σε απόσταση e Brute-force μέθοδος Αναπαράσταση τους ως ένα σημείο στον πολυδιάστατο (k-διάστατο) χώρο Πολυδιάστατο ευρετήριο Μη ακριβή ταιριάσματα; Ερώτηση υπερ-ορθογώνια περιοχή Query (hyper-rectangle) με πλευρά μήκους 2e και κέντρο την ακολουθία αίτημα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 73 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 74 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 75 13
Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων
Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και
Διαβάστε περισσότεραΒάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.
Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε
Διαβάστε περισσότεραΕξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)
Εξόρυξη εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η Εξόρυξη εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από
Διαβάστε περισσότεραΕξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)
εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από αυτά Ευαγγελία
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις
Διαβάστε περισσότεραΕισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων
Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)
Διαβάστε περισσότεραΔέντρα Απόφασης (Decision(
Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα
Διαβάστε περισσότεραΤο εσωτερικό ενός Σ Β
Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων
Διαβάστε περισσότεραΤεχνικές Εξόρυξης Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες
Διαβάστε περισσότεραΚεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.
Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε
Διαβάστε περισσότεραΑποθήκες και Εξόρυξη Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση
Διαβάστε περισσότεραΕισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :
Διαβάστε περισσότεραTID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο
Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ
Διαβάστε περισσότεραΠροεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη
Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Διαβάστε περισσότεραΕξόρυξη Γνώσης από Βιολογικά εδομένα
Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότεραΟρισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL
Εισαγωγή Μοντελοποίηση Στα προηγούμενα μαθήματα: Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Εννοιολογικός Σχεδιασμός Βάσεων εδομένων (με χρήση του Μοντέλου Οντοτήτων/Συσχετίσεων) Λογικός
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)
Διαβάστε περισσότεραHY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems
HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη
Διαβάστε περισσότεραΕυρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται
Διαβάστε περισσότεραιαµέριση - Partitioning
ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών
Διαβάστε περισσότεραΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων
Διαβάστε περισσότεραΠρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
Διαβάστε περισσότεραClustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων
Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία
Διαβάστε περισσότεραKεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα
Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα Database System Concepts, 6 th Ed. Silberschatz, Korth and Sudarshan See www.db-book.com for conditions on re-use Παράδειγμα Σχέσης attributes
Διαβάστε περισσότεραSQL Data Manipulation Language
SQL Data Manipulation Language Τελεστής union συνδυάζει subselects τα οποία παράγουν συμβατές σχέσεις γενική μορφή: subselect {union [all] subselect} περιορισμός: τα subselects δεν μπορούν να περιέχουν
Διαβάστε περισσότεραΟρισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL
Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Βάσεις Δεδομένων 2009-2010 Ευαγγελία Πιτουρά 1 Εισαγωγή Μοντελοποίηση Στα προηγούμενα μαθήματα: Εννοιολογικός Σχεδιασμός Βάσεων εδομένων (με
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας
Διαβάστε περισσότεραΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 8/4/203 5 ο εξόρυξη πληροφορίας Ανακάλυψη γνώσης 2 Web and NLP 23/4/203 Ορολογία 3 Data Mining Διαδικασία ανακάλυψης γνώσης μέσω της αναζήτησης
Διαβάστε περισσότεραΚεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Διαβάστε περισσότερα2 ο Σύνολο Ασκήσεων. Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1
2 ο Σύνολο Ασκήσεων Οι βαθμοί θα ανακοινωθούν αύριο μαζί με τους βαθμούς της προγραμματιστικής άσκησης Τα αστεράκια δείχνουν τον εκτιμώμενο βαθμό δυσκολίας (*) εύκολο (**) μέτριο (***) δύσκολο Βάσεις Δεδομένων
Διαβάστε περισσότεραΠανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Διαβάστε περισσότεραΈλεγχος Ταυτοχρονισμού
Έλεγχος Ταυτοχρονισμού Κεφάλαιο 17 Database Management Systems 3ed, R. Ramakrishnan and J. Gehrke Ελληνική Μετάφραση: Γεώργιος Ευαγγελίδης 1 Συγκρουσιακώς Σειριοποιήσιμα Χρονοπρογράμματα Δυο χρονοπρογράμματα
Διαβάστε περισσότεραΕπίλυση Προβληµάτων µε Greedy Αλγόριθµους
Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Περίληψη Επίλυση προβληµάτων χρησιµοποιώντας Greedy Αλγόριθµους Ελάχιστα Δέντρα Επικάλυψης Αλγόριθµος του Prim Αλγόριθµος του Kruskal Πρόβληµα Ελάχιστης Απόστασης
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)
Διαβάστε περισσότεραΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ Κολώνια Αγγελική Στείρου
Διαβάστε περισσότεραΣχέσεις. ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Σχέσεις ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιμελής Σχέση ιατεταγμένο ζεύγος (α, β): ύο αντικείμενα
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Διαβάστε περισσότεραΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ
ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ Ενότητα 7: Βάσεις Δεδομένων (Θεωρία) Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών Σπουδών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό
Διαβάστε περισσότεραData Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής
Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί
Διαβάστε περισσότεραΤεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή
Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης
Διαβάστε περισσότεραΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη
ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη 1 SQL(DML) - Query Example 1 Query:1 Βρείτε τα ονόματα των έργων που δεν αφορούν το τμήμα research
Διαβάστε περισσότεραMBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Διαβάστε περισσότεραΕυρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1
Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου
Διαβάστε περισσότεραBΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005 ΛΥΣΕΙΣ Ι. Βασιλείου -----------------------------------------------------------------------------------------------------
Διαβάστε περισσότεραΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου
Διαβάστε περισσότεραΒάσεις Δεδομένων : Λογικός Σχεδιασμός 1. καλών σχεσιακών σχημάτων. Λογικός Σχεδιασμός Σχεσιακών Σχημάτων. Γενικές Κατευθύνσεις.
Εισαγωγή Θα εξετάσουμε πότε ένα σχεσιακό σχήμα για μια βάση δεδομένων είναι «καλό» Λογικός Σχεδιασμός Σχεσιακών Σχημάτων Γενικές Οδηγίες Η Μέθοδος της Αποσύνθεσης (γενική μεθοδολογία) Επιθυμητές Ιδιότητες
Διαβάστε περισσότεραΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ. Επιλέγει όλες τις πλειάδες, από μια σχέση R, που ικανοποιούν τη συνθήκη επιλογής.
ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Χειμερινό Εξάμηνο 2012 SQL Structured Query Language Δρ. Βαγγελιώ Καβακλή ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ, ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 Πράξεις της σχεσιακής άλγεβρας ΠΡΑΞΗ ΣΚΟΠΟΣ
Διαβάστε περισσότεραΆσκηση 1 (15 μονάδες) (Επεκτατός Κατακερματισμός)
ΗΥ460 Τελική Εξέηαζη 29 Ιανουαπίου 2013 Σελίδα 1 από 8 Πανεπιστήμιο Κρήτης Τμήμα Επιστήμης Υπολογιστών ΗΥ-460 Συστήματα Διαχείρισης Βάσεων Δεδομένων Δημήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Επαναληπτική
Διαβάστε περισσότεραιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι
Σχέσεις ιδάσκοντες: Φ. Αφράτη, Σ. Ζάχος,. Σούλιου Επιµέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιµελής Σχέση ιατεταγµένο ζεύγος (α, β):
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data
Διαβάστε περισσότεραΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ
Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ
Διαβάστε περισσότεραΑρχεία και Βάσεις Δεδομένων
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αρχεία και Βάσεις Δεδομένων Διάλεξη 10η: SQL Μέρος 3ο Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών SQL Data Manipulation Language Τελεστής union συνδυάζει subselects
Διαβάστε περισσότεραΒελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη
Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη με βάση slides από A. Silberschatz, H. Korth, S. Sudarshan, Database System Concepts, 5 th edition Εισαγωγή (1) Εναλλακτικοί τρόποι για
Διαβάστε περισσότεραΗ SQL ως γλώσσα ερωτημάτων. Υπενθυμίζουμε: Σχέση = Πίνακας Πλειάδα = Εγγραφή = Γραμμή (Πίνακα) Πεδίο = Γνώρισμα (Σχέσης) = Στήλη (Πίνακα)
Η SQL ως γλώσσα ερωτημάτων Υπενθυμίζουμε: Σχέση = Πίνακας Πλειάδα = Εγγραφή = Γραμμή (Πίνακα) Πεδίο = Γνώρισμα (Σχέσης) = Στήλη (Πίνακα) Η γλώσσα SQL Η SQL αποτελείται από: DDL (Data Definition Language)
Διαβάστε περισσότεραΔιάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)
ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear
Διαβάστε περισσότεραΟι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006
Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)
Διαβάστε περισσότεραΤαξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort
Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο
Διαβάστε περισσότεραΔιδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ
Διάλεξη 25: Τεχνικές Κατακερματισμού II Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double Hashing Διατεταγμένος
Διαβάστε περισσότεραΒάσεις δεδομένων. (8 ο μάθημα) Ηρακλής Βαρλάμης
Βάσεις δεδομένων (8 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr Περιεχόμενα SQL (συνέχεια) Φωλιασμένες υπο-ερωτήσεις Δημιουργία όψεων Πράξεις ενημέρωσης και περιορισμοί 1/5/2014 Βάσεις Δεδομένων 2 Από το
Διαβάστε περισσότεραH SQL είναι η γλώσσα για όλα τα εμπορικά σχεσιακά συστήματα διαχείρισης βάσεων δεδομένων
Η γλώσσα SQL H SQL είναι η γλώσσα για όλα τα εμπορικά σχεσιακά συστήματα διαχείρισης βάσεων δεδομένων H SQL έχει διάφορα τμήματα: Γλώσσα Ορισμού Δεδομένων (ΓΟΔ) Γλώσσα Χειρισμού Δεδομένων (ΓΧΔ) Ενσωματωμένη
Διαβάστε περισσότεραΔιδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Σχέσεις Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διμελής Σχέση Διατεταγμένο ζεύγος (α, β):
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράμματα γιατηδιαχείρισητηςβδ Αρχεία ευρετηρίου Αρχεία δεδομένων Κατάλογος συστήματος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Σύστημα Βάσεων Δεδομένων (ΣΒΔ) 2 :
Διαβάστε περισσότεραΑντισταθμιστική ανάλυση
Αντισταθμιστική ανάλυση Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή δεδομένων Δ : Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Παράδειγμα: Θυμηθείτε το πρόβλημα
Διαβάστε περισσότεραΒάσεις εδοµένων 2002-2003 Ευαγγελία Πιτουρά 2
Η Γλώσσα SQL Βάσεις εδοµένων 2002-2003 Ευαγγελία Πιτουρά 1 Η γλώσσα SQL What men or gods are these? What maidens loth? What mad pursuit? What struggle to escape? What pipes and timbrels? What wild ectasy?
Διαβάστε περισσότεραΑποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος
Διαβάστε περισσότεραΕυρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1
Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου
Διαβάστε περισσότεραΣχέσεις. Διμελής Σχέση. ΣτοΊδιοΣύνολο. Αναπαράσταση
Διμελής Σχέση Σχέσεις Διδάσκοντες: Φ. Αφράτη, Δ. Επιμέλεια διαφανειών: Δ. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διατεταγμένο ζεύγος (α, β): Δύο αντικείμενα
Διαβάστε περισσότεραΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2011-12 ΔΙΔΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής Τιμολέων Σελλής Καθηγητής Άσκηση 1
Διαβάστε περισσότεραΑλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι
Διαβάστε περισσότεραΕξόρυξη Γνώσης µε SQL Server 2005 Analysis Services
Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική
Διαβάστε περισσότεραΑλγόριθμοι Ταξινόμησης Μέρος 3
Αλγόριθμοι Ταξινόμησης Μέρος 3 Μανόλης Κουμπαράκης 1 Ταξινόμηση με Ουρά Προτεραιότητας Θα παρουσιάσουμε τώρα δύο αλγόριθμους ταξινόμησης που χρησιμοποιούν μια ουρά προτεραιότητας για την υλοποίηση τους.
Διαβάστε περισσότεραΑνακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα
6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά
Διαβάστε περισσότερα5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery ιαχείριση εδομένων στον Παγκόσμιο Ιστό Χρήστος ουλκερίδης
Διαβάστε περισσότεραΕπεξεργασία ερωτημάτων
Επεξεργασία ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Σε τι αφορά η επεξεργασία ερωτημάτων? Αναφέρεται στο σύνολο των δραστηριοτήτων που περιλαμβάνονται στην ανάκτηση δεδομένων από μία βάση δεδομένων
Διαβάστε περισσότεραΤα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο
Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων
Διαβάστε περισσότεραΟρισμοί Σχεσιακού Μοντέλου και (απλές)τροποποιήσεις Σχέσεων στην SQL. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Ορισμοί Σχεσιακού Μοντέλου και (απλές)τροποποιήσεις Σχέσεων στην SQL Ευαγγελία Πιτουρά 1 Τι έχουμε δει Μοντελοποίηση Εννοιολογικός Σχεδιασμός Βάσεων Δεδομένων (με χρήση του Μοντέλου Οντοτήτων/Συσχετίσεων)
Διαβάστε περισσότεραεντρικά Ευρετήρια έντρα Αναζήτησης
εντρικά Ευρετήρια 1 έντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτεςωςεξής P 1 K 1 P j K
Διαβάστε περισσότεραΕυρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια
Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου που καλείται
Διαβάστε περισσότεραΤι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι
Διαβάστε περισσότεραΕυρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια
Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου που καλείται
Διαβάστε περισσότεραΟμαδοποίηση ΙΙ (Clustering)
Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Διαβάστε περισσότεραΒάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML
Θέματα Βάσεις ιαδικτύου Ο αλγόριθμος HITS Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Τι είναι η XML XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης)
Διαβάστε περισσότεραΔυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1
Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας
Διαβάστε περισσότεραΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ
ΑΛΓΟΡΙΘΜΟΙ http://eclass.aueb.gr/courses/inf161/ Άνοιξη 216 - I. ΜΗΛΗΣ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΑΛΓΟΡΙΘΜΟΙ - ΑΝΟΙΞΗ 216 - Ι. ΜΗΛΗΣ 9 DP II 1 Dynamic Programming ΓΕΝΙΚΗ ΙΔΕΑ 1. Ορισμός υπο-προβλήματος/ων
Διαβάστε περισσότεραΜέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση
Διαβάστε περισσότεραΤμήμα Πληροφορικής ΑΠΘ
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ 2013-2014 2 Σκοπός του 2 ου εργαστηρίου Σκοπός αυτού του εργαστηρίου είναι: Η μελέτη ερωτημάτων σε μία μόνο σχέση. Εξετάζουμε τους τελεστές επιλογής
Διαβάστε περισσότερα