Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων"

Transcript

1 Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και μηχανική μάθηση υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων Ένας αλγόριθμος κλιμακώνεται αν ο χρόνος εκτέλεσής του αυξάνεται ανάλογα (γραμμικά) με το μέγεθος του συνόλου δεδομένων για δοσμένους πόρους του συστήματος Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 2 Τι σημαίνει ο ορισμός: Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εισαγωγή Επιλογή εδομένων (Data Selection) Η ιαδικασία Ανακάλυψης Γνώσης The Knowledge Discovery Process (KDD) - Η ιαδικασία Ανακάλυψης Γνώσης σε Βάσεις εδομένων Προσδιορισμός του συνόλου δεδομένων και των σχετικών γνωρισμάτων που μας ενδιαφέρουν στα οποία θα γίνει η εξόρυξη Ερωτήσεις SQL (βασίζονται στη σχεσιακή άλγεβρα) Ερωτήσεις OLAP (υψηλότερου επιπέδου σύνταξη που βασίζεται στη χρήση του πολυδιάστατου μοντέλου δεδομένων) Τεχνικές Εξόρυξης εδομένων Καθαρισμός εδομένων Data Cleaning Εξόρυξη εδομένων Αξιολόγηση (Evaluation) Απομάκρυνση θορύβου και των προς εξαίρεση τιμών (outliers), μετασχηματισμός των τιμών των πεδίων σε κοινές μονάδες μέτρησης, δημιουργία νέων πεδίων, αποθήκευση των δεδομένων σε σχεσιακό σχήμα Παρουσίαση των προτύπων με ένα τρόπο κατανοητό στον τελικό χρήστη (π.χ., μέσω τεχνικών οπτικοποίησης) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 3 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 4 Counting Co-Occurrence (Απαρίθμηση Ταυτόχρονων Εμφανίσεων) Το καλάθι της νοικοκυράς (market basket) είναι μια συλλογή στοιχείων (collection of items) που αγοράστηκαν από ένα πελάτη κατά τη διάρκεια μιας μοναδικής συναλλαγής του (transaction) Στόχος: Εντοπισμός των αντικειμένων που εμφανίζονται μαζί σε μια συναλλαγή Transaction εδώ δεν έχει την αυστηρή έννοια Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 5 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 6 1

2 Transid custid date item qty Μια συναλλαγή Παρατηρείστε ότι υπάρχει επανάληψη πληροφορίας Παράδειγμα Παρατηρήσεις του τύπου: σε 75% των συναλλαγών αγοράστηκαν μαζί και μελάνι και πένες Στοιχειοσύνολο (Itemset): είναι ένα σύνολο από αντικείμενα Υποστήριξη ενός στοιχειοσυνόλου (Support of an itemset): το ποσοστό των συναλλαγών της βάσης δεδομένων που περιέχουν όλα τα στοιχεία του στοιχειοσυνόλου Παράδειγμα: Στοιχειοσύνολο {pen, ink} Υποστήριξη 75% Στοιχειοσύνολο {milk, juice} Υποστήριξη 25% Μας ενδιαφέρουν στοιχειοσύνολα με μεγάλη υποστήριξη, γιατί; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 7 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 8 : Στοιχειοσύνολα των οποίων η υποστήριξη είναι μεγαλύτερη από κάποια ελάχιστη υποστήριξη (minimum support, minsup) που θέτουν οι χρήστες Έναν αλγόριθμο που να εντοπίζει (όλα) τα συχνά στοιχειοσύνολα Οπιο απλός αλγόριθμος, Παράδειγμα: Αν minsup = 70%, : {pen}, {ink}, {milk}, {pen, ink}, {pen, milk} For k = 1 to n Κατασκεύασε όλα τα δυνατά στοιχειοσύνολα με k στοιχεία έλεγξε αν είναι συχνά Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 9 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 10 Παράδειγμα Transid custid date item qty Έστω minsum = 70% k=1 {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι k = 2 {pen, ink} 3/4 ok {pen, milk} 3/4 ok {pen, juice} κλπ Μπορούμε να κάνουμε κάτι καλύτερο; Η ιδιότητα a priory: Κάθε υποσύνολο ενός συχνού συνόλου πρέπει να αποτελεί επίσης ένα συχνό σύνολο Γιατί; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 11 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 12 2

3 Αλγόριθμος For each item, check if it is a frequent itemset /* δηλαδή, αν υπάρχει > minsum συναλλαγές */ k = 1 repeat Until n for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Βελτιωμένος Αλγόριθμος Εύρεσης Συχνών Στοιχειοσυνόλων For each item, check if it is a frequent itemset k = 1 repeat for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 whose subsets are frequent itemsets Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Until no new frequent itemsets are identified Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 13 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 14 Παράδειγμα Transid custid date item qty Έστω minsum = 70% {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι {pen, ink} 3/4 ok {pen, milk} 3/4 ok {ink, milk} 2/4 όχι Άρα τέλος Αποτέλεσμα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 15 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 16 Ερωτήσεις Τύπου Παγόβουνου Ερωτήσεις Τύπου Παγόβουνου Υποθέστε ότι θέλουμε να βρούμε ζεύγη αγοραστών και στοιχείων τέτοιων ώστε ο αγοραστής τους να έχει αγοράσει το στοιχείο τουλάχιστον 5 φορές select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item Πως θα υπολογιζόταν αυτή ερώτηση σε ένα σχεσιακό Σ Β ; Ο αριθμός των ομάδων είναι πολύ μεγάλος αλλά η απάντηση στην ερώτηση (η κορυφή του παγόβουνου) είναι πολύ μικρή Iceberg query (Ερώτηση τύπου παγόβουνου) select R.A1, R.A2,, R.Ak, aggregate (R.B) from Relation R group by R.A1, R.A2,, R.Ak having aggregate (R.B) > = constant Μπορείτε να παρατηρείστε κάποια ιδιότητα a priory παρόμοια με αυτήν στην περίπτωση των συχνών στοιχειοσυνόλων; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 17 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 18 3

4 select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item Ερωτήσεις Τύπου Παγόβουνου Αρκεί να εξετάσουμε μόνο εκείνες τις τιμές για το custid που αφορά πελάτες που έχουν αγοράσει τουλάχιστον 5 στοιχεία συνολικά (όχι απαραίτητα το ίδιο στοιχείο) Q1: select P.custid from Purchases P group by P.custid Q2: Ερωτήσεις Τύπου Παγόβουνου Αντίστοιχα, αρκεί να εξετάσουμε μόνο εκείνες τις τιμές για το item που αφορούν στοιχεία που έχουν αγοραστεί 5 φορές συνολικά (όχι απαραίτητα από τον ίδιο πελάτη) select P.item from Purchases P group by P.item Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 19 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 20 select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item select P.custid from Purchases P Q1 group by P.custid Ερωτήσεις Τύπου Παγόβουνου select P.item from Purchases P group by P.item ημιουργία (custid, item) ζευγών μόνο για custid από την Q1 και item από την Q2 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 21 Q2 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 22 LHS RHS Παράδειγμα {pen} {ink} Αν ένα στοιχείο pen αγοράζεται σε μια συναλλαγή, τότε είναι πιθανό ότι αγοράζεται και το στοιχείο ink Γενικά, συνδυαστικός κανόνας (association rule) LHS RHS Όπου LHS και RHS είναι στοιχειοσύνολα Υποστήριξη (support): support(lhs RHS) Το ποσοστό των συναλλαγών που περιέχουν όλα τα στοιχεία του (LHS RHS) Εμπιστοσύνη (confidence): support(lhs RHS) / support(lhs) Μια ένδειξη της ισχύος του κανόνα P(RHS LHS) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 23 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 24 4

5 Παράδειγμα Transid custid date item qty pen milk (K1) support(k1) = 75% confidence(k1) = 75% milk pen (K2) support(k2) = 75% confidence(k2) = 100% Έναν αλγόριθμο εύρεσης όλων των κανόνων με ελάχιστο minsup και ελάχιστο minconf Ελάχιστο minsum, support(lhs RHS) minsum Βήμα 1: Βρες όλα τα συχνά στοιχειοσύνολα με minsup Βήμα 2: Παρήγαγε όλους τους κανόνες από το Βήμα 1 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 25 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 26 Παράδειγμα Transid custid date item qty Αποτέλεσμα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} υνατοί κανόνες pen ink ink pen pen milk milk pen Βήμα 2 For each frequent itemset I with support support(i) Divide I into LHS I and RHS I confidence = support(i) / support(lhs I ) Παρατήρηση Τα support(i) και support(lhs I ) τα έχουμε ήδη υπολογίσει σε προηγούμενα βήματα του αλγορίθμου εύρεσης συχνών στοιχειοσυνόλων Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 27 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 28 και Ιεραρχίες ISA Γενικευμένοι Μια ISA ιεραρχία ή ιεραρχία κατηγοριών (category hierarchy) ανάμεσα στα σύνολα των στοιχείων: μια συναλλαγή εμμέσως περιέχει για κάθε στοιχείο και όλα τα στοιχεία που είναι προγονοί του στην ιεραρχία Beverage Milk Juice Pen Stationery Ink Επιτρέπει τον εντοπισμό σχέσεων μεταξύ στοιχείων που ανήκουν σε διαφορετικά επίπεδα της ιεραρχίας Γενικά, η υποστήριξη (support) ενός στοιχείου μπορεί μόνο να αυξηθεί με την αντικατάσταση του στοιχείου από κάποιο πρόγονο του στην ιεραρχία Πιο γενικά: όχι μόνο συναλλαγές αγοραστών Transid custid date item qty π.χ., Ομαδοποίηση πλειάδων με βάση το custid Ο κανόνας {pen} {milk}: αν το στοιχείο pen αγοραστεί από κάποιο πελάτη είναι πιθανό ότι ο πελάτης θα αγοράσει και το στοιχείο milk (με υποστήριξη και εμπιστοσύνη 100%) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 29 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 30 5

6 Γενικευμένοι Γενικευμένοι Ομαδοποίηση πλειάδων με βάση την ημερομηνία: Ημερολογιακή ανάλυση του καλαθιού της νοικοκυράς (Calendric market basket analysis) Ένα ημερολόγιο (calendar) είναι μια οποιαδήποτε ομάδα ημερομηνιών (π.χ., κάθε πρώτη του μήνα) οσμένου ενός ημερολογίου, υπολόγισε τους συνδυαστικούς κανόνες που αφορούν πλειάδες που έχουν πραγματοποιηθεί σε ημερομηνίες που ανήκουν στο ημερολόγιο Ημερολόγιο: κάθε πρώτη του μήνα Ο κανόνας {pen} {juice}: έχει support 100% Ενώ γενικά: 50% Ο κανόνας {pen} {milk}: έχει support 50% Ενώ γενικά: 75% Transid custid date item qty Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 31 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 32 Ακολουθιακά Πρότυπα Ακολουθία (sequence) στοιχειοσυνόλων: Η ακολουθία των στοιχείων που αγοράστηκαν από τον πελάτη: Παράδειγμα custid 201: {pen, ink, milk, juice}, {pen, ink, juice} (διάταξη με βάση την ημερομηνία -ordered by date) Μια υπο-ακολουθία (subsequence) μιας ακολουθίας στοιχειοσυνόλων προκύπτει διαγράφοντας ένα ή περισσότερα στοιχειοσύνολα και αποτελεί επίσης μια ακολουθία στοιχειοσυνόλων Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 33 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 34 Ακολουθιακά Πρότυπα Μια ακολουθία a 1, a 2,.., a n περιέχεται σε μια ακολουθία S αν η S έχει μια υπο-ακολουθία b q,.., b m such that a i b i for 1 i m Παράδειγμα {pen, ink}, {shirt}, {juice, ink, milk}, {juice, pen, milk} Υπακολουθία: {pen}, {ink, milk}, {pen, juice} (δηλαδή περιέχεται στην {pen, ink}, {shirt}, {juice, ink, milk}, {juice, pen, milk}) Η σειρά των στοιχείων σε κάθε στοιχειοσύνολο δεν έχει σημασία αλλά η σειρά των στοχειοοσυνόλων στην ακολουθία έχει Ακολουθιακά Πρότυπα Η υποστήριξη μια ακολουθίας στοιχειοσυνόλων S είναι το ποσοστό των ακολουθιών του πελάτη των οποίων η S είναι υπο-ακολουθία Βρες όλες τις ακολουθίες που έχουν μια ελάχιστη υποστήριξη {pen}, {ink, milk}, {pen, juice} δεν περιέχεται στην {pen, ink}, {shirt}, {juice, pen, milk}, {juice, milk, ink} Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 35 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 36 6

7 Εξόρυξη εδομένων (στο επόμενο μάθημα) Ανακάλυψη ενδιαφερόντων τάσεων ή προτύπων σχημάτων μέσα σε μεγάλα σύνολα δεδομένων με σκοπό να καθοδηγήσει μελλοντικές αποφάσεις υνατότητα Κλιμάκωσης Τα Τέσσερα Στάδια της ιαδικασίας Ανακάλυψης Γνώσης σε Βάσεις εδομένων (KDD Knowledge Discovery in Databases): 1. Επιλογή εδομένων, 2. Καθαρισμός εδομένων, 3. Εξόρυξη εδομένων, 4. Αξιολόγηση Μερικά links ( για Β ) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 37 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά Κατηγορίες Εξόρυξης εδομένων το καλάθι της νοικοκυράς: ποια στοιχεία αγοράζονται μαζί 2. ανακάλυψη διαφόρων τύπων κανόνων που περιγράφουν με περιεκτικό τρόπο τα δεδομένα 3. ο χωρισμός ενός συνόλου έγγραφων σε ομάδες τέτοιες ώστε οι εγγραφές μέσα σε κάθε ομάδα να είναι όμοιες μεταξύ τους, ενώ οι εγγραφές σε διαφορετικές ομάδες να είναι ανόμοιες Κατηγορίες Εξόρυξης εδομένων Προηγούμενο Μάθημα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 39 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά (frequent itemsets) Ποια σύνολα στοιχείων εμφανίζονται μαζί σε «αρκετές» συναλλαγές Υποστήριξη (support) ενός στοιχειοσυνόλου: το ποσοστό των συναλλαγών της βάσης δεδομένων που περιέχουν όλα τα στοιχεία του minsup ελάχιστη υποστήριξη Η ιδιότητα a priori: κάθε υποσύνολο ενός συχνού συνόλου πρέπει επίσης να αποτελεί συχνό υποσύνολο 2. Αιτήματα Τύπου Παγόβουνου (iceberg queries) select R.A1, R.A2,, R.Ak, aggregate (R.B) from Relation R group by R.A1, R.A2,, R.Ak having aggregate (R.B) > = constant Ψάχνουμε τα στοιχεία της ομάδας με τιμές που ικανοποιούν τη συνθήκη (την κορυφή του παγόβουνου) Μια αντίστοιχη ιδιότητα a priori. Ποια; Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 41 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 42 7

8 LHS RHS, όπου LHS και RHS είναι στοιχειοσύνολα Υποστήριξη του κανόνα: sup(lhs RHS) Εμπιστοσύνη (confidence) του κανόνα: sup(lhs RHS)/sup(LHS) Γενικεύσεις: (α) Χρήση Ιεραρχιών (β) Γενικευμένοι Κανόνες: Ομαδοποίηση όχι απαραίτητα με βάση τη συναλλαγή, αλλά πχ ημερολογιακή ανάλυση του καλαθιού της νοικοκυράς (γ) Ακολουθιακά Πρότυπα Σχήματα Ακολουθίες στοιχειοσυνόλων Υπακολουθία αν διαγράψουμε κάποια στοιχειοσύνολα Ψάχνουμε για όλες τις ακολουθίες που έχουν την ελάχιστη υποστήριξη (ποσοστό ακολουθιών των οποίων αποτελούν υπακολουθία) Οι συνδυαστικοί κανόνες μπορεί να χρησιμοποιηθούν στην πρόβλεψη {pen} {ink} Η εμπιστοσύνη του κανόνα είναι η υπό συνθήκη πιθανότητα να αγοραστεί ένα στοιχείο ink όταν έχει αγοραστεί ένα στοιχείο pen Αιτιατός σύνδεσμος μεταξύ των αγορών ιάφορες πολιτικές προώθησης Γενική αναπαράσταση ίκτυα Bayes Κόμβοι: μεταβλητή ή γεγονός (πχ αγορά ink) Ακμές: Αιτιότητα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 43 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 44 Κατηγορίες Εξόρυξης εδομένων Κανόνες Κατηγοριοποίησης και Παλινδρόμησης InsuranceInfo(age: integer, cartype: string, highrisk: boolean) Υπάρχει ένα γνώρισμα (highrisk: ΥψηλούΚινδύνου) του οποίου την τιμή θα θέλαμε να προβλέψουμε: Εξαρτημένο Γνώρισμα Τα άλλα γνωρίσματα ονομάζονται προβλέποντα γνωρίσματα (predictors) Ηγενική μορφή των κανόνων που θέλουμε να προβλέψουμε είναι: P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Προβλέποντα γνωρίσματα Εξαρτημένο γνώρισμα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 45 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 46 Κανόνες Κατηγοριοποίησης και Παλινδρόμησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c P i (X i ) είναι κατηγορήματα (predicates) σχετικά με τα γνωρίσματα X i ύο τύποι γνωρισμάτων: αριθμητικά P i (X i ) : l i X i h i κατηγοριακά (categorical) P i (X i ) : X i {v 1,, v j } αριθμητικό εξαρτημένo γνώρισμα κανόνας παλινδρόμησης κατηγοριακό εξαρτημένο γνώρισμα κανόνας κατηγοριοποίησης (16 age 25) (cartype {Sports, Truck}) highrisk = true Κανόνες Κατηγοριοποίησης και Παλινδρόμησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Υποστήριξη: Η υποστήριξη για μια συνθήκη C είναι το ποσοστό των πλειάδων που ικανοποιούν την C. Η υποστήριξη του κανόνα C1 C2 είναι η υποστήριξη της συνθήκης C1 C2 Εμπιστοσύνη: Έστω όλες οι πλειάδες που ικανοποιούν τη συνθήκη C1. Η εμπιστοσύνη του κανόνα C1 C2 είναι το ποσοστό των πλειάδων αυτών που ικανοποιούν και τη συνθήκη C2 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 47 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 48 8

9 Κανόνες Κατηγοριοποίησης και Παλινδρόμησης Γενικεύοντας P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = f(x 1, X 2,, X k ) Η διαφορά από τους συνδυαστικούς κανόνες είναι ότι θεωρούν συνεχή και κατηγοριακά γνωρίσματα και όχι μόνο ένα πεδίο με πολλαπλές καθορισμένες τιμές Πολλές εφαρμογές, π.χ. σε επιστημονικά πειράματα, προώθηση προϊόντων με το ταχυδρομείο, προβλέψεις χρηματοοικονομικών μεγεθών, ιατρικές προγνώσεις έντρα αποφάσεων ή δέντρα κατηγοριοποίησης έντρα Παλινδρόμησης Συνήθως το ίδιο το δέντρο είναι το αποτέλεσμα της εξόρυξης δεδομένων Εύκολο να κατανοηθεί Αποδοτικοί αλγόριθμοι για την κατασκευή του Θα δούμε στη συνέχεια έναν ειδικό τύπο τους Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 49 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 50 Παράδειγμα δέντρου Γραφική απεικόνιση μια συλλογής κανόνων κατηγοριοποίησης. <= 25 Car Type Age > 25 No Εσωτερικοί κόμβοι: ετικέτα (labeled) με ένα προβλέπον γνώρισμα (που ονομάζεται και διαχωρίζον γνώρισμα - splitting attribute) Εξερχόμενες ακμές: έχουν ως ετικέτα το κατηγόρημα που περιλαμβάνει το διαχωρίζον γνώρισμα του κόμβου (κριτήριο διαχωρισμού του κόμβου - splitting criterion) ξένα μεταξύ τους Other Sports, Truck Φύλλα: έχουν ως ετικέτα το κατηγόρημα - μια τιμή του εξαρτώμενου γνωρίσματος No Yes Θα εξετάσουμε δυαδικά δέντρα αποφάσεων αλλά μπορεί να έχουμε και δέντρα υψηλότερου βαθμού Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 51 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 52 οσμένης μια εγγραφής δεδομένων το δέντρο οδηγεί από τη ρίζα σε ένα φύλλο. Age Μπορούμε να κατασκευάσουμε κανόνες κατηγοριοποίησης > 25 <= 25 ακολουθώντας κάθε μονοπάτι από τη ρίζα σε φύλλο: Car Type No LHS σύζευξη των κατηγορημάτων, RHS η τιμή του φύλλου Other Sports, Truck Ένας κανόνας για κάθε φύλλο No Yes (16 age 25) (cartype {Sports, Truck}) highrisk = true Κατασκευή σε δύο φάσεις ΦΑΣΗ 1: φάση ανάπτυξης κατασκευή ενός πολύ μεγάλου δέντρου (π.χ., ένα φύλλο για κάθε εγγραφή της βάσης δεδομένων) ΦΑΣΗ 2: φάση κλαδέματος Κατασκευή του δέντρου greedily από πάνω προς τα κάτω: Στη ρίζα εξέτασε τη βάση δεδομένων και επέλεξε το καλύτερο κριτήριο διαχωρισμού (τοπικά βέλτιστο κριτήριο) ιαμέρισε τη βάση σε δύο μέρη Εφάρμοσε αναδρομικά σε κάθε παιδί Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 53 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 54 9

10 Input: κόμβος n, διαμέρισμα D, μέθοδος επιλογής διαχωρισμού S Output: δέντρο απόφασης για το D με ρίζα τον κόμβο n Top down Decision Tree Induction Schema BuildTree(node n, partition D, method S) Apply S to D to find the splitting criterion If (a good splitting criterion is found) create two children nodes n1 and n2 of n partition D into D1 and D2 BuildTree(n1, D1, S) Build Tree(n2, D2, S) Μέθοδος επιλογής διαχωρισμού Ένας αλγόριθμος που παίρνει ως είσοδο μια σχέση (ή ένα τμήμα μιας σχέσης) και δίνει ως έξοδο το τοπικά βέλτιστο κριτήριο Παράδειγμα: εξετάστε τα γνωρίσματα cartype και age, επέλεξε ένα από αυτό ως γνώρισμα διαχωρισμού και μετά επέλεξε το κατηγόρημα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 55 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 56 Πως μπορούμε να κατασκευάσουμε δέντρα αποφάσεων που είναι μεγαλύτερα από τη κύρια μνήμη; Αντί να φορτώσουμε όλη τη βάση δεδομένων στη μνήμη: ίνουμε στη μέθοδο επιλογής διαχωρισμού συναθροιστική πληροφορία για τα γνωρίσματα Χρειαζόμαστε συναθροιστική πληροφορία για κάθε γνώρισμα πρόβλεψης Σύνολο AVC (Attribute-Value Class label) του γνωρίσματος πρόβλεψης Χ στον κόμβο n είναι η προβολή του διαμερίσματος της βάσης δεδομένων του κόμβου n στο X και στο εξαρτημένο γνώρισμα όπου συναθροίζονται οι συχνότητες (counts) των διακριτών τιμών του εξαρτημένου γνωρίσματος age cartype highrisk 23 Sedan false 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true 30 Truck false 25 Sports true 18 Sedan false Σύνολο AVC του γνωρίσματος πρόβλεψης age στη ρίζα select R.age, R.highrisk, count(*) from InsuranceInfo R group by R.age, R.highrisk true false 18 O Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 57 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 58 age cartype highrisk 23 Sedan false Σύνολο AVC του γνωρίσματος πρόβλεψης cartype στη ρίζα age cartype highrisk 23 Sedan false Σύνολο AVC του γνωρίσματος πρόβλεψης cartype στο αριστερό παιδί της ρίζας 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true select R.cartype, R.highrisk, count(*) from InsuranceInfo R group by R.cartype, R.highrisk 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true select R.cartype, R.highrisk, count(*) from InsuranceInfo R where R.age <=25 group by R.cartype, R.highrisk 30 Truck false 25 Sports true 18 Sedan false true false Sedan 0 4 Sports 1 1 Truck Truck false 25 Sports true 18 Sedan false true false Sedan 0 2 Sports 1 0 Truck 2 0 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 59 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 60 10

11 Ποιο είναι το μέγεθος του συνόλου AVC; Ομάδα AVC ενός κόμβου n: το σύνολο των AVC συνόλων όλων των γνωρισμάτων πρόβλεψης στον κόμβο n Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 61 Input: node n partition D split selection method S Output: decision tree for D rooted at node n Top down Decision Tree Induction Schema BuildTree(node n, partition D, method S) Make a scan over D and construct the AVC group of node n in memory Apply S to AVC group to find the splitting criterion If (a good splitting criterion is found) create two children nodes n1 and n2 of n partition D into D1 and D2 BuildTree(n1, D1, S) Build Tree(n2, D2, S) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 62 ιαμέριση ενός συνόλου εγγραφών σε ομάδες συγκροτήματα (clusters) έτσι ώστε όλες οι εγγραφές που ανήκουν σε μια ομάδα να είναι όμοιες μεταξύ τους και οι εγγραφές που ανήκουν σε διαφορετικές ομάδες να είναι ανόμοιες Η ομοιότητα μεταξύ των εγγραφών υπολογίζεται βάσει μιας συνάρτησης απόστασης distance function. Εξαρτάται από τον τύπο των δεδομένων και την εφαρμογή Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 63 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 64 CustomerInfo(age: integer, salary:real) Η έξοδος ενός αλγορίθμου συγκρότησης είναι μία συνοπτική αναπαράσταση κάθε συγκροτήματος Salary Η μορφή του αποτελέσματος εξαρτάται από τον τύπο και το σχήμα των συγκροτημάτων Για παράδειγμα, για σφαιρικά συγκροτήματα, έξοδος: κέντρο C (μέσο) and ακτίνα R: δοσμένου μιας συλλογής εγγραφών r 1, r 2,.., r n Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 65 Age Μπορούμε να εντοπίσουμε τρία συγκροτήματα (clusters) το σχήμα τους σφαιρικό C = r i R = (r i -C) n n Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 66 11

12 ύο κατηγορίες αλγορίθμων συγκρότησης: Αλγόριθμος ιαχωρισμού: διαμερίζει τα δεδομένα σε k συγκροτήματα έτσι ώστε να βελτιστοποιείται η τιμή κάποιου κριτηρίου το k συνήθως προσδιορίζεται από τον χρήστη Ιεραρχικός Αλγόριθμος παράγει μια ακολουθία από διαμερίσεις των δεδομένων. Ξεκινώντας από μια διαμέριση όπου κάθε εγγραφή αποτελεί ένα συγκρότημα, σε κάθε βήμα συγχωνεύει και δυο συγκροτήματα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 67 Ο αλγόριθμος BIRCH: Υποθέσεις Μεγάλος αριθμός εγγραφών, μόνο ένα πέρασμα Περιορισμένη μνήμη ύο παράμετροι k: όριο διαθεσιμότητας κύριας μνήμης: μέγιστος αριθμός συνοπτικών αναπαραστάσεων συγκροτημάτων που μπορούν αν καταχωρηθούν στην κύρια μνήμη e: αρχικό όριο της ακτίνας κάθε συγκροτήματος καθορίζει και τον αριθμό των συγκροτημάτων. Ένα συγκρότημα είναι συμπαγές αν η ακτίνα του είναι μικρότερη από e. Πάντα διατήρησε στην κύρια μνήμη k ή λιγότερα συμπαγή συγκροτήματα (Ci, Ri) (Αν αυτό δεν είναι δυνατόν, τροποποίησε το e) Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 68 Ο αλγόριθμος BIRCH: Read a record r from the database /* διάβασε τις εγγραφές σειριακά */ Compute the distance of r and each of the existing cluster centers Let i be the cluster (index) such that the distance between r and C i is the smallest /* i: το πιο κοντινό συγκρότημα */ Compute R i assuming r is inserted in the ith cluster /* υπολόγισε τη νέα ακτίνα */ Ο αλγόριθμος BIRCH: Μέγιστος αριθμός συγκροτημάτων -> τροποποίησε το e Αποδοτικοί τρόποι εντοπισμού του κοντινότερου συγκροτήματος, π.χ., χρήση Β+ δέντρων If R i e, /* μικρότερη, το συγκρότημα παραμένει συμπαγές, επισύναψε το r */ insert r in the ith cluster recompute R i and C i else /* μεγαλύτερη δημιούργησε νέο συγκρότημα */ start a new cluster containing only r Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 69 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 70 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 71 Ο χρήστης καθορίζει μία ακολουθία αίτημα (query sequence) και θέλει να ανακτήσει όλες τις ακολουθίες δεδομένων που είναι όμοιες με αυτήν Όχι απαραίτητα να ταιριάζουν ακριβώς (Not exact matches) Μια ακολουθία δεδομένων (data sequence) X είναι μια σειρά αριθμών X = <x 1, x 2,.., x k > Συχνά ονομάζεται και χρονολογική σειρά (time series) k μήκος (length) της ακολουθίας Μια υποακολουθία (subsequence) Z = <z 1, z 2,, z j > προκύπτει από μια ακολουθία X με τη διαγραφή αριθμών από των αρχή και το τέλος της ακολουθίας Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 72 12

13 Μπορούμε να ορίσουμε την απόσταση μεταξύ δυο ακολουθιών ως την Ευκλείδεια κανονική (Euclidean norm) οθείσας μιας ακολουθίας-αίτημα και ενός ορίου e, θέλουμε να ανακτήσουμε όλες τις ακολουθίες δεδομένων που είναι μέσα σε απόσταση e Πλήρης ταύτιση ακολουθιών (Complete sequence matching) η ακολουθία-αίτημα και οι ακολουθίες δεδομένων έχουν το ίδιο μήκος Ταύτιση υποακολουθιών (Subsequence matching) η ακολουθία αίτημα έχει μικρότερο μήκος οθείσας μιας ακολουθίας-αίτημα και ενός ορίου e, θέλουμε να ανακτήσουμε όλες τις ακολουθίες δεδομένων που είναι μέσα σε απόσταση e Brute-force μέθοδος Αναπαράσταση τους ως ένα σημείο στον πολυδιάστατο (k-διάστατο) χώρο Πολυδιάστατο ευρετήριο Μη ακριβή ταιριάσματα; Ερώτηση υπερ-ορθογώνια περιοχή Query (hyper-rectangle) με πλευρά μήκους 2e και κέντρο την ακολουθία αίτημα Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 73 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 74 Βάσεις Δεδομένων ΙΙ Ευαγγελία Πιτουρά 75 13

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων. Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε

Διαβάστε περισσότερα

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια) Εξόρυξη εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η Εξόρυξη εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από

Διαβάστε περισσότερα

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια) εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από αυτά Ευαγγελία

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Εισαγωγή Μοντελοποίηση Στα προηγούμενα μαθήματα: Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Εννοιολογικός Σχεδιασμός Βάσεων εδομένων (με χρήση του Μοντέλου Οντοτήτων/Συσχετίσεων) Λογικός

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα Database System Concepts, 6 th Ed. Silberschatz, Korth and Sudarshan See www.db-book.com for conditions on re-use Παράδειγμα Σχέσης attributes

Διαβάστε περισσότερα

SQL Data Manipulation Language

SQL Data Manipulation Language SQL Data Manipulation Language Τελεστής union συνδυάζει subselects τα οποία παράγουν συμβατές σχέσεις γενική μορφή: subselect {union [all] subselect} περιορισμός: τα subselects δεν μπορούν να περιέχουν

Διαβάστε περισσότερα

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Ορισμοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Βάσεις Δεδομένων 2009-2010 Ευαγγελία Πιτουρά 1 Εισαγωγή Μοντελοποίηση Στα προηγούμενα μαθήματα: Εννοιολογικός Σχεδιασμός Βάσεων εδομένων (με

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 8/4/203 5 ο εξόρυξη πληροφορίας Ανακάλυψη γνώσης 2 Web and NLP 23/4/203 Ορολογία 3 Data Mining Διαδικασία ανακάλυψης γνώσης μέσω της αναζήτησης

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

2 ο Σύνολο Ασκήσεων. Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1

2 ο Σύνολο Ασκήσεων. Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 2 ο Σύνολο Ασκήσεων Οι βαθμοί θα ανακοινωθούν αύριο μαζί με τους βαθμούς της προγραμματιστικής άσκησης Τα αστεράκια δείχνουν τον εκτιμώμενο βαθμό δυσκολίας (*) εύκολο (**) μέτριο (***) δύσκολο Βάσεις Δεδομένων

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Έλεγχος Ταυτοχρονισμού

Έλεγχος Ταυτοχρονισμού Έλεγχος Ταυτοχρονισμού Κεφάλαιο 17 Database Management Systems 3ed, R. Ramakrishnan and J. Gehrke Ελληνική Μετάφραση: Γεώργιος Ευαγγελίδης 1 Συγκρουσιακώς Σειριοποιήσιμα Χρονοπρογράμματα Δυο χρονοπρογράμματα

Διαβάστε περισσότερα

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Περίληψη Επίλυση προβληµάτων χρησιµοποιώντας Greedy Αλγόριθµους Ελάχιστα Δέντρα Επικάλυψης Αλγόριθµος του Prim Αλγόριθµος του Kruskal Πρόβληµα Ελάχιστης Απόστασης

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ Κολώνια Αγγελική Στείρου

Διαβάστε περισσότερα

Σχέσεις. ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Σχέσεις. ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Σχέσεις ιδάσκοντες:. Φωτάκης,. Σούλιου Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιμελής Σχέση ιατεταγμένο ζεύγος (α, β): ύο αντικείμενα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ Ενότητα 7: Βάσεις Δεδομένων (Θεωρία) Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών Σπουδών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 11: Κανόνες Συσχέτισης Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης

Διαβάστε περισσότερα

ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη

ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης. Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη ΗΥ-360 Αρχεία και Βάσεις Δεδομένων Διδάσκων: Δ. Πλεξουσάκης Φροντιστήριο SQL Examples ΙΙ Ξένου Ρουμπίνη 1 SQL(DML) - Query Example 1 Query:1 Βρείτε τα ονόματα των έργων που δεν αφορούν το τμήμα research

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005 ΛΥΣΕΙΣ Ι. Βασιλείου -----------------------------------------------------------------------------------------------------

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής ΕΠΛ 451 Εξόρυξη Δεδομένων στον Παγκόσμιο Ιστό I. Στόχος ΑΣΚΗΣΗ 1 Ανάλυση συσχετίσεων ανάμεσα σε προϊόντα Διδάσκων: Γιώργος Πάλλης Υπεύθυνος Εργασίας: Παύλος Αντωνίου

Διαβάστε περισσότερα

Βάσεις Δεδομένων : Λογικός Σχεδιασμός 1. καλών σχεσιακών σχημάτων. Λογικός Σχεδιασμός Σχεσιακών Σχημάτων. Γενικές Κατευθύνσεις.

Βάσεις Δεδομένων : Λογικός Σχεδιασμός 1. καλών σχεσιακών σχημάτων. Λογικός Σχεδιασμός Σχεσιακών Σχημάτων. Γενικές Κατευθύνσεις. Εισαγωγή Θα εξετάσουμε πότε ένα σχεσιακό σχήμα για μια βάση δεδομένων είναι «καλό» Λογικός Σχεδιασμός Σχεσιακών Σχημάτων Γενικές Οδηγίες Η Μέθοδος της Αποσύνθεσης (γενική μεθοδολογία) Επιθυμητές Ιδιότητες

Διαβάστε περισσότερα

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ. Επιλέγει όλες τις πλειάδες, από μια σχέση R, που ικανοποιούν τη συνθήκη επιλογής.

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ. Επιλέγει όλες τις πλειάδες, από μια σχέση R, που ικανοποιούν τη συνθήκη επιλογής. ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Χειμερινό Εξάμηνο 2012 SQL Structured Query Language Δρ. Βαγγελιώ Καβακλή ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ, ΤΜΗΜΑ ΠΟΛΙΤΙΣΜΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΣ 1 Πράξεις της σχεσιακής άλγεβρας ΠΡΑΞΗ ΣΚΟΠΟΣ

Διαβάστε περισσότερα

Άσκηση 1 (15 μονάδες) (Επεκτατός Κατακερματισμός)

Άσκηση 1 (15 μονάδες) (Επεκτατός Κατακερματισμός) ΗΥ460 Τελική Εξέηαζη 29 Ιανουαπίου 2013 Σελίδα 1 από 8 Πανεπιστήμιο Κρήτης Τμήμα Επιστήμης Υπολογιστών ΗΥ-460 Συστήματα Διαχείρισης Βάσεων Δεδομένων Δημήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Επαναληπτική

Διαβάστε περισσότερα

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι Σχέσεις ιδάσκοντες: Φ. Αφράτη, Σ. Ζάχος,. Σούλιου Επιµέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιµελής Σχέση ιατεταγµένο ζεύγος (α, β):

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Αρχεία και Βάσεις Δεδομένων

Αρχεία και Βάσεις Δεδομένων ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αρχεία και Βάσεις Δεδομένων Διάλεξη 10η: SQL Μέρος 3ο Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών SQL Data Manipulation Language Τελεστής union συνδυάζει subselects

Διαβάστε περισσότερα

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη με βάση slides από A. Silberschatz, H. Korth, S. Sudarshan, Database System Concepts, 5 th edition Εισαγωγή (1) Εναλλακτικοί τρόποι για

Διαβάστε περισσότερα

Η SQL ως γλώσσα ερωτημάτων. Υπενθυμίζουμε: Σχέση = Πίνακας Πλειάδα = Εγγραφή = Γραμμή (Πίνακα) Πεδίο = Γνώρισμα (Σχέσης) = Στήλη (Πίνακα)

Η SQL ως γλώσσα ερωτημάτων. Υπενθυμίζουμε: Σχέση = Πίνακας Πλειάδα = Εγγραφή = Γραμμή (Πίνακα) Πεδίο = Γνώρισμα (Σχέσης) = Στήλη (Πίνακα) Η SQL ως γλώσσα ερωτημάτων Υπενθυμίζουμε: Σχέση = Πίνακας Πλειάδα = Εγγραφή = Γραμμή (Πίνακα) Πεδίο = Γνώρισμα (Σχέσης) = Στήλη (Πίνακα) Η γλώσσα SQL Η SQL αποτελείται από: DDL (Data Definition Language)

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Ανάλυση Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εισαγωγή Market Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort

Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort Ταξινόμηση κάδου και ταξινόμηση Ρίζας Bucket-Sort και Radix-Sort 1, c 3, a 3, b 7, d 7, g 7, e B 0 1 3 4 5 6 7 8 9 1 BucketSort (Ταξινόμηση Κάδου) - Αρχικά θεωρείται ένα κριτήριο κατανομής με βάση το οποίο

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 25: Τεχνικές Κατακερματισμού II Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double Hashing Διατεταγμένος

Διαβάστε περισσότερα

Βάσεις δεδομένων. (8 ο μάθημα) Ηρακλής Βαρλάμης

Βάσεις δεδομένων. (8 ο μάθημα) Ηρακλής Βαρλάμης Βάσεις δεδομένων (8 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr Περιεχόμενα SQL (συνέχεια) Φωλιασμένες υπο-ερωτήσεις Δημιουργία όψεων Πράξεις ενημέρωσης και περιορισμοί 1/5/2014 Βάσεις Δεδομένων 2 Από το

Διαβάστε περισσότερα

H SQL είναι η γλώσσα για όλα τα εμπορικά σχεσιακά συστήματα διαχείρισης βάσεων δεδομένων

H SQL είναι η γλώσσα για όλα τα εμπορικά σχεσιακά συστήματα διαχείρισης βάσεων δεδομένων Η γλώσσα SQL H SQL είναι η γλώσσα για όλα τα εμπορικά σχεσιακά συστήματα διαχείρισης βάσεων δεδομένων H SQL έχει διάφορα τμήματα: Γλώσσα Ορισμού Δεδομένων (ΓΟΔ) Γλώσσα Χειρισμού Δεδομένων (ΓΧΔ) Ενσωματωμένη

Διαβάστε περισσότερα

Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Σχέσεις Διδάσκοντες: Δ. Φωτάκης, Δ. Σούλιου Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διμελής Σχέση Διατεταγμένο ζεύγος (α, β):

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράμματα γιατηδιαχείρισητηςβδ Αρχεία ευρετηρίου Αρχεία δεδομένων Κατάλογος συστήματος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Σύστημα Βάσεων Δεδομένων (ΣΒΔ) 2 :

Διαβάστε περισσότερα

Αντισταθμιστική ανάλυση

Αντισταθμιστική ανάλυση Αντισταθμιστική ανάλυση Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή δεδομένων Δ : Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Παράδειγμα: Θυμηθείτε το πρόβλημα

Διαβάστε περισσότερα

Βάσεις εδοµένων 2002-2003 Ευαγγελία Πιτουρά 2

Βάσεις εδοµένων 2002-2003 Ευαγγελία Πιτουρά 2 Η Γλώσσα SQL Βάσεις εδοµένων 2002-2003 Ευαγγελία Πιτουρά 1 Η γλώσσα SQL What men or gods are these? What maidens loth? What mad pursuit? What struggle to escape? What pipes and timbrels? What wild ectasy?

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Σχέσεις. Διμελής Σχέση. ΣτοΊδιοΣύνολο. Αναπαράσταση

Σχέσεις. Διμελής Σχέση. ΣτοΊδιοΣύνολο. Αναπαράσταση Διμελής Σχέση Σχέσεις Διδάσκοντες: Φ. Αφράτη, Δ. Επιμέλεια διαφανειών: Δ. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διατεταγμένο ζεύγος (α, β): Δύο αντικείμενα

Διαβάστε περισσότερα

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2011-12 ΔΙΔΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής Τιμολέων Σελλής Καθηγητής Άσκηση 1

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 3

Αλγόριθμοι Ταξινόμησης Μέρος 3 Αλγόριθμοι Ταξινόμησης Μέρος 3 Μανόλης Κουμπαράκης 1 Ταξινόμηση με Ουρά Προτεραιότητας Θα παρουσιάσουμε τώρα δύο αλγόριθμους ταξινόμησης που χρησιμοποιούν μια ουρά προτεραιότητας για την υλοποίηση τους.

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery

5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Επερώτηση XML Εγγράφων: Εισαγωγή στη Γλώσσα XQuery ιαχείριση εδομένων στον Παγκόσμιο Ιστό Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Επεξεργασία ερωτημάτων

Επεξεργασία ερωτημάτων Επεξεργασία ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Σε τι αφορά η επεξεργασία ερωτημάτων? Αναφέρεται στο σύνολο των δραστηριοτήτων που περιλαμβάνονται στην ανάκτηση δεδομένων από μία βάση δεδομένων

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Ορισμοί Σχεσιακού Μοντέλου και (απλές)τροποποιήσεις Σχέσεων στην SQL. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ορισμοί Σχεσιακού Μοντέλου και (απλές)τροποποιήσεις Σχέσεων στην SQL. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ορισμοί Σχεσιακού Μοντέλου και (απλές)τροποποιήσεις Σχέσεων στην SQL Ευαγγελία Πιτουρά 1 Τι έχουμε δει Μοντελοποίηση Εννοιολογικός Σχεδιασμός Βάσεων Δεδομένων (με χρήση του Μοντέλου Οντοτήτων/Συσχετίσεων)

Διαβάστε περισσότερα

εντρικά Ευρετήρια έντρα Αναζήτησης

εντρικά Ευρετήρια έντρα Αναζήτησης εντρικά Ευρετήρια 1 έντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτεςωςεξής P 1 K 1 P j K

Διαβάστε περισσότερα

Ευρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια

Ευρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου που καλείται

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Ευρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια

Ευρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου που καλείται

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML

Βάσεις ιαδικτύου. Θέματα. Εισαγωγή στην XML. Ευρετήρια για την Ανάκτηση Κειμένων. Ο αλγόριθμος HITS. είναι η XML. Παράδειγμα XML Θέματα Βάσεις ιαδικτύου Ο αλγόριθμος HITS Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 2 Τι είναι η XML XML Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης)

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

ΑΛΓΟΡΙΘΜΟΙ  Άνοιξη I. ΜΗΛΗΣ ΑΛΓΟΡΙΘΜΟΙ http://eclass.aueb.gr/courses/inf161/ Άνοιξη 216 - I. ΜΗΛΗΣ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΑΛΓΟΡΙΘΜΟΙ - ΑΝΟΙΞΗ 216 - Ι. ΜΗΛΗΣ 9 DP II 1 Dynamic Programming ΓΕΝΙΚΗ ΙΔΕΑ 1. Ορισμός υπο-προβλήματος/ων

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Τμήμα Πληροφορικής ΑΠΘ

Τμήμα Πληροφορικής ΑΠΘ Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ 2013-2014 2 Σκοπός του 2 ου εργαστηρίου Σκοπός αυτού του εργαστηρίου είναι: Η μελέτη ερωτημάτων σε μία μόνο σχέση. Εξετάζουμε τους τελεστές επιλογής

Διαβάστε περισσότερα