Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)"

Transcript

1 Εξόρυξη εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η Εξόρυξη εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από αυτά Ευαγγελία Πιτουρά 2 1

2 Εισαγωγή Γιατί; Συχνά υπάρχει πληροφορία «κρυµµένη» στα δεδοµένα που δεν είναι προφανής Οι ανθρώπινοι αναλυτές µπορεί να χρειάζονται εβδοµάδες για να ανακαλύψουν χρήσιµη πληροφορία Πολλά δεδοµένα δεν αναλύονται ποτέ 4,000,000 3,500,000 3,000,000 2,500,000 The Data Gap 2,000,000 1,500,000 Total new disk (TB) since ,000, ,000 0 Number of analysts From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications Ευαγγελία Πιτουρά 3 Εισαγωγή Γιατί Εξόρυξη εδοµένων (από εµπορική πλευρά) Πολλά δεδοµένα συγκεντρώνονται και εισάγονται σε αποθήκες δεδοµένων Web δεδοµένα, e-εµπόριο Αγορές σε πολύκαταστήµατα/αλυσίδες Συναλλαγές µε τράπεζες/πιστωτικές κάρτες Οι υπολογιστές γίνονται φτηνότεροι και πιο ισχυροί Μεγάλος ανταγωνισµός Παροχή καλύτερων, προσωπικών υπηρεσιών σε κάποιο πεδίο (fraud detection, targeting marketing) Ευαγγελία Πιτουρά 4 2

3 Γιατί Εξόρυξη εδοµένων (από επιστηµονική πλευρά) Εισαγωγή Τα δεδοµένα συλλέγονται και αποθηκεύονται σε τροµερές ταχύτητες enormous speeds (GB/hour) Αποµακρυσµένοι αισθητήρες (remote sensors) σε δορυφόρους Τηλεσκόπια στον ουρανό Microarrays που παράγουν γονιδιακά δεδοµένα Επιστηµονικές προσοµοιώσεις που παράγουν terabytes δεδοµένων Η εξόρυξη δεδοµένων µπορεί να βοηθήσει τους επιστήµονες Στην κατηγοριοποίηση και την τµηµατοποίηση των δεδοµένων Στην ιατύπωση Υποθέσεων Ευαγγελία Πιτουρά 5 Παραδείγµατα εδοµένων Εισαγωγή Κυβερνητικά: TAXIS (εφορία), δηµογραφικά δεδοµένα, Μεγάλες εταιρίες WALMART: 20M συναλλαγές την ηµέρα MOBIL: 100 TB γεωλογικά σύνολα δεδοµένων AT&T 300 M κλήσεις την ηµέρα Εταιρίες πιστωτικών κρατών Επιστηµονικά NASA, EOS project: 50 GB την ώρα εδοµένα για το περιβάλλον «Κοινωνικά» -Ατοµικά Νέα, ψηφιακές κάµερες, YouTube Ευαγγελία Πιτουρά 6 3

4 Τι είναι η Εξόρυξη εδοµένων Είδη/Τεχνικές Εξόρυξης εδοµένων (συνοπτικά) Οµαδοποίηση (συσταδοποίηση) clustering χωρίζουµε ταδεδοµένα σε οµάδες από «όµοια» σύνολα Κανόνες συσχέτισης (Association rule mining) βρίσκουµε συσχετίσεις ανάµεσα στα δεδοµένα, πχ ποια δεδοµένα εµφανίζονται συχνά µαζί σε συναλλαγές Κατηγοριοποίηση (Classification) κατηγοριοποιούµε ταδεδοµένα τοποθετώντας τα σε µια (ή περισσότερες) από έναν αριθµό από δοσµένες κατηγορίες Είδη µε βάση τα δεδοµένα στα οποία γίνεται η εξόρυξη Εξόρυξη στο διαδίκτυο µηχανές αναζήτησης ενδιαφέρουσες (σηµαντικές) σελίδες µε βάσητους συνδέσµους Ευαγγελία Πιτουρά 7 Τι είναι η Εξόρυξη εδοµένων Εξόρυξη εδοµένων (Ορισµός) Πολύ µεγάλα σύνολα δεδοµένων (data sets) (1) η διαδικασίαανακάλυψης (discovery) προτύπων (patterns) που πριν δεν ήταν γνωστά, ισχύουν, είναι πιθανών χρήσιµα και είναι κατανοητά (2) η ανάλυση τους για να βρούµε µη αναµενόµενες σχέσεις ανάµεσα στα δεδοµένα καθώς και να τα συνοψίσουµε µε νέους τρόπους που είναι κατανοητοί και χρήσιµοι στους χρήστες Παραδείγµατα: αγορές από πολυκαταστήµατα, προσπελάσεις ιστοσελίδων, πακέτα στο δίκτυο, αποτελέσµατα επιστηµονικών πειραµάτων, κίνηση µετοχών, βιολογικά δεδοµένα κλπ Ευαγγελία Πιτουρά 8 4

5 Τι είναι η Εξόρυξη εδοµένων Τι δεν είναι Αναζήτηση ενός αριθµού τηλεφώνου στον τηλεφωνικό κατάλογο Ερώτηση σε µια µηχανή αναζήτησης πληροφορία για το Amazon Τι είναι Ορισµένα ονόµατα είναι πιο συχνά σε κάποιεςτοποθεσίεςστιςηπα(πχ O Brien, O Rurke, O Reilly στην περιοχή της Βοστώνης, κατάληξη «ακης» στην Κρήτη) Οµαδοποίηση όµοιων κειµένων που επιστρέφει µια µηχανή αναζήτησης µε βάση τα συµφραζόµενα (πχ δάσος Amazon, Amazon.com,) Ευαγγελία Πιτουρά 9 Οι «ρίζες» τηςεξόρυξης εδοµένων Και λίγη ιστορία Σε σχέση µε την ιστορία των Βάσεων εδοµένων, η Εξόρυξη εδοµένων είναι πολύ νέα 1960 και νωρίτερα Συλλογή εδοµένων - Επεξεργασία Αρχείων 1970 αρχές του 1980 Ιεραρχικά και δικτυακά µοντέλα Σχεσιακά συστήµατα βάσεων δεδοµένων Εργαλεία µοντελοποίησης (Ο/Σκλπ) Μέθοδοι ευρετηριοποίησης (Β-δέντρα, κατακερµατισµός, κλπ) Γλώσσες επερωτήσεων SQL, κλπ ιεπαφές χρήστη (πχ φόρµες και αναφορές) Επεξεργασία και βελτιστοποίηση ερωτήσεων Συναλλαγές, ανάκαµψη από σφάλµατα, έλεγχος συγχρονικότητας OLTP (on-line analytical processing) Ευαγγελία Πιτουρά 10 5

6 Οι «ρίζες» τηςεξόρυξης εδοµένων Και λίγη ιστορία Εξελιγµένα Συστήµατα Βάσεων εδοµένων (µέσα 1980 σήµερα) Νέα µοντέλα (αντικειµενο-σχεσιακό, επεκτεταµένα σχεσιακά κλπ) Εξελιγµένη Ανάλυση εδοµένων Αποθήκες εδοµένων και Εξόρυξη (1990 σήµερα) ιαδικτυακές Βάσεις εδοµένων 1990 σήµερα IR (Ανάκτηση Πληροφορίας) + Β Νέες εφαρµογές και τύποι δεδοµένων (χρονικά, χωρικά, χρονοχωρικά, δεδοµένα από αισθητήρες, συνεχή, κλπ) Ευαγγελία Πιτουρά 11 Οι «ρίζες» τηςεξόρυξης εδοµένων Στατιστική Εξόρυξη εδοµένων Βάσεις εδοµένων ΤΝ/ Μηχανική Μάθηση Πρέπει να αντιµετωπίσει: Το τεράστιο µέγεθος των δεδοµένων Το µεγάλο αριθµό διαστάσεων Την µη οµοιογενή και την κατανεµηµένη φύση των δεδοµένων Ευαγγελία Πιτουρά 12 6

7 Κάποιες Πηγές Σχετικές Κοινότητες Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) International Conferences on Knowledge Discovery in Databases and Data Mining (KDD 95-98) Journal of Data Mining and Knowledge Discovery (1997) ACM SIGKDD conferences since 1998 and SIGKDD Explorations More conferences on data mining PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. ACM Transactions on KDD started in 2007 Ευαγγελία Πιτουρά 13 Κάποιες Πηγές Σχετικές Κοινότητες KDD Συνέδρια ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD) Άλλα Σχετικά Συνέδρια ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Περιοδικά Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD Ευαγγελία Πιτουρά 14 7

8 Βιβλία Βιβλία Υπάρχουν 2 ελληνικά Μ. Βαζιργιάννης και Μ. Χαλκίδη, Εξόρυξη Γνώσης από Βάσεις εδοµένων. Τυποθήτω, Νοέµβριος 2003 M. H. Dunham, Data Mining, Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης από εδοµένα. Επιµέλεια Ελληνικής Έκδοσης: Β. Βερύκιος και Γ. Θεοδωρίδης. Εκδόσεις Νέων Τεχνολογιών, Ευαγγελία Πιτουρά 15 2 «κλασικά» βιβλία στα αγγλικά ΒΙβλία P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Addison Wesley, 2006 J. Han and M. Kamber. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006 Ευαγγελία Πιτουρά 16 8

9 Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία Εξόρυξη εδοµένων Ευαγγελία Πιτουρά 17 Ανακάλυψη Γνώσης (Knowledge Discovery) ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning Καθαρισµός εδοµένων Data Integration Ενοποίηση εδοµένων Data Transformation Μετασχηµατισµοί εδοµένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Ευαγγελία Πιτουρά 18 9

10 Προ-επεξεργασία δεδοµένων - Καθαρισµός Τα δεδοµένα στο πραγµατικό κόσµο είναι«βρώµικα» Ελλειπή -incomplete:µπορεί να λείπουν κάποιες τιµές γνωρισµάτων (να µην καταγράφηκαν, να καταγράφηκαν λανθασµένα λόγω µη συνεννόησης ή λανθασµένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσµατα (που να µην θεωρήθηκαν σηµαντικά ή να µην ήταν διαθέσιµα), ή να περιέχουν µόνο συναθροιστικά (aggregate) δεδοµένα Συµπλήρωση των γνωρισµάτων και τιµών που λείπουν Με θόρυβο -noisy: περιέχουν λάθη ή outliers (περιθωριακές τιµές - τιµές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιµών και αποµάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιµα ιόρθωση ασυνεπών τιµών Ευαγγελία Πιτουρά 19 Προ-επεξεργασία δεδοµένων Επιλογή εδοµένων και Γνωρισµάτων και εφαρµογή κατάλληλων Μετασχηµατισµών Συνάθροιση Aggregation: συνδυασµούς δεδοµένων από πολλές πηγές Sampling δειγµατοληψία: χρήση αντιπροσωπευτικού δείγµατος των δεδοµένων για βελτίωση της απόδοσης Dimensionality reduction µείωση διαστάσεων - Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδοµένων γίνονται δυσκολότερες µε την αύξηση της διάστασης των δεδοµένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδοµένα γίνονται πολύ αραιά) Τεχνικές της γραµµικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο µε µικρότερο αριθµό διαστάσεων Ευαγγελία Πιτουρά 20 10

11 Προ-επεξεργασία δεδοµένων Discretization (µετασχηµατιµός σε µια διακριτή τιµή) ή binarization (µετασχηµατισµός σε δυαδική τιµή) Variable transformation µετασχηµατισµοί των τιµών των µεταβλητών Πχ Κανονικοποίηση Ευαγγελία Πιτουρά 21 Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία Οπτικοποίηση Παρουσίαση των αποτελεσµάτων Ευαγγελία Πιτουρά 22 11

12 Αρχιτεκτονική του Συστήµατος Γραφικές Επαφές Χρήστη Εκτίµηση Προτύπων Μηχανή Εξόρυξης εδοµένων Βάση Γνώσης Β Εξυπηρετητής Βάσης εδοµένων ή Αποθήκης εδοµένων Καθαρισµός, Ενοποίηση και Επιλογή Αποθήκη World-Wide εδοµένων Web Άλλα Σύνολα εδοµένων Που είναι τα δεδοµένα (διασύνδεση µε Σ Β ) Βάση Γνώσης Ευαγγελία Πιτουρά 23 Εξόρυξη εδοµένων Πως χρησιµοποιείται 1. Κατανόηση του προβλήµατος 2. Χρήση τεχνικών εξόρυξης δεδοµένων για να πάρουµε πληροφορία από τα δεδοµένα 3. Χρήση αυτής της πληροφορίας 4. Μέτρηση των αποτελεσµάτων Ευαγγελία Πιτουρά 24 12

13 Είδη/Μέθοδοι για Εξόρυξη εδοµένων (συνοπτικά) 1. Ταξινόµηση - Classification: εκµάθηση µια συνάρτησης κατασκευή ενός µοντέλου που απεικονίζει ένα στοιχείο σε µια από ένα σύνολο από προκαθορισµένες κλάσεις 2. Συσταδοποίηση -Clustering: εύρεση ενός συνόλου από οµάδες µε όµοια στοιχεία 3. Εύρεση Συχνών Προτύπων, Εξαρτήσεων και Συσχετίσεων Dependencies and associations: εύρεση σηµαντικών/συχνών εξαρτήσεων µεταξύ γνωρισµάτων 5. Συνοψίσεις - Summarization: εύρεση µιας συνοπτικής περιγραφής του συνόλου δεδοµένων ή ενός υποσυνόλου του 6. Αλλα Ευαγγελία Πιτουρά 25 Είδη/Μέθοδοι για Εξόρυξη εδοµένων Predictive Methods Μέθοδοι πρόβλεψης Χρήση κάποιων µεταβλητών για να προβλέψουν άγνωστες ή µελλοντικές τιµές κάποιων άλλων µεταβλητών Descriptive Methods - Περιγραφικοί Μέθοδοι Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδοµένα τις ιδιότητες τους Ευαγγελία Πιτουρά 26 13

14 Είδη/Μέθοδοι για Εξόρυξη εδοµένων Ταξινόµηση [Predictive] Συσταδοποίηση [Descriptive] Εύρεση Κανόνων Συσχέτισης [Descriptive] Sequential Pattern Discovery [Descriptive] Regression Συνοψίσεις [Predictive] ένα συνοπτικό µοντέλο για τα δεδοµένα (πχ µια συνάρτηση) Deviation/Anomaly Detection [Predictive] outlier analysis (στατιστικοί έλεγχοι για σπάνια σηµεία), evolution analysis (πχ ανάλυση χρονοσειρών πχ µετοχές) κλπ Ευαγγελία Πιτουρά 27 Απαρίθµηση Ταυτόχρονων Εµφανίσεων Counting Co-Occurrence (Απαρίθµηση Ταυτόχρονων Εµφανίσεων) Το καλάθι της νοικοκυράς (market basket) είναι µια συλλογή στοιχείων (collection of items) που αγοράστηκαν από ένα πελάτη κατά τη διάρκεια µιας µοναδικής συναλλαγής του (transaction) του Στόχος: Εντοπισµός των αντικειµένων που εµφανίζονται µαζί σε µια συναλλαγή Ευαγγελία Πιτουρά 28 14

15 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Μια συναλλαγή Παρατηρείστε ότι υπάρχει επανάληψη πληροφορίας Παρατηρήσεις του τύπου: σε 75% των συναλλαγών αγοράστηκαν µαζί και µελάνι και πένες Ευαγγελία Πιτουρά 29 Συχνά Στοιχειοσύνολα Στοιχειοσύνολο (Itemset): είναι ένα σύνολο από αντικείµενα Υποστήριξη ενός στοιχειοσυνόλου (Support of an itemset): το ποσοστό των συναλλαγών στης βάσης δεδοµένων που περιέχουν όλα τα στοιχεία του στοιχειοσυνόλου Παράδειγµα: Στοιχειοσύνολο {pen, ink} Υποστήριξη 75% Στοιχειοσύνολο {milk, juice} Υποστήριξη 25% Μας ενδιαφέρουν στοιχειοσύνολα µε µεγάλη υποστήριξη, γιατί; Ευαγγελία Πιτουρά 30 15

16 Συχνά Στοιχειοσύνολα Συχνά Στοιχειοσύνολα : Στοιχειοσύνολα των οποίων η υποστήριξη είναι µεγαλύτερη από κάποια ελάχιστη υποστήριξη (minimum support, minsup) που θέτουν οι χρήστες Παράδειγµα: Αν minsup = 70%, Συχνά Στοιχειοσύνολα: {pen}, {ink}, {milk}, {pen, ink}, {pen, milk} Ευαγγελία Πιτουρά 31 Συχνά Στοιχειοσύνολα Έναν αλγόριθµο που να εντοπίζει (όλα) τα συχνά στοιχειοσύνολα Ο πιο απλός αλγόριθµος, For k = 1 to n Κατασκεύασε όλα τα δυνατά στοιχειοσύνολα µε k στοιχεία έλεγξε αν είναι συχνά Ευαγγελία Πιτουρά 32 16

17 Συχνά Στοιχειοσύνολα Αλγόριθµος For each item, k = 1 repeat Until n check if it is a frequent itemset /* δηλαδή, αν υπάρχει > minsum συναλλαγές */ for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Ευαγγελία Πιτουρά 33 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Έστω minsum = 70% k=1 {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι k = 2 {pen, ink} 3/4 ok {pen, milk} 3/4 ok {pen, juice} κλπ Μπορούµε νακάνουµε κάτι καλύτερο; Ευαγγελία Πιτουρά 34 17

18 Συχνά Στοιχειοσύνολα Ηιδιότηταa priori: Κάθε υποσύνολο ενός συχνού συνόλου πρέπει να αποτελεί επίσης ένα συχνό σύνολο Ευαγγελία Πιτουρά 35 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Έστω minsum = 70% {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι {pen, ink} 3/4 ok {pen, milk} 3/4 ok {ink, milk} 2/4 όχι Άρα τέλος Αποτέλεσµα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} Ευαγγελία Πιτουρά 36 18

19 Συχνά Στοιχειοσύνολα Βελτιωµένος Αλγόριθµος Εύρεσης Συχνών Στοιχειοσυνόλων For each item, check if it is a frequent itemset k = 1 repeat for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 whose subsets are frequent itemsets Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Until no new frequent itemsets are identified Ευαγγελία Πιτουρά 37 Ερωτήσεις Τύπου Παγόβουνου Υποθέστε ότι θέλουµε ναβρούµε ζεύγη αγοραστών και στοιχείων τέτοιων ώστε ο αγοραστής τους να έχει αγοράσει το στοιχείο τουλάχιστον 5 φορές select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item having sum (P.qty) > 5 Πως θα υπολογιζόταν αυτή ερώτηση σε ένα σχεσιακό Σ Β ; Ο αριθµός των οµάδων είναι πολύ µεγάλος αλλά η απάντηση στην ερώτηση (η κορυφή του παγόβουνου) είναι πολύ µικρή Ευαγγελία Πιτουρά 38 19

20 Ερωτήσεις Τύπου Παγόβουνου Iceberg query (Ερώτηση τύπου παγόβουνου) select R.A1, R.A2,, R.Ak, aggregate (R.B) from Relation R group by R.A1, R.A2,, R.Ak having aggregate (R.B) > = constant Ευαγγελία Πιτουρά 39 select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item having sum (P.qty) > 5 Ερωτήσεις Τύπου Παγόβουνου Αρκεί να εξετάσουµε µόνο εκείνες τις τιµές για το custid που αφορά πελάτες που έχουν αγοράσει τουλάχιστον 5 στοιχεία συνολικά (όχι απαραίτητα το ίδιο στοιχείο) Q1: select P.custid from Purchases P group by P.custid having sum (P.qty) > 5 Ευαγγελία Πιτουρά 40 20

21 Ερωτήσεις Τύπου Παγόβουνου Αντίστοιχα, αρκεί να εξετάσουµε µόνο εκείνες τις τιµές για το item που αφορούν στοιχεία που έχουν αγοραστεί 5 φορές συνολικά (όχι απαραίτητα από τον ίδιο πελάτη Q2: select P.item from Purchases P group by P.item having sum (P.qty) > 5 Ευαγγελία Πιτουρά 41 Ερωτήσεις Τύπου Παγόβουνου select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item having sum (P.qty) > 5 select P.custid from Purchases P Q1 group by P.custid having sum (P.qty) > 5 select P.item from Purchases P group by P.item having sum (P.qty) > 5 Q2 ηµιουργία (custid, item) ζευγών µόνο για custid από την Q1 και item από την Q2 Ευαγγελία Πιτουρά 42 21

22 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Εξόρυξη Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 43 Συνδυαστικοί Κανόνες Παράδειγµα {pen} {ink} Αν ένα στοιχείο pen αγοράζεται σε µια συναλλαγή, τότε είναι πιθανό ότι αγοράζεται και το στοιχείο ink Γενικά, συνδυαστικός κανόνας (association rule) LHS RHS Όπου LHS και RHS είναι στοιχειοσύνολα Ευαγγελία Πιτουρά 44 22

23 Συνδυαστικοί Κανόνες LHS RHS Υποστήριξη (support): support(lhs RHS) Το ποσοστό των συναλλαγών που περιέχουν όλα τα στοιχεία του (LHS RHS) Εµπιστοσύνη (confidence): support(lhs RHS) / support(lhs) Μια ένδειξη της ισχύς του κανόνα P(RHS LHS) Ευαγγελία Πιτουρά 45 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 pen milk (K1) support(k1) = 75% confidence(k1) = 75% milk pen (K2) support(k2) = 75% confidence(k2) = 100% Ευαγγελία Πιτουρά 46 23

24 Συνδυαστικοί Κανόνες Έναν αλγόριθµο εύρεσης όλων των κανόνων µε ελάχιστοminsup και ελάχιστο minconf Ελάχιστο minsum, support(lhs RHS) minsum Βήµα 1: Βρες όλα τα συχνά στοιχειοσύνολα µε minsup Βήµα 2: Παρήγαγε όλους τους κανόνες από το Βήµα 1 Ευαγγελία Πιτουρά 47 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Αποτέλεσµα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} υνατοί κανόνες pen ink ink pen pen milk milk pen Ευαγγελία Πιτουρά 48 24

25 Συνδυαστικοί Κανόνες Βήµα 2 For each frequent itemset I with support support(i) Divide I into LHS I and RHS I confidence = support(i) / support(lhs I ) Παρατήρηση Τα support(i) και support(lhs I ) τα έχουµε ήδη υπολογίσει σε προηγούµενα βήµατα του αλγορίθµου εύρεσης συχνών στοιχειοσυνόλων Ευαγγελία Πιτουρά 49 Συνδυαστικοί Κανόνες και Ιεραρχίες ISA Μια ISA ιεραρχία ή ιεραρχία κατηγοριών (category hierarchy) ανάµεσα στα σύνολα των στοιχείων: µια συναλλαγή εµµέσως περιέχει για κάθε στοιχείο και όλα τα στοιχεία που είναι προγονοί του στην ιεραρχία Beverage Stationery Επιτρέπει τον εντοπισµό σχέσεων µεταξύ στοιχείων που ανήκουν σε διαφορετικά επίπεδα της ιεραρχίας Milk Juice Pen Ink Γενικά, η υποστήριξη (support) ενός στοιχείου µπορεί µόνο να αυξηθεί µε την αντικατάσταση του στοιχείου από κάποιο πρόγονο του στην ιεραρχία Ευαγγελία Πιτουρά 50 25

26 Γενικευµένοι Συνδυαστικοί Κανόνες Πιο γενικά: όχι µόνο συναλλαγές αγοραστών Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 π.χ., Οµαδοποίηση πλειάδων µε βάση το custid Ο κανόνας {pen} {milk}: αν το στοιχείο pen αγοραστεί από κάποιο πελάτη είναι πιθανό ότι ο πελάτης θα αγοράσει και το στοιχείο milk (µε υποστήριξη και εµπιστοσύνη 100%) Ευαγγελία Πιτουρά 51 Γενικευµένοι Συνδυαστικοί Κανόνες Οµαδοποίηση πλειάδων µε βάση την ηµεροµηνία: Ηµερολογιακή ανάλυση του καλαθιού της νοικοκυράς (Calendric market basket analysis) Ένα ηµερολόγιο (calendar) είναι µια οποιαδήποτε οµάδα ηµεροµηνιών (π.χ., κάθε πρώτη του µήνα) οσµένου ενός ηµερολογίου, υπολόγισε τους συνδυαστικούς κανόνες που αφορούν πλειάδες που έχουν πραγµατοποιηθεί σε ηµεροµηνίες που ανήκουν στο ηµερολόγιο Ευαγγελία Πιτουρά 52 26

27 Γενικευµένοι Συνδυαστικοί Κανόνες Ηµερολόγιο: κάθε πρώτη του µήνα Ο κανόνας {pen} {juice}: έχει support 100% Ενώ γενικά: 50% Ο κανόνας {pen} {milk}: έχει support 50% Ενώ γενικά: 75% Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Ευαγγελία Πιτουρά 53 Ακολουθιακά Πρότυπα Ακολουθία (sequence) στοιχειοσυνόλων: Η ακολουθία των στοιχείων που αγοράστηκαν από τον πελάτη: Παράδειγµα custid 201: {pen, ink, milk, juice}, {pen, ink, juice} (ordered by date) Μια υπο-ακολουθία (subsequence) µιας ακολουθίας στοιχειοσυνόλων προκύπτει διαγράφοντας ένα ή περισσότερα στοιχειοσύνολα και αποτελεί επίσης µια ακολουθία στοιχειοσυνόλων Ευαγγελία Πιτουρά 54 27

28 Ακολουθιακά Πρότυπα Μια ακολουθία a 1, a 2,.., a n περιέχεται σε µια ακολουθία S αν η µια υπο-ακολουθία b q,.., b m such that a i b i for 1 i m S έχει Παράδειγµα {pen}, {ink, milk}, {pen, juice} περιέχεται στην {pen, ink}, {shirt}, {juice, ink, milk}, {juice, pen, milk} Η σειρά των στοιχείων σε κάθε στοιχειοσύνολο δεν έχει σηµασία αλλά η σειρά των στοχειοοσυνόλων στην ακολουθία έχει {pen}, {ink, milk}, {pen, juice} δεν περιέχεται στην {pen, ink}, {shirt}, {juice, pen, milk}, {juice, milk, ink} Ευαγγελία Πιτουρά 55 Ακολουθιακά Πρότυπα Η υποστήριξη µια ακολουθίας στοιχειοσυνόλων S είναι το ποσοστό των ακολουθιών του πελάτη των οποίων η S είναι υπο-ακολουθία Βρες όλες τις ακολουθίες που έχουν µια ελάχιστη υποστήριξη Ευαγγελία Πιτουρά 56 28

29 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Εξόρυξη Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 57 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης InsuranceInfo(age: integer, cartype: string, highrisk: boolean) Υπάρχει ένα γνώρισµα (highrisk: ΥψηλούΚινδύνου) του οποίου την τιµή θαθέλαµε να προβλέψουµε: Εξαρτηµένο Γνώρισµα Τα άλλα γνωρίσµατα ονοµάζονται προβλέποντα γνωρίσµατα (predictors) Ηγενική µορφή των κανόνων που θέλουµενα προβλέψουµε είναι: P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Ευαγγελία Πιτουρά 58 29

30 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c P i (X i ) είναι κατηγορήµατα (predicates) ύο τύποι γνωρισµάτων: αριθµητικά P i (X i ) : l i X i h i κατηγοριακά (categorical) P i (X i ) : X i {v 1,, v j } αριθµητικά εξαρτηµένα γνωρίσµατα κατηγοριακά εξαρτηµένα γνωρίσµατα κανόνας παλινδρόµησης κανόνας κατηγοριοποίησης (16 age 25) (cartype {Sports, Truck}) highrisk = true Ευαγγελία Πιτουρά 59 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Υποστήριξη: Ηυποστήριξηγιαµια συνθήκη C είναι το ποσοστό των πλειάδων που ικανοποιούν την C. Η υποστήριξη του κανόνα C1 C2 είναι η υποστήριξη της συνθήκης C1 C2 Εµπιστοσύνη Έστω όλες οι πλειάδες που ικανοποιούν τη συνθήκη C1. Η εµπιστοσύνη του κανόνα C1 C2 είναιτοποσοστότωνπλειάδων αυτών που ικανοποιούν και τη συνθήκη C2 Ευαγγελία Πιτουρά 60 30

31 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης Γενικεύοντας P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = f(x 1, X 2,, X k ) Η διαφορά από τους συνδυαστικούς κανόνες είναι ότι θεωρούν συνεχή και κατηγοριακά γνωρίσµατα και όχι µόνο ένα πεδίο µε πολλαπλές καθορισµένες τιµές Πολλές εφαρµογές, π.χ. σε επιστηµονικά πειράµατα, προώθηση προϊόντων µέσω ταχυδροµείου, προβλέψεις χρηµατοοικονοµικών µεγεθών, ιατρικές προγνώσεις Θα δούµε στη συνέχεια έναν ειδικό τύπο τους Ευαγγελία Πιτουρά 61 ενδρικοί Κανόνες έντρα αποφάσεων ή δέντρα κατηγοριοποίησης έντρα Παλινδρόµησης Συνήθως το ίδιο το δέντρο είναι το αποτέλεσµα της εξόρυξης δεδοµένων Εύκολο να κατανοηθεί Αποδοτικοί αλγόριθµοι για την κατασκευή του Ευαγγελία Πιτουρά 62 31

32 ενδρικοί Κανόνες Παράδειγµα δέντρου <= 25 Age > 25 Car Type No Other Sports, Truck No Yes Ευαγγελία Πιτουρά 63 ενδρικοί Κανόνες Γραφική απεικόνιση µια συλλογής κανόνων κατηγοριοποίησης. Εσωτερικοί κόµβοι: ετικέτα (labeled) µε ένα προβλέπον γνώρισµα (που ονοµάζεται και διαχωρίζον γνώρισµα (splitting attribute) Εξερχόµενες ακµές: έχουν ως ετικέτα το κατηγόρηµα που περιλαµβάνει το διαχωρίζον γνώρισµα του κόµβου (κριτήριο διαχωρισµού του κόµβου - splitting criterion) ξένα µεταξύ τους Φύλλα: έχουν ως ετικέτα το κατηγόρηµα µια τιµή τουεξαρτώµενου γνωρίσµατος Θα εξετάσουµε δυαδικά δέντρα αποφάσεων αλλά µπορεί να έχουµε και δέντρα υψηλότερου βαθµού Ευαγγελία Πιτουρά 64 32

33 ενδρικοί Κανόνες οσµένης µια εγγραφής δεδοµένων το δέντρο οδηγεί από τη ρίζα σε ένα φύλλο. Age Μπορούµε να κατασκευάσουµε κανόνες κατηγοριοποίησης > 25 <= 25 ακολουθώντας κάθε µονοπάτι από τη ρίζα σε φύλλο: Car Type No LHS σύζευξη των κατηγορηµάτων, RHS η τιµή του φύλλου Other Sports, Truck Ένας κανόνας για κάθε φύλλο No Yes (16 age 25) (cartype {Sports, Truck}) highrisk = true Ευαγγελία Πιτουρά 65 Κατασκευή σε δύο φάσεις ενδρικοί Κανόνες ΦΑΣΗ 1: φάση ανάπτυξης κατασκευή ενός πολύ µεγάλου δέντρου (π.χ., ένα φύλλο για κάθε εγγραφή της βάσης δεδοµένων) ΦΑΣΗ 2: φάση κλαδέµατος Κατασκευή του δέντρου greedily από πάνω προς τα κάτω: Στη ρίζα εξέτασε τη βάση δεδοµένων και επέλεξε το καλύτερο κριτήριο διαχωρισµού (τοπικά βέλτιστο κριτήριο) ιαµέρισετηβάσησεδύοµέρη Εφάρµοσε αναδροµικάσεκάθεπαιδί Ευαγγελία Πιτουρά 66 33

34 ενδρικοί Κανόνες Input: node n partition D split selection method S Output: decision tree for D rooted at node n Top down Decision Tree Induction Schema BuildTree(node n, partition D, method S) Apply S to D to find the splitting criterion If (a good splitting criterion is found) create two children nodes n1 and n2 of n partition D into D1 and D2 BuildTree(n1, D1, S) Build Tree(n2, D2, S) Ευαγγελία Πιτουρά 67 ενδρικοί Κανόνες Μέθοδος επιλογής διαχωρισµού Ένας αλγόριθµος που παίρνει ως είσοδο µια σχέση (ή ένατµήµα µιας σχέσης) και δίνει ως έξοδο το τοπικά βέλτιστο κριτήριο Παράδειγµα: εξετάστε τα γνωρίσµατα cartype και age, επέλεξε ένα από αυτό ως γνώρισµα διαχωρισµού και µετά επέλεξε το γνώρισµα διαχωρισµού Ευαγγελία Πιτουρά 68 34

35 ενδρικοί Κανόνες Πως µπορούµε να κατασκευάσουµε δέντρα αποφάσεων που είναι µεγαλύτερα από τη κύρια µνήµη; Αντί να φορτώσουµε όλη τη βάση δεδοµένων στη µνήµη: ίνουµε στη µέθοδο επιλογής διαχωρισµού συανθροιστική πληροφορία για τα γνωρίσµατα Χρειαζόµαστε συναθροιστική πληροφορία για κάθε γνώρισµα πρόβλεψης Σύνολο AVC του γνωρίσµατος πρόβλεψης Χ στον κόµβο n είναι η προβολή του διαµερίσµατος της βάσης δεδοµένων του κόµβου n στο X και στο εξαρτηµένο γνώρισµα όπου συναθροίζονται οι συχνότητες (counts) των διακριτών τιµών του εξαρτηµένου γνωρίσµατος Ευαγγελία Πιτουρά 69 ενδρικοί Κανόνες age cartype highrisk 23 Sedan false 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true 30 Truck false 25 Sports true 18 Sedan false Σύνολο AVC του γνωρίσµατος πρόβλεψης age στη ρίζα select R.age, R.highrisk, count(*) from InsuranceInfo R group by R.age, R.highrisk true false 18 O Ευαγγελία Πιτουρά 70 35

36 ενδρικοί Κανόνες age cartype highrisk 23 Sedan false 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true 30 Truck false 25 Sports true 18 Sedan false Σύνολο AVC του γνωρίσµατος πρόβλεψης cartype στη ρίζα select R.cartype, R.highrisk, count(*) from InsuranceInfo R group by R.cartype, R.highrisk true false Sedan 0 4 Sports 1 1 Truck 2 1 Ευαγγελία Πιτουρά 71 ενδρικοί Κανόνες age cartype highrisk 23 Sedan false 30 Sports false 36 Sedan false 25 Truck true 30 Sedan false 23 Truck true 30 Truck false 25 Sports true 18 Sedan false Σύνολο AVC του γνωρίσµατος πρόβλεψης cartype στο αριστερό παιδί της ρίζας select R.cartype, R.highrisk, count(*) from InsuranceInfo R where R.age <=25 group by R.age, R.highrisk true false Sedan 0 2 Sports 1 0 Truck 2 0 Ευαγγελία Πιτουρά 72 36

37 ενδρικοί Κανόνες Οµάδα AVC ενός κόµβου n: το σύνολο των AVC συνόλων όλων των γνωρισµάτων πρόβλεψης στον κόµβο n Ποιο είναι το µέγεθος του συνόλου AVC; Ευαγγελία Πιτουρά 73 ενδρικοί Κανόνες Input: node n partition D split selection method S Output: decision tree for D rooted at node n Top down Decision Tree Induction Schema BuildTree(node n, partition D, method S) Make a scan over D and construct the AVC group of node n in memory Apply S to AVC group to find the splitting criterion If (a good splitting criterion is found) create two children nodes n1 and n2 of n partition D into D1 and D2 BuildTree(n1, D1, S) Build Tree(n2, D2, S) Ευαγγελία Πιτουρά 74 37

38 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Εξόρυξη Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 75 Συγκρότηση ιαµέριση ενός συνόλου εγγραφών σε οµάδες συγκροτήµατα (clusters) έτσι ώστε όλες οι εγγραφές που ανήκουν σε µια οµάδα να είναι όµοιες µεταξύ τους και οι εγγραφές που ανήκουν σε διαφορετικές οµάδες να είναι ανόµοιες Η οµοιότητα µεταξύ των εγγραφών υπολογίζεται µέσς µιας συνάρτησης απόστασης distance function. Εξαρτάται από τον τύπο των δεδοµένων και την εφαρµογή Ευαγγελία Πιτουρά 76 38

39 Συγκρότηση CustomerInfo(age: integer, salary:real) Salary Age Μπορούµε να εντοπίσουµε τρία συγκροτήµατα (clusters) το σχήµα τους σφαιρικό Ευαγγελία Πιτουρά 77 Συγκρότηση Η έξοδος ενός αλγορίθµου συγκρότησης είναι µαι συνοπτική αναπαράσταση κάθε συγκροτήµατος Η µορφή του αποτελέσµατος εξαρτάται από τον τύπο και το σχήµα των συγκροτηµάτων Για παράδειγµα για σφαιρικά συγκροτήµατα, έξοδος: κέντρο C (µέσο) and ακτίνα R: δοσµένου µιας συλλογής εγγραφών r 1, r 2,.., r n C = r i n R = (r i -C) n Ευαγγελία Πιτουρά 78 39

40 Συγκρότηση ύο κατηγορίες αλγορίθµων συγκρότησης: Αλγόριθµος ιαχωρισµού: διαµερίζει τα δεδοµένα σε k συγκροτήµατα έτσι ώστε να βελτιστοποιείται η τιµή κάποιου κριτηρίου το k συνήθως προσδιορίζεται από τον χρήστη Ιεραρχικός Αλγόριθµος παράγει µια ακολουθία από διαµερίσεις των δεδοµένων. Ξεκινώντας από µια διαµέριση όπου κάθε εγγραφή αποτελεί ένα συγκρότηµα, σε κάθε βήµα συγχωνεύει και δυο συγκροτήµατα Ευαγγελία Πιτουρά 79 Ο αλγόριθµος BIRCH: Υποθέσεις Μεγάλος αριθµός εγγραφών, µόνο ένα πέρασµα Περιορισµένη µνήµη Συγκρότηση ύο παράµετροι k: όριο διαθεσιµότητας κύριας µνήµης: µέγιστος αριθµός συνοπτικών αναπαραστάσεων συγκροτηµάτων που µπορούνανκαταχωρηθούνστηνκύρια µνήµη e: αρχικό όριο της ακτίνας κάθε συγκροτήµατος καθορίζει και τον αριθµό των συγκροτηµάτων. Ένα συγκρότηµα είναι συµπαγές αν η ακτίνα του είναι µικρότερη από e. Πάντα διατήρησε στην κύρια µνήµη k ήλιγότερασυµπαγή συγκροτήµατα (Ci, Ri) (Αν αυτό δεν είναι δυνατόν, τροποποίησε το e) Ευαγγελία Πιτουρά 80 40

41 Συγκρότηση Ο αλγόριθµος BIRCH: Read a record r from the database /* διάβασε τις εγγραφές σειριακά */ Compute the distance of r and each of the existing cluster centers Let i be the cluster (index) such that the distance between r and C i is the smallest /* i: το πιο κοντινό συγκρότηµα */ Compute R i assuming r is inserted in the ith cluster /* υπολόγισε τη νέα ακτίνα */ If R i e, /* µικρότερη, το συγκρότηµα παραµένει συµπαγές, επισύναψε το r */ insert r in the ith cluster recompute R i and C i else /* µεγαλύτερη δηµιούργησε νέο συγκρότηµα */ start a new cluster containing only r Ευαγγελία Πιτουρά 81 Συγκρότηση Ο αλγόριθµος BIRCH: Μέγιστος αριθµός συγκροτηµάτων -> τροποποίησε το e Αποδοτικοί τρόποι εντοπισµού του κοντινότερου συγκροτήµατος, π.χ., χρήση Β+ δέντρων Ευαγγελία Πιτουρά 82 41

42 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Εξόρυξη Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 83 Οµοιότητα Ακολουθιών Ο χρήστης καθορίζει µία ακολουθία αίτηµα (query sequence) και θέλει να ανακτήσει όλες τις ακολουθίες δεδοµένων που είναι όµοιες µε αυτήν Όχι απαραίτητα να ταιριάζουν ακριβώς (Not exact matches) Μια ακολουθία δεδοµένων (data sequence) X είναι µια σειρά αριθµών X = <x 1, x 2,.., x k > Συχνά ονοµάζεται και χρονολογική σειρά (time series) k µήκος (length) της ακολουθίας Μια υποακολουθία (subsequence) Z = <z 1, z 2,, z j > προκύπτει από µια ακολουθία X µε τηδιαγραφήαριθµών από των αρχή και το τέλος της ακολουθίας Ευαγγελία Πιτουρά 84 42

43 Οµοιότητα Ακολουθιών Μπορούµε να ορίσουµε την απόσταση µεταξύ δυο ακολουθιών ως την Ευκλείδεια κανονική (Euclidean norm) οθείσας µιας ακολουθίας-αίτηµα και ενός ορίου e, θέλουµε να ανακτήσουµε όλες τις ακολουθίες δεδοµένων που είναι µέσα σε απόσταση e Πλήρης ταύτιση ακολουθιών Complete sequence matching η ακολουθία-αίτηµα και οι ακολουθίες δεδοµένων έχουν το ίδιο µήκος Ταύτιση υποακολουθιών Subsequence matching (η ακολουθία αίτηµα έχειµικρότερο µήκος) Ευαγγελία Πιτουρά 85 Οµοιότητα Ακολουθιών οθείσας µιας ακολουθίας-αίτηµα και ενός ορίου e, θέλουµε να ανακτήσουµε όλες τις ακολουθίες δεδοµένων που είναι µέσα σε απόσταση e Brute-force µέθοδος Αναπαράσταση τους ως ένα σηµείο στον πολυδιάστατο (k-διάστατο) χώρο Πολυδιάστατο ευρετήριο Μη ακριβή ταιριάσµατα; Ερώτηση υπερ-ορθογώνια περιοχή Query ( hyper-rectangle) µε πλευρά µήκους 2-e και κέντρο την ακολουθία αίτηµα Ευαγγελία Πιτουρά 86 43

44 Εξόρυξη Παγκόσµιου Ιστού Ευαγγελία Πιτουρά 87 Εισαγωγή The WWW is huge, widely distributed, global information service center for ΥΠΗΡΕΣΙΕΣ - Information services: news, advertisements, consumer information, financial management, education, government, e-commerce, etc. ΣΥΝ ΕΣΜΟΙ - Hyper-link information ΠΛΗΡΟΦΟΡΙΑ ΧΡΗΣΗΣ - Access and usage information WWW provides rich sources for data mining Challenges Too huge for effective data warehousing and data mining Too complex and heterogeneous: no standards and structure Ευαγγελία Πιτουρά 88 44

45 Εισαγωγή Growing and changing very rapidly Internet growth Sep-69 Sep-72 Sep-75 Sep-78 Hosts Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Broad diversity of user communities Only a small portion of the information on the Web is truly relevant or useful 99% of the Web information is useless to 99% of Web users How can we find high-quality Web pages on a specified topic? Ευαγγελία Πιτουρά 89 Κατηγορίες Εξόρυξης από το Web Εξόρυξη από το Web Εξόρυξη Περιεχοµένου Εξόρυξη οµής Εξόρυξη Χρήσης Εξόρυξη περιεχοµένου σελίδων Εξόρυξη αποτελεσµάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Ευαγγελία Πιτουρά 90 45

46 Εξόρυξη από το Web Ψάχνουµε για Web access patterns Web structures Regularity and dynamics of Web contents Προβλήµατα The abundance problem: ο αριθµός των σελίδων που συσχετίζονται µε ένανόροµπορεί να είναι πολύ µεγάλος Limited coverage of the Web: hidden Web sources, majority of data in DBMS Limited query interface based on keyword-oriented search Limited customization to individual users Ευαγγελία Πιτουρά 91 Κατηγορίες Εξόρυξης από το Web Εξόρυξη από το Web Εξόρυξη Περιεχοµένου Εξόρυξη οµής Εξόρυξη Χρήσης Εξόρυξη περιεχοµένου σελίδων Web Page Summarization WebLog (Lakshmanan et.al. 1996), WebOQL(Mendelzon et.al. 1998): Web Structuring query languages; Can identify information within given web pages Ahoy! (Etzioni et.al. 1997):Uses heuristics to distinguish personal home pages from other web pages ShopBot (Etzioni et.al. 1997): Looks for product prices within web pages Εξόρυξη αποτελεσµάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Ευαγγελία Πιτουρά 92 46

47 Κατηγορίες Εξόρυξης από το Web Εξόρυξη από το Web Εξόρυξη Περιεχοµένου Εξόρυξη οµής Εξόρυξη Χρήσης Εξόρυξη περιεχοµένου σελίδων Εξόρυξη Αποτελεσµάτων Αναζήτησης Search Engine Result Summarization Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Clustering Search Result (Leouski and Croft, 1996, Zamir and Etzioni, 1997): Οµαδοποίηση των αποτελεσµάτων χρησιµοποιώντας φράσεις στους τίτλους και snippets Ευαγγελία Πιτουρά 93 Κατηγορίες Εξόρυξης από το Web PageRank, HITS Εξόρυξη από το Web Small-world models, Εξόρυξη Περιεχοµένου Εξόρυξη οµής Εξόρυξη Χρήσης Εξόρυξη περιεχοµένου σελίδων Εξόρυξη αποτελεσµάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Ευαγγελία Πιτουρά 94 47

48 Κατηγορίες Εξόρυξης από το Web Εξόρυξη εδοµένων Χρήσης Mining Web log records to discover user access patterns of Web pages Applications Target potential customers for electronic commerce Enhance the quality and delivery of Internet information services to the end user Improve Web server system performance Identify potential prime advertisement locations Web logs provide rich information about Web dynamics Typical Web log entry includes the URL requested, the IP address from which the request originated, and a timestamp Ευαγγελία Πιτουρά 95 Κατηγορίες Εξόρυξης από το Web Τεχνικές Εξόρυξης εδοµένων Χρήσης Construct multidimensional view on the Weblog database Perform multidimensional OLAP analysis to find the top N users, top N accessed Web pages, most frequently accessed time periods, etc. Perform data mining on Weblog records Find association patterns, sequential patterns, and trends of Web accessing May need additional information,e.g., user browsing sequences of the Web pages in the Web server buffer Conduct studies to Analyze system performance, improve system design by Web caching, Web page prefetching, and Web page swapping Ευαγγελία Πιτουρά 96 48

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια) εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από αυτά Ευαγγελία

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων. Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε

Διαβάστε περισσότερα

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Τι είναι η Γιατί; Συχνά υπάρχει πληροφορία «κρυμμένη» στα δεδομένα που δεν είναι προφανής Οι ανθρώπινοι αναλυτές μπορεί να χρειάζονται εβδομάδες για να ανακαλύψουν χρήσιμη πληροφορία Πολλά

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εξόρυξη Δεδομένων 2008-2009 1 Εισαγωγή Τι είναι η Εξόρυξη εδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες συλλογές από δεδομένα και να εξάγουμε χρήσιμες

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εισαγωγή Τεράστιος όγκος διαθέσιμων δεδομένων χρειαζόμαστε μεθόδουςγιανατααναλύσουμε Τι είναι η Εξόρυξη Δεδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile

Διαβάστε περισσότερα

Διδάσκοντες: Μαρία Χαλκίδη

Διδάσκοντες: Μαρία Χαλκίδη Αποθήκες και Εξόρυξη Δεδομένων 6 ο εξάμηνο Τμήμα Ψηφιακών Συστημάτων Παν. Πειραιά Διδάσκοντες: Μαρία Χαλκίδη Μαθήματα σχετικά με Διαχείριση Δεδομένων στο Πρόγραμμα Σπουδών Δομές Δεδομένων (3 ο εξάμηνο)

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Gemini,, Applications Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Εαρινό Εξάμηνο 2011-2012 Table of contents 1 Table of contents 1 2 Table of contents 1 2 3 Table of contents

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 1: Εισαγωγή Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Προεπεξεργασία εδοµένων

Προεπεξεργασία εδοµένων Προεπεξεργασία εδοµένων Αποθήκες και Εξόρυξη εδοµένων 2 ο Μάθηµα ιδάσκων: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδοµένων- πυρήνας της διαδικασίας

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα Εισαγωγή 1 Ζήτω οι Βάσεις εδοµένων!! Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα Μοντελοποίηση Αποθήκευση Επεξεργασία (εύρεση πληροφορίας σχετικής µε µια συγκεκριµένη ερώτηση) Σωστή Λειτουργία

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Διαδικαστικά Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile

Διαβάστε περισσότερα

Συστήματα Επιχειρηματικής Ευφυίας

Συστήματα Επιχειρηματικής Ευφυίας Συστήματα Επιχειρηματικής Ευφυίας Εισαγωγή Μιχάλης Μαλιάππης, 2018 Διδασκαλία Μαθήματος Σελίδα eclass: https://mediasrv.aua.gr/eclass/courses/aoa198/ Βιβλιογραφία TAN PANG-NING, STEINBACH MICHAEL, KUMAR

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Επαναληπτική Εξέταση (3 ώρες) Ηµεροµηνία:

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining) ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm "Πυραµίδα"

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Βάσεις εδοµένων 2011-2012 Ευαγγελία Πιτουρά 1 Εισαγωγή Μοντελοποίηση Στα προηγούµενα µαθήµατα: Εννοιολογικός Σχεδιασµός Βάσεων Δεδοµένων (µε

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm πληµµύρα από δεδοµένα

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη

Ευρετήρια. Βάσεις Δεδομένων. Διδάσκων: Μαρία Χαλκίδη Ευρετήρια Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βασικές έννοιες Οι μηχανισμοί δεικτοδότησης χρησιμοποιούνται για να επιταχύνουν την προσπέλαση σε επιθυμητά δεδομένα. π.χ., author catalog in library

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη με βάση slides από A. Silberschatz, H. Korth, S. Sudarshan, Database System Concepts, 5 th edition Εισαγωγή (1) Εναλλακτικοί τρόποι για

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Β. Μεγαλοοικονόμου Εισαγωγή στην Εξόρυξη Δεδομένων Γενική Επισκόπηση- Σχεσιακό μοντέλο Σχεσιακό Μοντέλο -SQL Συναρτησιακές εξαρτήσεις & Κανονικοποίηση Φυσικός

Διαβάστε περισσότερα

Επεξεργασία ερωτημάτων

Επεξεργασία ερωτημάτων Επεξεργασία ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Σε τι αφορά η επεξεργασία ερωτημάτων? Αναφέρεται στο σύνολο των δραστηριοτήτων που περιλαμβάνονται στην ανάκτηση δεδομένων από μία βάση δεδομένων

Διαβάστε περισσότερα

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE) EPL 603 TOPICS IN SOFTWARE ENGINEERING Lab 5: Component Adaptation Environment (COPE) Performing Static Analysis 1 Class Name: The fully qualified name of the specific class Type: The type of the class

Διαβάστε περισσότερα

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα) Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα) Μοντέλα, οµές (Σχήµα) και Αντιπρόσωποι (Data Models, Schema, and Instances) DBMS αρχιτεκτονική ιάφοροι τύποι γλωσσών και διεπαφές

Διαβάστε περισσότερα

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015

Ημερίδα διάχυσης αποτελεσμάτων έργου Ιωάννινα, 14/10/2015 MIS έργου:346983 Τίτλος Έργου: Epirus on Androids: Έμπιστη, με Διαφύλαξη της Ιδιωτικότητας και Αποδοτική Διάχυση Πληροφορίας σε Κοινωνικά Δίκτυα με Γεωγραφικές Εφαρμογές Έργο συγχρηματοδοτούμενο από την

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 3

Αλγόριθμοι Ταξινόμησης Μέρος 3 Αλγόριθμοι Ταξινόμησης Μέρος 3 Μανόλης Κουμπαράκης 1 Ταξινόμηση με Ουρά Προτεραιότητας Θα παρουσιάσουμε τώρα δύο αλγόριθμους ταξινόμησης που χρησιμοποιούν μια ουρά προτεραιότητας για την υλοποίηση τους.

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

ΗΜΥ 325: Επαναληπτικές Μέθοδοι. Διδάσκων: Χρίστος Παναγιώτου

ΗΜΥ 325: Επαναληπτικές Μέθοδοι. Διδάσκων: Χρίστος Παναγιώτου ΗΜΥ 325: Επαναληπτικές Μέθοδοι Διδάσκων: Χρίστος Παναγιώτου ΗΜΥ 325: Επαναληπτικές Μέθοδοι. A. Levitin, Introduction to the Design and Analysis of Algorithms, 2 nd Ed. Περίληψη µαθήµατος Επιπρόσθετες Πληροφορίες

Διαβάστε περισσότερα

Αντισταθμιστική ανάλυση

Αντισταθμιστική ανάλυση Αντισταθμιστική ανάλυση Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή δεδομένων Δ : Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Παράδειγμα: Θυμηθείτε το πρόβλημα

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 8/4/203 5 ο εξόρυξη πληροφορίας Ανακάλυψη γνώσης 2 Web and NLP 23/4/203 Ορολογία 3 Data Mining Διαδικασία ανακάλυψης γνώσης μέσω της αναζήτησης

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 25: Τεχνικές Κατακερματισμού II Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double Hashing Διατεταγμένος

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to Κεφάλαιο 2 Δοµές Δεδοµένων Ι Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Δοµές Δεδοµένων Ι Στην ενότητα αυτή θα γνωρίσουµε ορισµένες Δοµές Δεδοµένων και θα τις χρησιµοποιήσουµε

Διαβάστε περισσότερα

Βασικές Έννοιες Δοµών Δεδοµένων

Βασικές Έννοιες Δοµών Δεδοµένων Δοµές Δεδοµένων Δοµές Δεδοµένων Στην ενότητα αυτή θα γνωρίσουµε ορισµένες Δοµές Δεδοµένων και θα τις χρησιµοποιήσουµε για την αποδοτική επίλυση του προβλήµατος του ευσταθούς ταιριάσµατος Βασικές Έννοιες

Διαβάστε περισσότερα

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τµήµα Πληροφορικής Φθινοπωρινό Εξάµηνο 2016 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4 Διδάσκων: E. Μαρκάκης Υλοποίηση LRU Cache Στην εργασία αυτή ζητείται να υλοποιήσετε σε Java τις βασικές

Διαβάστε περισσότερα

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 4:

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 4: Εισαγωγή στα Πληροφοριακά Συστήματα Ενότητα 4: Η έννοια της ΠΛΗΡΟΦΟΡΙΑΣ - INFORMATION Κωνσταντίνος Ταραμπάνης Τμήμα Οργάνωσης & Διοίκησης Επιχειρήσεων ΕΙΣΑΓΩΓΗ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κωνσταντίνος Ταραμπάνης

Διαβάστε περισσότερα

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Επίλυση Προβληµάτων µε Greedy Αλγόριθµους Περίληψη Επίλυση προβληµάτων χρησιµοποιώντας Greedy Αλγόριθµους Ελάχιστα Δέντρα Επικάλυψης Αλγόριθµος του Prim Αλγόριθµος του Kruskal Πρόβληµα Ελάχιστης Απόστασης

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Ανάλυση Συσχέτισης IΙ

Ανάλυση Συσχέτισης IΙ Ανάλυση Συσχέτισης IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 ΟΑλγόριθμοςFP-Growth Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΚΑΝΟΝΕΣ

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Κανόνες για ανάπτυξη διαγραµµάτων κλάσεων

Κανόνες για ανάπτυξη διαγραµµάτων κλάσεων 1 Ελληνικό Ανοικτό Πανεπιστήµιο Κανόνες για ανάπτυξη διαγραµµάτων κλάσεων ρ. Πάνος Φιτσιλής 2 Περιεχόµενα Προσδιορισµός κλάσεων Πως να ονοµάσουµε τις κλάσεις; Που να τις βρούµε; Τι να κοιτάξουµε; Τι να

Διαβάστε περισσότερα

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems 2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems Multiple User Interfaces MobileSoft'16, Multi-User Experience (MUX) S1: Insourcing S2: Outsourcing S3: Responsive design

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Χρονικής Γνώσης (temporal data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Δομές Δεδομένων Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού

Διαβάστε περισσότερα

Στόχοι και αντικείμενο ενότητας

Στόχοι και αντικείμενο ενότητας Ενότητα 8 Διαχείριση Δεδομένων Πληροφοριακά Συστήματα Διοίκησης Ι Διδάσκων: Νίκος Καρακαπιλίδης 8-1 Στόχοι και αντικείμενο ενότητας Παραδοσιακή οργάνωση αρχείων και προβλήματα Συστήματα Διαχείρισης Βάσεως

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

SQL Data Manipulation Language

SQL Data Manipulation Language SQL Data Manipulation Language Τελεστής union συνδυάζει subselects τα οποία παράγουν συμβατές σχέσεις γενική μορφή: subselect {union [all] subselect} περιορισμός: τα subselects δεν μπορούν να περιέχουν

Διαβάστε περισσότερα

Αναλυτικές λειτουργίες ΣΓΠ

Αναλυτικές λειτουργίες ΣΓΠ Αναλυτικές λειτουργίες ΣΓΠ Γενικά ερωτήµατα στα οποία απαντά ένα ΣΓΠ Εντοπισµού (locaton) Ιδιότητας (condton) Τάσεων (trend) ιαδροµών (routng) Μορφών ή προτύπων (pattern) Και µοντέλων (modellng) παραδείγµατα

Διαβάστε περισσότερα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα Εισαγωγή στην εξόρυξη δεδομένων ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα 1 Δεδομένα, δεδομένα, δεδομένα... Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα:

Διαβάστε περισσότερα