Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)"

Transcript

1 εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από αυτά Ευαγγελία Πιτουρά 2 1

2 Εισαγωγή Γιατί; Συχνά υπάρχει πληροφορία «κρυµµένη» στα δεδοµένα που δεν είναι προφανής Οι ανθρώπινοι αναλυτές µπορεί να χρειάζονται εβδοµάδες για να ανακαλύψουν χρήσιµη πληροφορία Πολλά δεδοµένα δεν αναλύονται ποτέ 4,000,000 3,500,000 3,000,000 2,500,000 The Data Gap 2,000,000 1,500,000 Total new disk (TB) since ,000, ,000 0 Number of analysts From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications Ευαγγελία Πιτουρά 3 Εισαγωγή Γιατί εδοµένων (από εµπορική πλευρά) Πολλά δεδοµένα συγκεντρώνονται και εισάγονται σε αποθήκες δεδοµένων Web δεδοµένα, e-εµπόριο Αγορές σε πολύκαταστήµατα/αλυσίδες Συναλλαγές µε τράπεζες/πιστωτικές κάρτες Οι υπολογιστές γίνονται φτηνότεροι και πιο ισχυροί Μεγάλος ανταγωνισµός Παροχή καλύτερων, προσωπικών υπηρεσιών σε κάποιο πεδίο (fraud detection, targeting marketing) Ευαγγελία Πιτουρά 4 2

3 Γιατί εδοµένων (από επιστηµονική πλευρά) Εισαγωγή Τα δεδοµένα συλλέγονται και αποθηκεύονται σε τροµερές ταχύτητες enormous speeds (GB/hour) Αποµακρυσµένοι αισθητήρες (remote sensors) σε δορυφόρους Τηλεσκόπια στον ουρανό Microarrays που παράγουν γονιδιακά δεδοµένα Επιστηµονικές προσοµοιώσεις που παράγουν terabytes δεδοµένων Η εξόρυξη δεδοµένων µπορεί να βοηθήσει τους επιστήµονες Στην κατηγοριοποίηση και την τµηµατοποίηση των δεδοµένων Στην ιατύπωση Υποθέσεων Ευαγγελία Πιτουρά 5 Παραδείγµατα εδοµένων Εισαγωγή Κυβερνητικά: TAXIS (εφορία), δηµογραφικά δεδοµένα, Μεγάλες εταιρίες WALMART: 20M συναλλαγές την ηµέρα MOBIL: 100 TB γεωλογικά σύνολα δεδοµένων AT&T 300 M κλήσεις την ηµέρα Εταιρίες πιστωτικών κρατών Επιστηµονικά NASA, EOS project: 50 GB την ώρα εδοµένα για το περιβάλλον «Κοινωνικά» -Ατοµικά Νέα, ψηφιακές κάµερες, YouTube Ευαγγελία Πιτουρά 6 3

4 Τι είναι η εδοµένων Είδη/Τεχνικές ς εδοµένων (συνοπτικά) Οµαδοποίηση (συσταδοποίηση) clustering χωρίζουµε ταδεδοµένα σε οµάδες από «όµοια» σύνολα Κανόνες συσχέτισης (Association rule mining) βρίσκουµε συσχετίσεις ανάµεσα στα δεδοµένα, πχ ποια δεδοµένα εµφανίζονται συχνά µαζί σε συναλλαγές Κατηγοριοποίηση (Classification) κατηγοριοποιούµε ταδεδοµένα τοποθετώντας τα σε µια (ή περισσότερες) από έναν αριθµό από δοσµένες κατηγορίες Είδη µε βάση τα δεδοµένα στα οποία γίνεται η εξόρυξη στο διαδίκτυο µηχανές αναζήτησης ενδιαφέρουσες (σηµαντικές) σελίδες µε βάσητους συνδέσµους Ευαγγελία Πιτουρά 7 Τι είναι η εδοµένων εδοµένων (Ορισµός) Πολύ µεγάλα σύνολα δεδοµένων (data sets) (1) η διαδικασίαανακάλυψης (discovery) προτύπων (patterns) που πριν δεν ήταν γνωστά, ισχύουν, είναι πιθανών χρήσιµα και είναι κατανοητά (2) η ανάλυση τους για να βρούµε µη αναµενόµενες σχέσεις ανάµεσα στα δεδοµένα καθώς και να τα συνοψίσουµε µε νέους τρόπους που είναι κατανοητοί και χρήσιµοι στους χρήστες Παραδείγµατα: αγορές από πολυκαταστήµατα, προσπελάσεις ιστοσελίδων, πακέτα στο δίκτυο, αποτελέσµατα επιστηµονικών πειραµάτων, κίνηση µετοχών, βιολογικά δεδοµένα κλπ Ευαγγελία Πιτουρά 8 4

5 Τι είναι η εδοµένων Τι δεν είναι Αναζήτηση ενός αριθµού τηλεφώνου στον τηλεφωνικό κατάλογο Ερώτηση σε µια µηχανή αναζήτησης πληροφορία για το Amazon Τι είναι Ορισµένα ονόµατα είναι πιο συχνά σε κάποιεςτοποθεσίεςστιςηπα(πχ O Brien, O Rurke, O Reilly στην περιοχή της Βοστώνης, κατάληξη «ακης» στην Κρήτη) Οµαδοποίηση όµοιων κειµένων που επιστρέφει µια µηχανή αναζήτησης µε βάση τα συµφραζόµενα (πχ δάσος Amazon, Amazon.com,) Ευαγγελία Πιτουρά 9 Οι «ρίζες» τηςς εδοµένων Και λίγη ιστορία Σε σχέση µε την ιστορία των Βάσεων εδοµένων, η εδοµένων είναι πολύ νέα 1960 και νωρίτερα Συλλογή εδοµένων - Επεξεργασία Αρχείων 1970 αρχές του 1980 Ιεραρχικά και δικτυακά µοντέλα Σχεσιακά συστήµατα βάσεων δεδοµένων Εργαλεία µοντελοποίησης (Ο/Σκλπ) Μέθοδοι ευρετηριοποίησης (Β-δέντρα, κατακερµατισµός, κλπ) Γλώσσες επερωτήσεων SQL, κλπ ιεπαφές χρήστη (πχ φόρµες και αναφορές) Επεξεργασία και βελτιστοποίηση ερωτήσεων Συναλλαγές, ανάκαµψη από σφάλµατα, έλεγχος συγχρονικότητας OLTP (on-line analytical processing) Ευαγγελία Πιτουρά 10 5

6 Οι «ρίζες» τηςς εδοµένων Και λίγη ιστορία Εξελιγµένα Συστήµατα Βάσεων εδοµένων (µέσα 1980 σήµερα) Νέα µοντέλα (αντικειµενο-σχεσιακό, επεκτεταµένα σχεσιακά κλπ) Εξελιγµένη Ανάλυση εδοµένων Αποθήκες εδοµένων και (1990 σήµερα) ιαδικτυακές Βάσεις εδοµένων 1990 σήµερα IR (Ανάκτηση Πληροφορίας) + Β Νέες εφαρµογές και τύποι δεδοµένων (χρονικά, χωρικά, χρονοχωρικά, δεδοµένα από αισθητήρες, συνεχή, κλπ) Ευαγγελία Πιτουρά 11 Οι «ρίζες» τηςς εδοµένων Στατιστική εδοµένων Βάσεις εδοµένων ΤΝ/ Μηχανική Μάθηση Πρέπει να αντιµετωπίσει: Το τεράστιο µέγεθος των δεδοµένων Το µεγάλο αριθµό διαστάσεων Την µη οµοιογενή και την κατανεµηµένη φύση των δεδοµένων Ευαγγελία Πιτουρά 12 6

7 Κάποιες Πηγές Σχετικές Κοινότητες Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) International Conferences on Knowledge Discovery in Databases and Data Mining (KDD 95-98) Journal of Data Mining and Knowledge Discovery (1997) ACM SIGKDD conferences since 1998 and SIGKDD Explorations More conferences on data mining PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc. ACM Transactions on KDD started in 2007 Ευαγγελία Πιτουρά 13 Κάποιες Πηγές Σχετικές Κοινότητες KDD Συνέδρια ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD) Άλλα Σχετικά Συνέδρια ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Περιοδικά Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD Ευαγγελία Πιτουρά 14 7

8 Βιβλία Βιβλία Υπάρχουν 2 ελληνικά Μ. Βαζιργιάννης και Μ. Χαλκίδη, Γνώσης από Βάσεις εδοµένων. Τυποθήτω, Νοέµβριος 2003 M. H. Dunham, Data Mining, Εισαγωγικά και Προηγµένα Θέµατα ς Γνώσης από εδοµένα. Επιµέλεια Ελληνικής Έκδοσης: Β. Βερύκιος και Γ. Θεοδωρίδης. Εκδόσεις Νέων Τεχνολογιών, Ευαγγελία Πιτουρά 15 2 «κλασικά» βιβλία στα αγγλικά ΒΙβλία P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Addison Wesley, 2006 J. Han and M. Kamber. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006 Ευαγγελία Πιτουρά 16 8

9 Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία εδοµένων Ευαγγελία Πιτουρά 17 Ανακάλυψη Γνώσης (Knowledge Discovery) ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning Καθαρισµός εδοµένων Data Integration Ενοποίηση εδοµένων Data Transformation Μετασχηµατισµοί εδοµένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Ευαγγελία Πιτουρά 18 9

10 Προ-επεξεργασία δεδοµένων - Καθαρισµός Τα δεδοµένα στο πραγµατικό κόσµο είναι«βρώµικα» Ελλειπή -incomplete:µπορεί να λείπουν κάποιες τιµές γνωρισµάτων (να µην καταγράφηκαν, να καταγράφηκαν λανθασµένα λόγω µη συνεννόησης ή λανθασµένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσµατα (που να µην θεωρήθηκαν σηµαντικά ή να µην ήταν διαθέσιµα), ή να περιέχουν µόνο συναθροιστικά (aggregate) δεδοµένα Συµπλήρωση των γνωρισµάτων και τιµών που λείπουν Με θόρυβο -noisy: περιέχουν λάθη ή outliers (περιθωριακές τιµές - τιµές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιµών και αποµάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιµα ιόρθωση ασυνεπών τιµών Ευαγγελία Πιτουρά 19 Προ-επεξεργασία δεδοµένων Επιλογή εδοµένων και Γνωρισµάτων και εφαρµογή κατάλληλων Μετασχηµατισµών Συνάθροιση Aggregation: συνδυασµούς δεδοµένων από πολλές πηγές Sampling δειγµατοληψία: χρήση αντιπροσωπευτικού δείγµατος των δεδοµένων για βελτίωση της απόδοσης Dimensionality reduction µείωση διαστάσεων - Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδοµένων γίνονται δυσκολότερες µε την αύξηση της διάστασης των δεδοµένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδοµένα γίνονται πολύ αραιά) Τεχνικές της γραµµικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο µε µικρότερο αριθµό διαστάσεων Ευαγγελία Πιτουρά 20 10

11 Προ-επεξεργασία δεδοµένων Discretization (µετασχηµατιµός σε µια διακριτή τιµή) ή binarization (µετασχηµατισµός σε δυαδική τιµή) Variable transformation µετασχηµατισµοί των τιµών των µεταβλητών Πχ Κανονικοποίηση Ευαγγελία Πιτουρά 21 Ανακάλυψη Γνώσης (Knowledge Discovery) Προ-επεξεργασία Οπτικοποίηση Παρουσίαση των αποτελεσµάτων Ευαγγελία Πιτουρά 22 11

12 Αρχιτεκτονική του Συστήµατος Γραφικές Επαφές Χρήστη Εκτίµηση Προτύπων Μηχανή ς εδοµένων Βάση Γνώσης Β Εξυπηρετητής Βάσης εδοµένων ή Αποθήκης εδοµένων Καθαρισµός, Ενοποίηση και Επιλογή Αποθήκη World-Wide εδοµένων Web Άλλα Σύνολα εδοµένων Που είναι τα δεδοµένα (διασύνδεση µε Σ Β ) Βάση Γνώσης Ευαγγελία Πιτουρά 23 εδοµένων Πως χρησιµοποιείται 1. Κατανόηση του προβλήµατος 2. Χρήση τεχνικών εξόρυξης δεδοµένων για να πάρουµε πληροφορία από τα δεδοµένα 3. Χρήση αυτής της πληροφορίας 4. Μέτρηση των αποτελεσµάτων Ευαγγελία Πιτουρά 24 12

13 Είδη/Μέθοδοι για εδοµένων (συνοπτικά) 1. Ταξινόµηση - Classification: εκµάθηση µια συνάρτησης κατασκευή ενός µοντέλου που απεικονίζει ένα στοιχείο σε µια από ένα σύνολο από προκαθορισµένες κλάσεις 2. Συσταδοποίηση -Clustering: εύρεση ενός συνόλου από οµάδες µε όµοια στοιχεία 3. Εύρεση Συχνών Προτύπων, Εξαρτήσεων και Συσχετίσεων Dependencies and associations: εύρεση σηµαντικών/συχνών εξαρτήσεων µεταξύ γνωρισµάτων 5. Συνοψίσεις - Summarization: εύρεση µιας συνοπτικής περιγραφής του συνόλου δεδοµένων ή ενός υποσυνόλου του 6. Αλλα Ευαγγελία Πιτουρά 25 Είδη/Μέθοδοι για εδοµένων Predictive Methods Μέθοδοι πρόβλεψης Χρήση κάποιων µεταβλητών για να προβλέψουν άγνωστες ή µελλοντικές τιµές κάποιων άλλων µεταβλητών Descriptive Methods - Περιγραφικοί Μέθοδοι Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδοµένα τις ιδιότητες τους Ευαγγελία Πιτουρά 26 13

14 Είδη/Μέθοδοι για εδοµένων Ταξινόµηση [Predictive] Συσταδοποίηση [Descriptive] Εύρεση Κανόνων Συσχέτισης [Descriptive] Sequential Pattern Discovery [Descriptive] Regression Συνοψίσεις [Predictive] ένα συνοπτικό µοντέλο για τα δεδοµένα (πχ µια συνάρτηση) Deviation/Anomaly Detection [Predictive] outlier analysis (στατιστικοί έλεγχοι για σπάνια σηµεία), evolution analysis (πχ ανάλυση χρονοσειρών πχ µετοχές) κλπ Ευαγγελία Πιτουρά 27 Απαρίθµηση Ταυτόχρονων Εµφανίσεων Counting Co-Occurrence (Απαρίθµηση Ταυτόχρονων Εµφανίσεων) Το καλάθι της νοικοκυράς (market basket) είναι µια συλλογή στοιχείων (collection of items) που αγοράστηκαν από ένα πελάτη κατά τη διάρκεια µιας µοναδικής συναλλαγής του (transaction) του Στόχος: Εντοπισµός των αντικειµένων που εµφανίζονται µαζί σε µια συναλλαγή Ευαγγελία Πιτουρά 28 14

15 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Μια συναλλαγή Παρατηρείστε ότι υπάρχει επανάληψη πληροφορίας Παρατηρήσεις του τύπου: σε 75% των συναλλαγών αγοράστηκαν µαζί και µελάνι και πένες Ευαγγελία Πιτουρά 29 Συχνά Στοιχειοσύνολα Στοιχειοσύνολο (Itemset): είναι ένα σύνολο από αντικείµενα Υποστήριξη ενός στοιχειοσυνόλου (Support of an itemset): το ποσοστό των συναλλαγών στης βάσης δεδοµένων που περιέχουν όλα τα στοιχεία του στοιχειοσυνόλου Παράδειγµα: Στοιχειοσύνολο {pen, ink} Υποστήριξη 75% Στοιχειοσύνολο {milk, juice} Υποστήριξη 25% Μας ενδιαφέρουν στοιχειοσύνολα µε µεγάλη υποστήριξη, γιατί; Ευαγγελία Πιτουρά 30 15

16 Συχνά Στοιχειοσύνολα Συχνά Στοιχειοσύνολα : Στοιχειοσύνολα των οποίων η υποστήριξη είναι µεγαλύτερη από κάποια ελάχιστη υποστήριξη (minimum support, minsup) που θέτουν οι χρήστες Παράδειγµα: Αν minsup = 70%, Συχνά Στοιχειοσύνολα: {pen}, {ink}, {milk}, {pen, ink}, {pen, milk} Ευαγγελία Πιτουρά 31 Συχνά Στοιχειοσύνολα Έναν αλγόριθµο που να εντοπίζει (όλα) τα συχνά στοιχειοσύνολα Ο πιο απλός αλγόριθµος, For k = 1 to n Κατασκεύασε όλα τα δυνατά στοιχειοσύνολα µε k στοιχεία έλεγξε αν είναι συχνά Ευαγγελία Πιτουρά 32 16

17 Συχνά Στοιχειοσύνολα Αλγόριθµος For each item, k = 1 repeat Until n check if it is a frequent itemset /* δηλαδή, αν υπάρχει > minsum συναλλαγές */ for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Ευαγγελία Πιτουρά 33 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Έστω minsum = 70% k=1 {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι k = 2 {pen, ink} 3/4 ok {pen, milk} 3/4 ok {pen, juice} κλπ Μπορούµε νακάνουµε κάτι καλύτερο; Ευαγγελία Πιτουρά 34 17

18 Συχνά Στοιχειοσύνολα Ηιδιότηταa priori: Κάθε υποσύνολο ενός συχνού συνόλου πρέπει να αποτελεί επίσης ένα συχνό σύνολο Ευαγγελία Πιτουρά 35 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Έστω minsum = 70% {pen} 4/4 ok {ink} 3/4 ok {milk} 3/4 ok {juice} 2/4 όχι {pen, ink} 3/4 ok {pen, milk} 3/4 ok {ink, milk} 2/4 όχι Άρα τέλος Αποτέλεσµα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} Ευαγγελία Πιτουρά 36 18

19 Συχνά Στοιχειοσύνολα Βελτιωµένος Αλγόριθµος Εύρεσης Συχνών Στοιχειοσυνόλων For each item, check if it is a frequent itemset k = 1 repeat for each new frequent itemset I k with k items Generate all itemsets I k+1 with k+1 items, I k I k+1 whose subsets are frequent itemsets Scan all transactions once and check if the generated k+1 itemsets are frequent k = k + 1 Until no new frequent itemsets are identified Ευαγγελία Πιτουρά 37 Ερωτήσεις Τύπου Παγόβουνου Υποθέστε ότι θέλουµε ναβρούµε ζεύγη αγοραστών και στοιχείων τέτοιων ώστε ο αγοραστής τους να έχει αγοράσει το στοιχείο τουλάχιστον 5 φορές select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item having sum (P.qty) > 5 Πως θα υπολογιζόταν αυτή ερώτηση σε ένα σχεσιακό Σ Β ; Ο αριθµός των οµάδων είναι πολύ µεγάλος αλλά η απάντηση στην ερώτηση (η κορυφή του παγόβουνου) είναι πολύ µικρή Ευαγγελία Πιτουρά 38 19

20 Ερωτήσεις Τύπου Παγόβουνου Iceberg query (Ερώτηση τύπου παγόβουνου) select R.A1, R.A2,, R.Ak, aggregate (R.B) from Relation R group by R.A1, R.A2,, R.Ak having aggregate (R.B) > = constant Ευαγγελία Πιτουρά 39 select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item having sum (P.qty) > 5 Ερωτήσεις Τύπου Παγόβουνου Αρκεί να εξετάσουµε µόνο εκείνες τις τιµές για το custid που αφορά πελάτες που έχουν αγοράσει τουλάχιστον 5 στοιχεία συνολικά (όχι απαραίτητα το ίδιο στοιχείο) Q1: select P.custid from Purchases P group by P.custid having sum (P.qty) > 5 Ευαγγελία Πιτουρά 40 20

21 Ερωτήσεις Τύπου Παγόβουνου Αντίστοιχα, αρκεί να εξετάσουµε µόνο εκείνες τις τιµές για το item που αφορούν στοιχεία που έχουν αγοραστεί 5 φορές συνολικά (όχι απαραίτητα από τον ίδιο πελάτη Q2: select P.item from Purchases P group by P.item having sum (P.qty) > 5 Ευαγγελία Πιτουρά 41 Ερωτήσεις Τύπου Παγόβουνου select P.custid, P. item, sum(p.qty) from Purchases P group by P.custid, P.item having sum (P.qty) > 5 select P.custid from Purchases P Q1 group by P.custid having sum (P.qty) > 5 select P.item from Purchases P group by P.item having sum (P.qty) > 5 Q2 ηµιουργία (custid, item) ζευγών µόνο για custid από την Q1 και item από την Q2 Ευαγγελία Πιτουρά 42 21

22 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 43 Συνδυαστικοί Κανόνες Παράδειγµα {pen} {ink} Αν ένα στοιχείο pen αγοράζεται σε µια συναλλαγή, τότε είναι πιθανό ότι αγοράζεται και το στοιχείο ink Γενικά, συνδυαστικός κανόνας (association rule) LHS RHS Όπου LHS και RHS είναι στοιχειοσύνολα Ευαγγελία Πιτουρά 44 22

23 Συνδυαστικοί Κανόνες LHS RHS Υποστήριξη (support): support(lhs RHS) Το ποσοστό των συναλλαγών που περιέχουν όλα τα στοιχεία του (LHS RHS) Εµπιστοσύνη (confidence): support(lhs RHS) / support(lhs) Μια ένδειξη της ισχύς του κανόνα P(RHS LHS) Ευαγγελία Πιτουρά 45 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 pen milk (K1) support(k1) = 75% confidence(k1) = 75% milk pen (K2) support(k2) = 75% confidence(k2) = 100% Ευαγγελία Πιτουρά 46 23

24 Συνδυαστικοί Κανόνες Έναν αλγόριθµο εύρεσης όλων των κανόνων µε ελάχιστοminsup και ελάχιστο minconf Ελάχιστο minsum, support(lhs RHS) minsum Βήµα 1: Βρες όλα τα συχνά στοιχειοσύνολα µε minsup Βήµα 2: Παρήγαγε όλους τους κανόνες από το Βήµα 1 Ευαγγελία Πιτουρά 47 Παράδειγµα Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Αποτέλεσµα {pen}, {ink}, {milk}, {pen, ink} {pen, milk} υνατοί κανόνες pen ink ink pen pen milk milk pen Ευαγγελία Πιτουρά 48 24

25 Συνδυαστικοί Κανόνες Βήµα 2 For each frequent itemset I with support support(i) Divide I into LHS I and RHS I confidence = support(i) / support(lhs I ) Παρατήρηση Τα support(i) και support(lhs I ) τα έχουµε ήδη υπολογίσει σε προηγούµενα βήµατα του αλγορίθµου εύρεσης συχνών στοιχειοσυνόλων Ευαγγελία Πιτουρά 49 Συνδυαστικοί Κανόνες και Ιεραρχίες ISA Μια ISA ιεραρχία ή ιεραρχία κατηγοριών (category hierarchy) ανάµεσα στα σύνολα των στοιχείων: µια συναλλαγή εµµέσως περιέχει για κάθε στοιχείο και όλα τα στοιχεία που είναι προγονοί του στην ιεραρχία Beverage Stationery Επιτρέπει τον εντοπισµό σχέσεων µεταξύ στοιχείων που ανήκουν σε διαφορετικά επίπεδα της ιεραρχίας Milk Juice Pen Ink Γενικά, η υποστήριξη (support) ενός στοιχείου µπορεί µόνο να αυξηθεί µε την αντικατάσταση του στοιχείου από κάποιο πρόγονο του στην ιεραρχία Ευαγγελία Πιτουρά 50 25

26 Γενικευµένοι Συνδυαστικοί Κανόνες Πιο γενικά: όχι µόνο συναλλαγές αγοραστών Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 π.χ., Οµαδοποίηση πλειάδων µε βάση το custid Ο κανόνας {pen} {milk}: αν το στοιχείο pen αγοραστεί από κάποιο πελάτη είναι πιθανό ότι ο πελάτης θα αγοράσει και το στοιχείο milk (µε υποστήριξη και εµπιστοσύνη 100%) Ευαγγελία Πιτουρά 51 Γενικευµένοι Συνδυαστικοί Κανόνες Οµαδοποίηση πλειάδων µε βάση την ηµεροµηνία: Ηµερολογιακή ανάλυση του καλαθιού της νοικοκυράς (Calendric market basket analysis) Ένα ηµερολόγιο (calendar) είναι µια οποιαδήποτε οµάδα ηµεροµηνιών (π.χ., κάθε πρώτη του µήνα) οσµένου ενός ηµερολογίου, υπολόγισε τους συνδυαστικούς κανόνες που αφορούν πλειάδες που έχουν πραγµατοποιηθεί σε ηµεροµηνίες που ανήκουν στο ηµερολόγιο Ευαγγελία Πιτουρά 52 26

27 Γενικευµένοι Συνδυαστικοί Κανόνες Ηµερολόγιο: κάθε πρώτη του µήνα Ο κανόνας {pen} {juice}: έχει support 100% Ενώ γενικά: 50% Ο κανόνας {pen} {milk}: έχει support 50% Ενώ γενικά: 75% Transid custid date item qty /1/99 pen /1/99 ink /1/99 milk /1/99 juice /3/99 pen /3/99 ink /3/99 milk /10/99 pen /10/99 milk /1/99 pen /1/99 ink /1/99 juice 4 Ευαγγελία Πιτουρά 53 Ακολουθιακά Πρότυπα Ακολουθία (sequence) στοιχειοσυνόλων: Η ακολουθία των στοιχείων που αγοράστηκαν από τον πελάτη: Παράδειγµα custid 201: {pen, ink, milk, juice}, {pen, ink, juice} (ordered by date) Μια υπο-ακολουθία (subsequence) µιας ακολουθίας στοιχειοσυνόλων προκύπτει διαγράφοντας ένα ή περισσότερα στοιχειοσύνολα και αποτελεί επίσης µια ακολουθία στοιχειοσυνόλων Ευαγγελία Πιτουρά 54 27

28 Ακολουθιακά Πρότυπα Μια ακολουθία a 1, a 2,.., a n περιέχεται σε µια ακολουθία S αν η µια υπο-ακολουθία b q,.., b m such that a i b i for 1 i m S έχει Παράδειγµα {pen}, {ink, milk}, {pen, juice} περιέχεται στην {pen, ink}, {shirt}, {juice, ink, milk}, {juice, pen, milk} Η σειρά των στοιχείων σε κάθε στοιχειοσύνολο δεν έχει σηµασία αλλά η σειρά των στοχειοοσυνόλων στην ακολουθία έχει {pen}, {ink, milk}, {pen, juice} δεν περιέχεται στην {pen, ink}, {shirt}, {juice, pen, milk}, {juice, milk, ink} Ευαγγελία Πιτουρά 55 Ακολουθιακά Πρότυπα Η υποστήριξη µια ακολουθίας στοιχειοσυνόλων S είναι το ποσοστό των ακολουθιών του πελάτη των οποίων η S είναι υπο-ακολουθία Βρες όλες τις ακολουθίες που έχουν µια ελάχιστη υποστήριξη Ευαγγελία Πιτουρά 56 28

29 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 57 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης InsuranceInfo(age: integer, cartype: string, highrisk: boolean) Υπάρχει ένα γνώρισµα (highrisk: ΥψηλούΚινδύνου) του οποίου την τιµή θαθέλαµε να προβλέψουµε: Εξαρτηµένο Γνώρισµα Τα άλλα γνωρίσµατα ονοµάζονται προβλέποντα γνωρίσµατα (predictors) Ηγενική µορφή των κανόνων που θέλουµενα προβλέψουµε είναι: P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Ευαγγελία Πιτουρά 58 29

30 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c P i (X i ) είναι κατηγορήµατα (predicates) ύο τύποι γνωρισµάτων: αριθµητικά P i (X i ) : l i X i h i κατηγοριακά (categorical) P i (X i ) : X i {v 1,, v j } αριθµητικά εξαρτηµένα γνωρίσµατα κατηγοριακά εξαρτηµένα γνωρίσµατα κανόνας παλινδρόµησης κανόνας κατηγοριοποίησης (16 age 25) (cartype {Sports, Truck}) highrisk = true Ευαγγελία Πιτουρά 59 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = c Υποστήριξη: Ηυποστήριξηγιαµια συνθήκη C είναι το ποσοστό των πλειάδων που ικανοποιούν την C. Η υποστήριξη του κανόνα C1 C2 είναι η υποστήριξη της συνθήκης C1 C2 Εµπιστοσύνη Έστω όλες οι πλειάδες που ικανοποιούν τη συνθήκη C1. Η εµπιστοσύνη του κανόνα C1 C2 είναιτοποσοστότωνπλειάδων αυτών που ικανοποιούν και τη συνθήκη C2 Ευαγγελία Πιτουρά 60 30

31 Κανόνες Κατηγοριοποίησης και Παλινδρόµησης Γενικεύοντας P 1 (X 1 ) P 2 (X 2 ) P k (X k ) Y = f(x 1, X 2,, X k ) Η διαφορά από τους συνδυαστικούς κανόνες είναι ότι θεωρούν συνεχή και κατηγοριακά γνωρίσµατα και όχι µόνο ένα πεδίο µε πολλαπλές καθορισµένες τιµές Πολλές εφαρµογές, π.χ. σε επιστηµονικά πειράµατα, προώθηση προϊόντων µέσω ταχυδροµείου, προβλέψεις χρηµατοοικονοµικών µεγεθών, ιατρικές προγνώσεις Θα δούµε στη συνέχεια έναν ειδικό τύπο τους Ευαγγελία Πιτουρά 61 Θέµατα Απαρίθµηση Ταυτόχρονων Εµφανίσεων Συχνά Στοιχειοσύνολα Ερωτήσεις Παγόβουνου Κανόνων Συνδυαστικοί Κανόνες Ακολουθιακοί Κανόνες Κατηγοριοποίηση και Παλινδρόµηση ενδρικοί Κανόνες Συγκρότηση (Clustering) Οµοιότητα Ακολουθιών Ευαγγελία Πιτουρά 62 31

32 Συγκρότηση ιαµέριση ενός συνόλου εγγραφών σε οµάδες συγκροτήµατα (clusters) έτσι ώστε όλες οι εγγραφές που ανήκουν σε µια οµάδα να είναι όµοιες µεταξύ τους και οι εγγραφές που ανήκουν σε διαφορετικές οµάδες να είναι ανόµοιες Η οµοιότητα µεταξύ των εγγραφών υπολογίζεται µέσς µιας συνάρτησης απόστασης distance function. Εξαρτάται από τον τύπο των δεδοµένων και την εφαρµογή Ευαγγελία Πιτουρά 63 Συγκρότηση CustomerInfo(age: integer, salary:real) Salary Age Μπορούµε να εντοπίσουµε τρία συγκροτήµατα (clusters) το σχήµα τους σφαιρικό Ευαγγελία Πιτουρά 64 32

33 Συγκρότηση Η έξοδος ενός αλγορίθµου συγκρότησης είναι µαι συνοπτική αναπαράσταση κάθε συγκροτήµατος Η µορφή του αποτελέσµατος εξαρτάται από τον τύπο και το σχήµα των συγκροτηµάτων Για παράδειγµα για σφαιρικά συγκροτήµατα, έξοδος: κέντρο C (µέσο) and ακτίνα R: δοσµένου µιας συλλογής εγγραφών r 1, r 2,.., r n C = r i n R = (r i -C) n Ευαγγελία Πιτουρά 65 Συγκρότηση ύο κατηγορίες αλγορίθµων συγκρότησης: Αλγόριθµος ιαχωρισµού: διαµερίζει τα δεδοµένα σε k συγκροτήµατα έτσι ώστε να βελτιστοποιείται η τιµή κάποιου κριτηρίου το k συνήθως προσδιορίζεται από τον χρήστη Ιεραρχικός Αλγόριθµος παράγει µια ακολουθία από διαµερίσεις των δεδοµένων. Ξεκινώντας από µια διαµέριση όπου κάθε εγγραφή αποτελεί ένα συγκρότηµα, σε κάθε βήµα συγχωνεύει και δυο συγκροτήµατα Ευαγγελία Πιτουρά 66 33

34 Συγκρότηση Ο αλγόριθµος BIRCH: Υποθέσεις Μεγάλος αριθµός εγγραφών, µόνο ένα πέρασµα Περιορισµένη µνήµη ύο παράµετροι k: όριο διαθεσιµότητας κύριας µνήµης: µέγιστος αριθµός συνοπτικών αναπαραστάσεων συγκροτηµάτων που µπορούνανκαταχωρηθούνστηνκύρια µνήµη e: αρχικό όριο της ακτίνας κάθε συγκροτήµατος καθορίζει και τον αριθµό των συγκροτηµάτων. Ένα συγκρότηµα είναι συµπαγές αν η ακτίνα του είναι µικρότερη από e. Πάντα διατήρησε στην κύρια µνήµη k ήλιγότερασυµπαγή συγκροτήµατα (Ci, Ri) (Αν αυτό δεν είναι δυνατόν, τροποποίησε το e) Ευαγγελία Πιτουρά 67 Συγκρότηση Ο αλγόριθµος BIRCH: Read a record r from the database /* διάβασε τις εγγραφές σειριακά */ Compute the distance of r and each of the existing cluster centers Let i be the cluster (index) such that the distance between r and C i is the smallest /* i: το πιο κοντινό συγκρότηµα */ Compute R i assuming r is inserted in the ith cluster /* υπολόγισε τη νέα ακτίνα */ If R i e, /* µικρότερη, το συγκρότηµα παραµένει συµπαγές, επισύναψε το r */ insert r in the ith cluster recompute R i and C i else /* µεγαλύτερη δηµιούργησε νέο συγκρότηµα */ start a new cluster containing only r Ευαγγελία Πιτουρά 68 34

35 Συγκρότηση Ο αλγόριθµος BIRCH: Μέγιστος αριθµός συγκροτηµάτων -> τροποποίησε το e Αποδοτικοί τρόποι εντοπισµού του κοντινότερου συγκροτήµατος, π.χ., χρήση Β+ δέντρων Ευαγγελία Πιτουρά 69 Παγκόσµιου Ιστού Ευαγγελία Πιτουρά 70 35

36 Εισαγωγή The WWW is huge, widely distributed, global information service center for ΥΠΗΡΕΣΙΕΣ - Information services: news, advertisements, consumer information, financial management, education, government, e-commerce, etc. ΣΥΝ ΕΣΜΟΙ - Hyper-link information ΠΛΗΡΟΦΟΡΙΑ ΧΡΗΣΗΣ - Access and usage information WWW provides rich sources for data mining Challenges Too huge for effective data warehousing and data mining Too complex and heterogeneous: no standards and structure Ευαγγελία Πιτουρά 71 Εισαγωγή Growing and changing very rapidly Internet growth Sep-69 Sep-72 Sep-75 Sep-78 Hosts Sep-81 Sep-84 Sep-87 Sep-90 Sep-93 Sep-96 Sep-99 Broad diversity of user communities Only a small portion of the information on the Web is truly relevant or useful 99% of the Web information is useless to 99% of Web users How can we find high-quality Web pages on a specified topic? Ευαγγελία Πιτουρά 72 36

37 Κατηγορίες ς από το Web από το Web Περιεχοµένου οµής Χρήσης περιεχοµένου σελίδων αποτελεσµάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Ευαγγελία Πιτουρά 73 από το Web Ψάχνουµε για Web access patterns Web structures Regularity and dynamics of Web contents Προβλήµατα The abundance problem: ο αριθµός των σελίδων που συσχετίζονται µε ένανόροµπορεί να είναι πολύ µεγάλος Limited coverage of the Web: hidden Web sources, majority of data in DBMS Limited query interface based on keyword-oriented search Limited customization to individual users Ευαγγελία Πιτουρά 74 37

38 Κατηγορίες ς από το Web από το Web Περιεχοµένου οµής Χρήσης περιεχοµένου σελίδων Web Page Summarization WebLog (Lakshmanan et.al. 1996), WebOQL(Mendelzon et.al. 1998): Web Structuring query languages; Can identify information within given web pages Ahoy! (Etzioni et.al. 1997):Uses heuristics to distinguish personal home pages from other web pages ShopBot (Etzioni et.al. 1997): Looks for product prices within web pages αποτελεσµάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Ευαγγελία Πιτουρά 75 Κατηγορίες ς από το Web από το Web Περιεχοµένου οµής Χρήσης περιεχοµένου σελίδων Αποτελεσµάτων Αναζήτησης Search Engine Result Summarization Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Clustering Search Result (Leouski and Croft, 1996, Zamir and Etzioni, 1997): Οµαδοποίηση των αποτελεσµάτων χρησιµοποιώντας φράσεις στους τίτλους και snippets Ευαγγελία Πιτουρά 76 38

39 Κατηγορίες ς από το Web PageRank, HITS από το Web Small-world models, Περιεχοµένου οµής Χρήσης περιεχοµένου σελίδων αποτελεσµάτων αναζήτησης Ανίχνευση Γενικών Προτύπων Προσπέλασης Ανίχνευση προσαρµοσµένης (customized) χρήσης Ευαγγελία Πιτουρά 77 Κατηγορίες ς από το Web εδοµένων Χρήσης Mining Web log records to discover user access patterns of Web pages Applications Target potential customers for electronic commerce Enhance the quality and delivery of Internet information services to the end user Improve Web server system performance Identify potential prime advertisement locations Web logs provide rich information about Web dynamics Typical Web log entry includes the URL requested, the IP address from which the request originated, and a timestamp Ευαγγελία Πιτουρά 78 39

40 Κατηγορίες ς από το Web Τεχνικές ς εδοµένων Χρήσης Construct multidimensional view on the Weblog database Perform multidimensional OLAP analysis to find the top N users, top N accessed Web pages, most frequently accessed time periods, etc. Perform data mining on Weblog records Find association patterns, sequential patterns, and trends of Web accessing May need additional information,e.g., user browsing sequences of the Web pages in the Web server buffer Conduct studies to Analyze system performance, improve system design by Web caching, Web page prefetching, and Web page swapping Ευαγγελία Πιτουρά 79 40

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων

Εξόρυξη εδοµένων. υνατότητα κλιµάκωσης σε σχέση µε το µέγεθος του συνόλου των δεδοµένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε µεγάλα σύνολα δεδοµένων Εξόρυξη εδοµένων Στατιστική: ιερευνητική Ανάλυση εδοµένων (exploratory data analysis) Τεχνητή Νοηµοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων

Εξόρυξη εδομένων. υνατότητα κλιμάκωσης σε σχέση με το μέγεθος του συνόλου των δεδομένων Εισαγωγή Εύρεση ενδιαφερόντων τάσεων ή προτύπων σε μεγάλα σύνολα δεδομένων Εξόρυξη εδομένων Στατιστική: ιερευνητική Ανάλυση εδομένων (exploratory data analysis) Τεχνητή Νοημοσύνη: Ανακάλυψη γνώσης και

Διαβάστε περισσότερα

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια)

Εξόρυξη εδοµένων. Εισαγωγή. Τι είναι η Εξόρυξη εδοµένων. (µε δυολόγια) Εξόρυξη εδοµένων Ευαγγελία Πιτουρά 1 Εισαγωγή Τι είναι η Εξόρυξη εδοµένων (µε δυολόγια) Αποδοτικές τεχνικές για να αναλύσουµε πολύ µεγάλες συλλογές από δεδοµένα και να εξάγουµε χρήσιµες πληροφορίες από

Διαβάστε περισσότερα

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων. Βάσεις Δεδομένων ΙΙ Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων Δ. Χριστοδουλάκης - Α. Φωκά Τμήμα Μηχανικών Η/Υ & Πληροφορικής - Εαρινό Εξάμηνο 2007 Εισαγωγή Εξόρυξη Δεδομένων Ανακάλυψη νέων πληροφοριών σε

Διαβάστε περισσότερα

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Τι είναι η Γιατί; Συχνά υπάρχει πληροφορία «κρυμμένη» στα δεδομένα που δεν είναι προφανής Οι ανθρώπινοι αναλυτές μπορεί να χρειάζονται εβδομάδες για να ανακαλύψουν χρήσιμη πληροφορία Πολλά

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εξόρυξη Δεδομένων 2008-2009 1 Εισαγωγή Τι είναι η Εξόρυξη εδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες συλλογές από δεδομένα και να εξάγουμε χρήσιμες

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ Εισαγωγή Εισαγωγή Τεράστιος όγκος διαθέσιμων δεδομένων χρειαζόμαστε μεθόδουςγιανατααναλύσουμε Τι είναι η Εξόρυξη Δεδομένων (με δυο λόγια) Αποδοτικές τεχνικές για να αναλύσουμε πολύ μεγάλες

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Διδάσκοντες: Μαρία Χαλκίδη

Διδάσκοντες: Μαρία Χαλκίδη Αποθήκες και Εξόρυξη Δεδομένων 6 ο εξάμηνο Τμήμα Ψηφιακών Συστημάτων Παν. Πειραιά Διδάσκοντες: Μαρία Χαλκίδη Μαθήματα σχετικά με Διαχείριση Δεδομένων στο Πρόγραμμα Σπουδών Δομές Δεδομένων (3 ο εξάμηνο)

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 1: Εισαγωγή Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής Data Mining: Στοχεύοντας στους σωστούς πελάτες To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Κανόνων Συσχετίσεων Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Συστήματα Επιχειρηματικής Ευφυίας

Συστήματα Επιχειρηματικής Ευφυίας Συστήματα Επιχειρηματικής Ευφυίας Εισαγωγή Μιχάλης Μαλιάππης, 2018 Διδασκαλία Μαθήματος Σελίδα eclass: https://mediasrv.aua.gr/eclass/courses/aoa198/ Βιβλιογραφία TAN PANG-NING, STEINBACH MICHAEL, KUMAR

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Διαδικαστικά Συστάσεις Ι Ποιός είμαι εγώ: Email: tsap@cs.uoi.gr Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining, Social networks, User Generated Content Mobile

Διαβάστε περισσότερα

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα Εισαγωγή 1 Ζήτω οι Βάσεις εδοµένων!! Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα Μοντελοποίηση Αποθήκευση Επεξεργασία (εύρεση πληροφορίας σχετικής µε µια συγκεκριµένη ερώτηση) Σωστή Λειτουργία

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm πληµµύρα από δεδοµένα

Διαβάστε περισσότερα

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services Γεράσιµος Μαρκέτος Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) οµή παρουσίασης SQL Server 2005 Επιχειρηµατική

Διαβάστε περισσότερα

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων Β. Μεγαλοοικονόμου Εισαγωγή στην Εξόρυξη Δεδομένων Γενική Επισκόπηση- Σχεσιακό μοντέλο Σχεσιακό Μοντέλο -SQL Συναρτησιακές εξαρτήσεις & Κανονικοποίηση Φυσικός

Διαβάστε περισσότερα

Προεπεξεργασία εδοµένων

Προεπεξεργασία εδοµένων Προεπεξεργασία εδοµένων Αποθήκες και Εξόρυξη εδοµένων 2 ο Μάθηµα ιδάσκων: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδοµένων- πυρήνας της διαδικασίας

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining) ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm "Πυραµίδα"

Διαβάστε περισσότερα

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Gemini,, Applications Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Εαρινό Εξάμηνο 2011-2012 Table of contents 1 Table of contents 1 2 Table of contents 1 2 3 Table of contents

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο Εισαγωγή Κανόνες Συσχέτισης Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Market-Basket transactions (Το καλάθι της νοικοκυράς!)

Διαβάστε περισσότερα

Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL

Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Ορισµοί Σχεσιακού Μοντέλου και Τροποποιήσεις Σχέσεων σε SQL Βάσεις εδοµένων 2011-2012 Ευαγγελία Πιτουρά 1 Εισαγωγή Μοντελοποίηση Στα προηγούµενα µαθήµατα: Εννοιολογικός Σχεδιασµός Βάσεων Δεδοµένων (µε

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: FP-Growth Ευχαριστίες Xρησιμοποιήθηκε επιπλέον υλικό από τα βιβλία «Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων» «Introduction to Data

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 8/4/203 5 ο εξόρυξη πληροφορίας Ανακάλυψη γνώσης 2 Web and NLP 23/4/203 Ορολογία 3 Data Mining Διαδικασία ανακάλυψης γνώσης μέσω της αναζήτησης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ

ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΠΑΡΑΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων Βάσεις εδοµένων 2011-2012 Ευαγγελία Πιτουρά 1 Βασικές Έννοιες Τι είναι µια βάση δεδοµένων; Βάση Δεδοµένων: συλλογή από σχετιζόµενα δεδοµένα Ειδικού σκοπού λογισµικό

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ Βασίλης Γ. Αγγέλης Δρ. Μηχανικός Η/Υ και Πληροφορικής Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ Μετατρέψτε τα δεδομένα σας σε κέρδος Αθήνα Κάθε γνήσιο αντίγραφο έχει την υπογραφή του συγγραφέα Έκδοση 1 η, Copyright 2007

Διαβάστε περισσότερα

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα)

Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα) Database System Concepts and Architecture (Αρχιτεκτονική, οµές, και Μοντέλα) Μοντέλα, οµές (Σχήµα) και Αντιπρόσωποι (Data Models, Schema, and Instances) DBMS αρχιτεκτονική ιάφοροι τύποι γλωσσών και διεπαφές

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Κανόνες Συσχέτισης: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές

Διαβάστε περισσότερα

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems 2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems Multiple User Interfaces MobileSoft'16, Multi-User Experience (MUX) S1: Insourcing S2: Outsourcing S3: Responsive design

Διαβάστε περισσότερα

Κανόνες για ανάπτυξη διαγραµµάτων κλάσεων

Κανόνες για ανάπτυξη διαγραµµάτων κλάσεων 1 Ελληνικό Ανοικτό Πανεπιστήµιο Κανόνες για ανάπτυξη διαγραµµάτων κλάσεων ρ. Πάνος Φιτσιλής 2 Περιεχόµενα Προσδιορισµός κλάσεων Πως να ονοµάσουµε τις κλάσεις; Που να τις βρούµε; Τι να κοιτάξουµε; Τι να

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων Data Mining

Εξόρυξη Δεδομένων Data Mining Εξόρυξη Δεδομένων Data Mining Η συνολική εικόνα ενός συστήματος BI/BA Επιχειρηματική Γνώση Από τα δεδομένα στη γνώση Επιχειρηματι κοί Κανόνες Μετα- Δεδομένα Δομή Βάσης Δεδομένων Συγκεντρωτικά Δεδομένα

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Προτεινόμενες Διπλωματικές Εργασίες 2009

Προτεινόμενες Διπλωματικές Εργασίες 2009 Προτεινόμενες Διπλωματικές Εργασίες 2009 Αλγοριθμικές Διαδικασίες για Smart Energy Profiling μέσω Διαδικτύου με βάση τηλεμετρικά δίκτυα AMR και προχωρημένων αλγορίθμων Διαχείρισης Ενεργειακής Γνώσης Η

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: Ανάπτυξη Μοντέλων για την Πρόβλεψη Πιθανής Αποτυχίας Αποπληρωμής Δανείου

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Εισαγωγή. Τι είναι µια βάση δεδοµένων;

Εισαγωγή. Τι είναι µια βάση δεδοµένων; Ζήτω οι Βάσεις εδοµένων!! Εισαγωγή Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα Μοντελοποίηση Αποθήκευση Επεξεργασία (εύρεση πληροφορίας σχετικής µε µια συγκεκριµένη ερώτηση) Σωστή Λειτουργία

Διαβάστε περισσότερα

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων 2014-2015 Ευαγγελία Πιτουρά 1

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων 2014-2015 Ευαγγελία Πιτουρά 1 Εισαγωγή στα Συστήματα Βάσεων Δεδομένων Ευαγγελία Πιτουρά 1 Τι θα δούμε σήμερα I. Σύντομη εισαγωγή στις ΒΔ II. Περιγραφή σκοπού και περιεχομένου μαθήματος III. Ιστορία των ΣΔΒΔ IV. Διαδικαστικά θέματα

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 25: Τεχνικές Κατακερματισμού II Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double Hashing Διατεταγμένος

Διαβάστε περισσότερα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα Εισαγωγή στην εξόρυξη δεδομένων ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα 1 Δεδομένα, δεδομένα, δεδομένα... Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα:

Διαβάστε περισσότερα

Επεξεργασία ερωτημάτων

Επεξεργασία ερωτημάτων Επεξεργασία ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Σε τι αφορά η επεξεργασία ερωτημάτων? Αναφέρεται στο σύνολο των δραστηριοτήτων που περιλαμβάνονται στην ανάκτηση δεδομένων από μία βάση δεδομένων

Διαβάστε περισσότερα

Εισαγωγή στις βασικές έννοιες των Βάσεων εδοµένων

Εισαγωγή στις βασικές έννοιες των Βάσεων εδοµένων Εισαγωγή στις βασικές έννοιες των Βάσεων εδοµένων Βάσεις εδοµένων ΙΙ Μάθηµα 1 ο ιδάσκων: Μαρία Χαλκίδη *based on slides by Silberschatz, Korth and Sudarshan (Database System Concepts, 2001 ) Σύστηµα ιαχείρισης

Διαβάστε περισσότερα

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 4:

Εισαγωγή στα Πληροφοριακά Συστήματα. Ενότητα 4: Εισαγωγή στα Πληροφοριακά Συστήματα Ενότητα 4: Η έννοια της ΠΛΗΡΟΦΟΡΙΑΣ - INFORMATION Κωνσταντίνος Ταραμπάνης Τμήμα Οργάνωσης & Διοίκησης Επιχειρήσεων ΕΙΣΑΓΩΓΗ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Κωνσταντίνος Ταραμπάνης

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018 ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ 13826 Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018 0 1 Περιεχόμενα Κεφάλαιο 1 ο... 4 1.1 Εισαγωγή... 4 1.2 Data Mining...

Διαβάστε περισσότερα

Συναρτησιακές Εξαρτήσεις. Βάσεις εδοµένων Ευαγγελία Πιτουρά 1

Συναρτησιακές Εξαρτήσεις. Βάσεις εδοµένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις Βάσεις εδοµένων 2011-2012 Ευαγγελία Πιτουρά 1 Εισαγωγή Θεωρία για το πότε ένας σχεδιασµός είναι «καλός» Η θεωρία βασίζεται στις Συναρτησιακές Εξαρτήσεις (Functional Dependencies)

Διαβάστε περισσότερα

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων Αναστάσιος Σκαρλατίδης 1,2 anskarl@iit.demokritos.gr επιβλέπων: Καθ. Βούρος Γ. 1 1 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων Πανεπιστήµιο

Διαβάστε περισσότερα

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ 1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Τα δεδομένα που θα επεξεργασθούμε στη διάρκεια του εργαστηρίου παραχωρήθηκαν από την εταιρεία ICAP ειδικά για τις ανάγκες του μαθήματος. Τα δεδομένα αυτά αντλήθηκαν από την

Διαβάστε περισσότερα

and Intelligent Systems Group LPIS Group).

and Intelligent Systems Group LPIS Group). ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΙΑΤΡΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Αναζήτηση Γνώσης σε Ιατρικά εδοµένα ιπλωµατική Εργασία της Παπαρνάκη Σουλτάνας Επιβλέπων Καθηγητής:

Διαβάστε περισσότερα

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη

Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη με βάση slides από A. Silberschatz, H. Korth, S. Sudarshan, Database System Concepts, 5 th edition Εισαγωγή (1) Εναλλακτικοί τρόποι για

Διαβάστε περισσότερα

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Τεχνολογίες Υποστήριξης Λήψης Διοικητικών Αποφάσεων OLTP (On Line Transaction Processing) Επιχειρηματικές Εφαρμογές (Σχεσιακές

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1 Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής

Διαβάστε περισσότερα

Βασικές Έννοιες Δοµών Δεδοµένων

Βασικές Έννοιες Δοµών Δεδοµένων Δοµές Δεδοµένων Δοµές Δεδοµένων Στην ενότητα αυτή θα γνωρίσουµε ορισµένες Δοµές Δεδοµένων και θα τις χρησιµοποιήσουµε για την αποδοτική επίλυση του προβλήµατος του ευσταθούς ταιριάσµατος Βασικές Έννοιες

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ

ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΥΠΟΛΟΓΙΣΤΙΚΑ ΜΑΘΗΜΑΤΙΚΑ ΠΛΗΡΟΦΟΡΙΚΗ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ ΚΑΤΕΥΘΥΝΣΗ Β: ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

Διαβάστε περισσότερα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών

Διαβάστε περισσότερα

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ Κολώνια Αγγελική Στείρου

Διαβάστε περισσότερα

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...

ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ... ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΜΕΡΟΣ Ι: ΓΕΩΓΡΑΦΙΚΑ Ε ΟΜΕΝΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ...1 1. Η ΦΥΣΗ ΤΩΝ ΓΕΩΓΡΑΦΙΚΩΝ Ε ΟΜΕΝΩΝ...3 Κατηγορίες των Γεωγραφικών εδοµένων...3 Γεωγραφικές οντότητες...3 ιαστάσεις

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ Βασικές Έννοιες - εδοµένα { Νίκος, Μιχάλης, Μαρία, Θάλασσα, Αυτοκίνητο }, αριθµοί, π.χ. {1, 2, 3, 5, 78}, συµβολοσειρές (strings) π.χ. { Κώστας, 5621, ΤΡ 882, 6&5 #1, +

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING) Των σπουδαστών Σκλαβενίτης Αργύρης (Α.Μ. 535) Στασινός

Διαβάστε περισσότερα

Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων

Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων Εισαγωγή στις βασικές έννοιες των Βάσεων Δεδομένων Σχεδιασμός Βάσεων Δεδομένων Μάθημα 1 ο Μαρία Χαλκίδη ΠΕΡΙΕΧΟΜΕΝΑ ΜΑΘΗΜΑΤΟΣ Σχεσιακό Μοντέλο Κανονικοποίηση Μοντέλο Οντοτήτων-Σχέσεων Κύκλος ζωής Βάσεων

Διαβάστε περισσότερα

substructure similarity search using features in graph databases

substructure similarity search using features in graph databases substructure similarity search using features in graph databases Aleksandros Gkogkas Distributed Management of Data Laboratory intro Θα ενασχοληθούμε με το πρόβλημα των ερωτήσεων σε βάσεις γραφημάτων.

Διαβάστε περισσότερα

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to

Initialize each person to be free. while (some man is free and hasn't proposed to every woman) { Choose such a man m w = 1 st woman on m's list to Κεφάλαιο 2 Δοµές Δεδοµένων Ι Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Δοµές Δεδοµένων Ι Στην ενότητα αυτή θα γνωρίσουµε ορισµένες Δοµές Δεδοµένων και θα τις χρησιµοποιήσουµε

Διαβάστε περισσότερα

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τµήµα Πληροφορικής Φθινοπωρινό Εξάµηνο 2016 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4 Διδάσκων: E. Μαρκάκης Υλοποίηση LRU Cache Στην εργασία αυτή ζητείται να υλοποιήσετε σε Java τις βασικές

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting Διαδικτυακό OLAP Σύστημα Λήψης Αποφάσεων και δημιουργίας έξυπνων προσαρμοστικών γραφημάτων

Διαβάστε περισσότερα