Προσεγγιστική Απάντηση Ερωτήσεων σε Σχεσιακές Βάσεις εδοµένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Προσεγγιστική Απάντηση Ερωτήσεων σε Σχεσιακές Βάσεις εδοµένων"

Transcript

1 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ 57 73, ΑΘΗΝΑ ΕΒΓ - ΙΠΛ Οκτωβρίου 200 Προσεγγιστική Απάντηση Ερωτήσεων σε Σχεσιακές Βάσεις εδοµένων Αθανασίου Σπύρος Κουβάρας Ιωάννης ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Τίµος Σελλής ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΡΓΑΣΤΗΡΙΟ ΣΥΣΤΗΜΑΤΩΝ ΒΑΣΕΩΝ ΓΝΩΣΕΩΝ ΚΑΙ Ε ΟΜΕΝΩΝ

2 ii

3 Πρόλογος Θα ήθελα να ευχαριστήσω όλους τους καθηγητές µου για τις γνώσεις που µου πρόσφεραν κατά τη διάρκεια της φοίτησης µου στο ΕΜΠ και όλους τους συνεργάτες που µε βοήθησαν. Ιδιαίτερα θέλω να ευχαριστήσω τον υπεύθυνο για αυτή τη διπλωµατική καθηγητή Τίµο Σελλή, τον υποψήφιο διδάκτορα Παντελή Σείσογλου και το συνεργάτη και φίλο µου Σπύρο Αθανασίου. Επίσης θα ήθελα να ευχαριστήσω του γονείς µου που µε την αγάπη τους και τη συνεχή ενθάρρυνσή τους µε στήριξαν όλα αυτά τα χρόνια Αθήνα, 8/0/200 Ιωάννης Π. Κουβάρας iii

4 iv

5 Πρόλογος Get Drunk! Always be drunk. That's it! The great imperative! In order not to feel Time's horrid fardel bruise your shoulders, grinding you into the earth, Get drunk and stay that way. On what? On wine, poetry, virtue, whatever. But get drunk. And if you sometimes happen to wake up on the porches of a palace, in the green grass of a ditch, in the dismal loneliness of your own room, your drunkenness gone or disappearing, ask the wind, the wave, the star, the bird, the clock, ask everything that flees, everything that groans or rolls or sings, everything that speaks, ask what time it is; and the wind, the wave, the star, the bird, the clock will answer you: "Time to get drunk! Don't be martyred slaves of Time, Get drunk! Stay drunk! On wine, virtue, poetry, whatever!" Charles Baudelaire Τι µεθύσι ήταν και αυτή η διπλωµατική εργασία! Αν ήταν ταξίδι θα ήταν η Οδύσσεια, και αν ήταν τέρας θα ήταν η Λερναία Ύδρα. Όποτε κόβαµε το ένα κεφάλι ξεπηδούσαν άλλα δέκα, όποτε πιστεύαµε πως φτάναµε στην Ιθάκη, ένας αέρας µας έστελνε πίσω στην Τροία. Χωρίς να το καταλάβουµε πέρασαν έξι µήνες πάνω από βιβλία και διατριβές, και ήταν τα όσα διαβάζαµε τόσο µεθυστικά που ασυναίσθητα σκύβαµε όλο και πιο κοντά στο χαρτί, ίσως για να βρεθούµε πιο κοντά στη γνώση Μάταιη προσπάθεια! Το ένα ξενύχτι ακολουθούσε το άλλο, και οι απορίες αντί να λιγοστεύουν γίνονταν όλο και περισσότερες. Νοµοτελειακά θα πουν κάποιοι. Ίσως έτσι είναι. Μπορεί λοιπόν να µην νιώθουµε σοφότεροι, αλλά είµαστε σίγουρα πια πολυταξιδεµένοι Συνοδοιπόρο, συνεργάτη, συµπαραστάτη και φίλο στην κοινή µας προσπάθεια ήµουν αρκετά τυχερός να έχω Ιωάννη Κουβάρα. Πέρα από ένα µεγάλο ευχαριστώ, µεγαλύτερο από όσο χωρούν αυτές οι γραµµές, θα ήθελα να του ζητήσω και συγνώµη, για όλες τις φορές που ο v

6 εγωισµός και η ισχυρογνωµοσύνη µου γέµιζε το δωµάτιο - και µερικά διαµερίσµατα ακόµη Η επιµονή στη λεπτοµέρεια και οι απεριόριστες τεχνικές γνώσεις τον χαρακτηρίζουν ως επιστήµονα. Η αγνότητα και η µεγαλοκαρδία τον ξεχωρίζουν ως άνθρωπο. Γιαννάκη σε ευχαριστώ. Η αναφορά µου θα ήταν λειψή αν παρέλειπα να µνηµονεύσω τους ανθρώπους που έστρωσαν το δρόµο που βρίσκοµαι σήµερα. Καθένας είχε τη δική του προσωπική συµβολή και τους ευγνωµονώ για την αγάπη που µου έδειξαν. Ο κ. Κατρατζής µου δίδαξε επιµονή, ο κ. Κυριακόπουλος ακρίβεια, ο κ. Μανωλκίδης συνέπεια, ο κ. Φραντζής ευρηµατικότητα, και η Ζωή Καβαδέλλα (η µόνη που δεν µπορεί να µπει σε αλφαβητική σειρά και καµία σειρά γενικότερα) µου δίδαξε Ε λοιπόν, ακόµη µαθαίνω από τη Ζωή! Η οικογένειά µου: οι γονείς µου, ο αδερφός µου, η Φωτεινή, η ώρα, ο Κώστας, η Γεωργία, ο Κοσµάς, ο Χαράλαµπος και ο Μίµης, είναι ο βράχος που µε στηρίζει, η σκεπή που µε προστατεύει, ο ήλιος που φωτίζει το δρόµο µου. εν µπορώ να τους ευχαριστήσω, γιατί γνωρίζω πως µε αγαπούν από την καρδιά τους. εν µπορώ να τους αφιερώσω αυτό το κείµενο, γιατί έτσι κι αλλιώς τους ανήκει. Τους δίνω µόνο την αγάπη µου, γιατί ό,τι άλλο έχω είναι δικό τους. Ακόµη, θα ήθελα να ευχαριστήσω τον κ. Παναγιώτη Τσανάκα, τον καθηγητή που µε καλωσόρισε στο Πολυτεχνείο πριν από πέντε χρόνια, το φίλο που µε αποχαιρετά τώρα. Θεωρώ επίσης τον εαυτό µου τυχερό και για τη συνεργασία µε τον καθηγητή Τίµο Σελλή, έναν άνθρωπο αφάνταστα πράο, ευγενή και υποµονετικό, του οποίου το στίγµα στα επόµενα στάδια της ακαδηµαϊκής µου διαδροµής είµαι βέβαιος, θα είναι καθοριστικό. Τελευταίος, αλλά πρώτος στη σκέψη µου, ο επιβλέποντας της διπλωµατικής εργασίας, υποψήφιος διδάκτορας Παντελής Σεϊσογλου, στο πρόσωπο του οποίου βρήκα ένα νέο φίλο. Του εύχοµαι καλή συνέχεια και τον ευχαριστώ για την καλοσύνη του. Αθήνα, 7/0/200 Σπύρος Αθανασίου vi

7 Περίληψη Σε πολλές περιπτώσεις εφαρµογών των Βάσεων εδοµένων είναι κυρίαρχη η απαίτηση για την ανάλυση µεγάλου όγκου δεδοµένων, σε πολύ µικρό χρονικό διάστηµα. Η λύση που τα τελευταία χρόνια φαντάζει περισσότερο ελκυστική είναι η απάντηση των ερωτηµάτων των χρηστών µε ένα µικρό περιθώριο σφάλµατος, αρχικά αποθηκεύοντας µία περίληψη της πληροφορίας και στη συνέχεια εκτελώντας την ερώτηση πάνω στη σύνοψη αυτή. Έτσι κερδίζουµε σε χρόνο απόκρισης, χάνοντας όµως σε ακρίβεια. Στις ειδικές περιπτώσεις εφαρµογών όπου είναι θεµιτό ένα πιθανό σφάλµα στην απάντηση µε αντάλλαγµα την επιτάχυνση της λειτουργίας του συστήµατος, οι τεχνικές που παρουσιάζουµε είναι απόλυτα επιτυχηµένες. Μια µορφή περίληψης, που χρησιµοποιείται για πολλά χρόνια στα Σ Β, είναι τα ιστογράµµατα. Προέρχονται από την στατιστική, και πρόκειται για την διαµέριση µιας κατανοµής συχνοτήτων σε µη επικαλυπτόµενες οµάδες (buckets). Κάθε τιµή της κατανοµής αντιπροσωπεύεται από το bucket στο οποίο ανήκει, ενώ στη θέση της κατανοµής χρησιµοποιούµε το ιστόγραµµά της. Ανάλογα λειτουργούν οι τεχνικές που στηρίζονται στον Wavelet µετασχηµατισµό των δεδοµένων. Οι σχεσιακοί πίνακες αποσυντίθενται σε ένα σύνολο συνιστωσών ισοδύναµο µε την αρχική κατανοµή. Από τις συνιστώσες αυτές κρατάµε εκείνες που προσεγγίζουν καλύτερα τα υπό συµπίεση δεδοµένα. Το bucket ενός ιστογράµµατος είναι λειτουργικά ισοδύναµο µε µία συνιστώσα, µε µόνη διαφορά πως στις τελευταίες επιτρέπεται η επικάλυψη. Με βάση τη σύνοψη που έχει παραχθεί απαντούµε ταχύτατα στις ερωτήσεις του χρήστη, µε σφάλµατα που κυµαίνονται στη µέση περίπτωση από % µέχρι και 20%. Λέξεις Κλειδιά: Περίληψη εδοµένων, Σύνοψη εδοµένων, Συµπίεση εδοµένων, Ιστογράµµατα, ειγµατοληψία, Οµαδοποίηση, Μετασχηµατισµός Wavelet, Προσεγγιστική Απάντηση Ερωτήσεων, Εκτίµηση Επιλεκτικότητας, OLAP, Κύβοι, Συστήµατα Στήριξης Αποφάσεων. vii

8 viii

9 Summary In many modern database applications, there is a dominating need for the analysis of large amounts of data, within strict time constraints. The solution that seems most attractive, is the approximate answer of the users queries, initially storing a summary of the original data and then executing the query on that small synopsis. This way we may gain in response time, but losing in accuracy. In certain applications where an error in the answer is legit, if it is traded with the faster operation of the system, the techniques presented are absolutely successful. A type of a summary, which has been used for a long time in modern DBMSs, are histograms. Originating from statistics, they involve the partition of a given data distribution in nonoverlapping groups (buckets). Each value in the distribution is represented by the bucket in which it belongs, and instead of the actual distribution we make use of its histogram. Methods based on the wavelet transformation of the data, operate under the same concept. The relational tables are decomposed to a set of coefficients. We then form a small sub-set of them that best describes the original data. A histogram bucket is functionally equivalent to a wavelet coefficient, with the distinction that a set of wavelets may overlap. Based on the created synopsis we are able to provide rapid approximate answers, with errors ranging from % to 20% in average. Keywords: Data Summaries, Data Reduction, Data Synopses, Histograms, Sampling, Clustering, Wavelet Decomposition, Approximate Query Processing, Selectivity Estimation, OLAP, Cubes, Decision Support Systems. ix

10 x

11 Πίνακας περιεχοµένων Εισαγωγή.... Αντικείµενο της ιπλωµατικής..... Προσεγγιστική Απάντηση Ερωτήσεων Ορισµός Οργάνωση του τόµου Περιγραφή των κεφαλαίων Μέθοδοι Συµπίεσης Τεχνικές Συµπίεσης Προϋπολογισµός Queries ειγµατοληψία Sampling Ιστογράµµατα - Grids Παλινδρόµηση Regression (Parametric Modeling) SVD Singular Value Decomposition Οµαδοποίηση Clustering (Parametric Modeling) Wavelet Decomposition Approximate Data Structures Υβριδικές µέθοδοι Γενικές Παρατηρήσεις Συµπεράσµατα Ιστογράµµατα Γενικά Ορισµοί Ταξινόµηση Ιστογραµµάτων Sort & Source Parameters Partition Class Partition Constraint Προσέγγιση τιµών και συχνοτήτων Μονοδιάστατα Ιστογράµµατα xi

12 3.4. Equi Sum (V, S) Equi Depth (V, F) Spline based (V, C) V Optimal (F, F) V Optimal-End Biased (F, F) V Optimal (V, F), V Optimal (V, A), V Optimal (A, A), V Maxdiff (V, F), Maxdiff (V, A) Compressed (V, F), Compressed (V, A) Πολυδιάστατα Ιστογράµµατα Εισαγωγή Trivial Multidimensional Histograms Attribute Value Independence Assumption (AVI) PHASED MHIST-p, MHIST VMHIST GENHIST Πολυδιάστατα Ιστογράµµατα µε συµπίεση Κατασκευή Ιστογραµµάτων Συντήρηση Ιστογραµµάτων Χρήση Ιστογραµµάτων για Προσεγγιστική Απάντηση Ερωτήσεων Σχολιασµός της Υλοποίησης Μορφή κατανοµών MHIST constructhistogram MHIST findpartitionpoint MHIST partition MHIST transform GENHIST constructhistogram GENHIST refinelevel GENHIST checkhistory MHIST & GENHIST - Εκτέλεση πειραµάτων Κατασκευή συνθετικών κατανοµών... 6 xii

13 4.2 Εισαγωγή η Μέθοδος Ορισµοί Προσέγγιση υπό-κύβων Προσέγγιση κύβων Παρατηρήσεις η Μέθοδος Προσέγγιση Ερωτήσεων που επιστρέφουν Σχέσεις Μέτρο Σφάλµατος Ιστογράµµατα ως Σχέσεις Προσεγγιστική Απάντηση Ερωτήσεων µε Χρήση Ιστογραµµάτων Μετατροπή Ερωτήσεων Παράδειγµα Πειραµατική µελέτη ιστογραµµάτων Κατανοµές δεδοµένων Συνθετικές κατανοµές δεδοµένων Πραγµατικές κατανοµές δεδοµένων Εργαλεία ανάπτυξης και υλικός εξοπλισµός Επίδραση κατανοµής συχνοτήτων (Frequency skew) Επίδραση κατανοµής τιµών (Value domain skew) Επίδραση εύρους ερωτήσεων Επίδραση διαστάσεων Εκτέλεση πειραµάτων σε πραγµατικά δεδοµένα Συµπεράσµατα Θεωρία του Wavelet Μετασχηµατισµού Εισαγωγή Μαθηµατικοί Ορισµοί ιανύσµατα Βάσης Μετασχηµατισµός Fourier Short Term Fourier Transformation - STFT Wavelet Transformation... 2 xiii

14 6.2.5 WT εναντίον STFT και FT Continuous Wavelet Transformation CWT Wavelet Series Discrete Wavelet Tranformation Μέθοδοι Συµπίεσης µε τη χρήση του Wavelet µετασχηµατισµού Εισαγωγή Συµπίεση εδοµένων µε Wavelet Συναρτήσεις Περίληψη των µεθόδων Haar Wavelets Μονοδιάστατος Wavelet Μετασχηµατισµός Συµπίεση µε τον Haar Wavelet Transformation Πολυδιάστατος Wavelet Μετασχηµατισµός Standard Decomposition Nonstandard decomposition Πολυδιάστατες Haar συνιστώσες: Φυσική Σηµασία και αναπαράσταση Κατασκευή των Wavelet Περιλήψεων (Συµπίεση Αποσυµπίεση) Συµβολισµοί Συµβάσεις Αλγόριθµος κατασκευής του Wavelet Μετασχηµατισµού - ComputeWavelet Αποκοπή Συνιστωσών Σχηµατισµός της Περίληψης Naïve Αποσυµπίεση της Περίληψης (Rendering) Επεξεργασία σχεσιακών ερωτήσεων στο πεδίο του Wavelet Μετασχηµατισµού Select τελεστής Projection Τελεστής Join τελεστής Aggregate τελεστές Αποσυµπίεση (Rendering) ενός συνόλου από wavelet συνιστώσες Υλοποίηση των µεθόδων που στηρίζονται στον Wavelet Μετασχηµατισµό και Πειραµατική Αξιολόγησή τους Σχολιασµός της Υλοποίησης buildhaar() xiv

15 8..2 renderhaar() buildsynopsis() rendersynopsis() selectpred() projectpred() sum() count() average() Πειραµατικά Αποτελέσµατα Συνθετικά εδοµένα Πειράµατα καλής προσέγγισης της κατανοµής Selectivity Estimation Προσεγγιστική Απάντηση Ερωτήσεων Επίδραση του πλήθους των διαστάσεων Επίλογος Σύγκριση πειραµατικών αποτελεσµάτων Κατασκευή της Σύνοψης Εκτίµηση Επιλεκτικότητας ιαπιστώσεις Βιβλιογραφία xv

16 xvi

17 Εισαγωγή. Αντικείµενο της ιπλωµατικής Τα Συστήµατα ιαχείρισης Βάσεων εδοµένων (Σ Β ) περιέχουν ορισµένα τµήµατα, όπως οι query optimizers και query profilers, για τη λειτουργία των οποίων πρέπει να είναι γνωστές οι κατανοµές των δεδοµένων (data distributions) των σχέσεων (relations) του συστήµατος. Για το λόγο αυτό τα περισσότερα εµπορικά Σ Β συντηρούν σε κάποια µορφή περιλήψεις των πραγµατικών δεδοµένων, π.χ. σε µορφή στατιστικών κατανοµών. Αυτή η πλεονάζουσα πληροφορία χρησιµοποιείται από το βελτιστοποιητή του συστήµατος προκειµένου να υπολογίσει εκτιµήσεις για το κόστος των διαφόρων πλάνων εκτέλεσης της υλοποίησης ενός query. Για παράδειγµα, οι πρώτοι optimizers (rule-based) χρησιµοποιούσαν ευριστικές τεχνικές προκειµένου να µετασχηµατίσουν το parse tree του εκάστοτε query σε ένα ισοδύναµο, αλλά πιο αποδοτικό από πλευράς κόστους εκτέλεσης. Ωστόσο, η επιλογή της σειράς εκτέλεσης των joins καθώς και των αλγορίθµων υλοποίησης τους (nested loops, merge joins, hash joins) δεν ήταν πάντα ξεκάθαρη. Αντίθετα, οι λεγόµενοι cost based optimizers, κάνοντας χρήση των παραπάνω πληροφοριών είναι σε θέση να απαντήσουν στα προηγούµενα ερωτήµατα µε πιο ορθολογιστικό τρόπο. Η ποιότητα και η ακρίβεια αυτής της πληροφορίας είναι καθοριστική για την όλη απόδοση του συστήµατος, αφού πιθανώς µεγάλα σφάλµατα στις εξαγόµενες εκτιµήσεις µπορεί να οδηγήσουν στην επιλογή µη αποδοτικών

18 πλάνων εκτέλεσης, µειώνοντας τη συνολική απόδοση του συστήµατος. Αυτό γίνεται περισσότερο εµφανές αν αναλογιστούµε ότι στην περίπτωση πολύπλοκων ερωτήσεων, το διαδιδόµενο σφάλµα µεταξύ διαδοχικών πράξεων συνένωσης (joins) αυξάνεται εκθετικά [IC9]. Το παραπάνω πρόβληµα αναφέρεται στη βιβλιογραφία ως εκτίµηση επιλεκτικότητας (selectivity estimation) και αποτελεί σηµείο προβληµατισµού των επιστηµόνων της περιοχής των Βάσεων εδοµένων για αρκετά χρόνια. Στην παρούσα διπλωµατική εργασία θα προσεγγίσουµε µια νέα ιδέα χρήσης των παραπάνω µεθόδων περιληπτικής περιγραφής των δεδοµένων, µε σκοπό την εξαγωγή προσεγγιστικών απαντήσεων στα ερωτήµατα του χρήστη, σε εξαιρετικά σύντοµο χρονικό διάστηµα. Αυτή η ανάγκη έχει προκύψει αφενός από τον ολοένα αυξανόµενο όγκο δεδοµένων στα σύγχρονα σχεσιακά συστήµατα, αφετέρου από την απαίτηση των χρηστών για την αποδοτική ανάλυση της περιεχόµενης σε αυτά πληροφορίας. Η απάντηση σε επίπεδο αρχιτεκτονικής συστήµατος είναι οι OLAP (On-Line Analytical Processing) εφαρµογές, στις οποίες η προσπάθεια για την διαχείριση και την αξιολόγηση της πληροφορίας γίνεται µε τη δηµιουργία νέων δοµών δεδοµένων και την προσαρµογή των OLTP υποσυστηµάτων στις νέες λειτουργικές απαιτήσεις. Η µεθοδολογία και οι τεχνικές που θα παρουσιάσουµε αποτελούν µια διαφορετική προσέγγιση στο πρόβληµα της ανάλυσης µεγάλου όγκου δεδοµένων, και µπορούν να περιγραφούν στο σύνολό τους ως προσπάθεια για την προσεγγιστική απάντηση ερωτήσεων (approximate query answering). Ας εξετάσουµε όµως το θέµα από την αρχή... Προσεγγιστική Απάντηση Ερωτήσεων Ορισµός Εκ των πραγµάτων, η χρήση των Η/Υ και της επιστήµης της Πληροφορικής σε πρακτικές εφαρµογές για την αποθήκευση κρίσιµων λειτουργικών πληροφοριών οφείλεται στην ιδιότητα της µηχανής Turing, και οποιουδήποτε υπολογιστικού µοντέλου που πηγάζει από την ίδια ιδέα, να αποθηκεύει την πληροφορία µε την οποία το έχουµε εµπιστευτεί για πάντα. Ακριβώς αυτή η υπόσχεση για την ασφάλεια στην αποθήκευση και τη διαχείριση της πληροφορίας οδήγησε και στην ανάπτυξη της περιοχής των Βάσεων εδοµένων, µε σκοπό την καλύτερη οργάνωση της πληροφορίας και κυρίως την αύξηση της διαθεσιµότητάς της. Το σύνολο των προσπαθειών των επιστηµόνων της περιοχής των Β συνοψίζεται στην απάντηση της ακόλουθης ερώτησης του ιδιοκτήτη της πληροφορίας: 2

19 Οποιαδήποτε στιγµή και αν αναζητήσω την πληροφορία µου, θα είµαι σε θέση να το κάνω, και αν ναι θα παίρνω πάντα την ίδια πληροφορία; Ο τυπικός χρήστης µιας Β είναι συνηθισµένος στο να έχει άµεση πρόσβαση στα δεδοµένα αλλά και να παίρνει µια ακριβή (exact) απάντηση στις ερωτήσεις του. Γνωρίζει πως δεν υπάρχει περίπτωση (ιδανικά τουλάχιστον) απώλειας πληροφορίας ή σφάλµατος της απάντησης. Εάν δηλαδή ο υπολογιστής αποφανθεί πως ο µέσος µισθός των υπαλλήλων σε µια επιχείρηση είναι δρχ, ο ανθρώπινος χειριστής δεν µπορεί να αµφισβητήσει την απάντηση. Είναι πέρα πάσης αµφιβολίας ορθή, και νοµοτελειακά θα είναι για πάντα! Ο ίδιος χειριστής πώς θα αντιδρούσε αν η απάντηση στην ερώτησή του ήταν ± 5000 δρχ; Το σύµπαν γκρεµίζεται, οι νόµοι της φύσης καταργούνται ή µήπως ο υπολογιστής απέκτησε χιούµορ; Σε κάθε περίπτωση µπορούµε να διατυπώσουµε την παρατήρηση πως η ίδια µας η απαίτηση για την άντληση προσεγγιστικών απαντήσεων από µια ένα σύγχρονο Σ Β είναι µια φανερά αντιφατική προσδοκία που ανατρέπει τα θεµέλια της ίδιας της επιστήµης των Β. Είναι προφανές λοιπόν πως αν και αυτή η διπλωµατική εργασία ανήκει και αναφέρεται στο γνωστικό πεδίο των Βάσεων εδοµένων, περιγράφει µια διαφορετική, ίσως και ριζοσπαστική ιδέα για τη χρήση τους. Το πρόβληµα της κατά προσέγγισης απάντησης ερωτήσεων σε σχεσιακές βάσεις δεδοµένων περικλείεται στην ακόλουθη ερώτηση: ίνεται µια ακριβής αναπαράσταση µιας σχεσιακής βάσης δεδοµένων, έστω. Είναι δυνατή η υλοποίηση τεχνικών αλγορίθµων µεθόδων που συνδυάζουν ταυτόχρονα τα ακόλουθα χαρακτηριστικά;. Μετασχηµατισµός των δεδοµένων σε µια νέα µορφή που καταλαµβάνει µερικές τάξεις µεγέθους µικρότερο χώρο σε σχέση µε την. Θεωρούµε για λόγους ευκολίας και χωρίς βλάβη της γενικότητας αποκλειστικά την περίπτωση σχεσιακών βάσεων δεδοµένων. Άλλωστε τα υπόλοιπα Σ Β δεν είναι τόσο διαδεδοµένα στην πράξη ώστε να είναι απαραίτητη η εξέταση του θέµατος κάτω από το πρίσµα των ειδικών χαρακτηριστικών τους. 3

20 2. Ταχύτατη απάντηση µιας ερώτησης που απευθύνεται στην αρχική βάση δεδοµένων, χρησιµοποιώντας την µετασχηµατισµένη συµπιεσµένη µορφή της. 3. Μικρό σφάλµα της προσεγγιστικής απάντησης σε σχέση µε την πραγµατική απάντηση της ερώτησης. Μια επιτυχηµένη µέθοδος συµπίεσης και απάντησης ερωτήσεων σε σχεσιακά συστήµατα Βάσεων εδοµένων (Compression and Answering algorithm for Relational Data CARD) πρέπει να συνδυάζει πολύ καλές επιδόσεις και στις τρεις απαιτήσεις µας, ενώ επιπλέον, όπως και κάθε εφαρµοζόµενος στην πράξη αλγόριθµος, πρέπει να έχει όσο το δυνατόν µικρότερη πολυπλοκότητα..2 Οργάνωση του τόµου Ο αναγνώστης που ασχολείται για πρώτη φορά µε το πρόβληµα της κατά προσέγγισης απάντησης ερωτήσεων σε Βάσεις εδοµένων θα συναντήσει λίγες γνώριµες έννοιες από το γνωστικό πεδίο των Β και πολλές νέες ιδέες, δανεισµένες από άλλα επιστηµονικά πεδία. Έχοντας αυτά στο νου, προσπαθήσαµε στη συγγραφή του κειµένου να λάβουµε υπόψη το νεοεισερχόµενο στο πεδίο αναγνώστη. Στην αρχή κάθε κεφαλαίου υπάρχει µια απλή περιγραφή των θεµάτων που θα αναλυθούν. Έπεται η ακριβής επιστηµονική διατύπωση των µαθηµατικών εργαλείων που θα χρησιµοποιηθούν και ακολουθεί η ανάλυση των µεθόδων που µας ενδιαφέρουν. Εξαίρεση σε αυτό τον κανόνα παρουσίασης αποτελεί το κεφάλαιο που αναφέρεται στις εφαρµογές του Wavelet Μετασχηµατισµού, όπου πλειοψηφεί η λιγότερη φορµαλιστική περιγραφή των µεθόδων. Αιτία είναι η έλλειψη εξοικείωσης των περισσότερων πιθανών αναγνωστών µε την έννοια του WT, οπότε και επιλέξαµε µια περισσότερο διαισθητική παρουσίαση της λειτουργίας και της χρησιµότητας του, µε την αυστηρή διατύπωση να ακολουθεί µόνο τις καθαυτές µεθόδους συµπίεσης και απάντησης ερωτήσεων. Ελπίζουµε το αποτέλεσµα να µας δικαιώσει, πάντως για µια περισσότερο µαθηµατική παρουσίαση του WT ο αναγνώστης µπορεί να ανατρέξει στη βιβλιογραφία του αντίστοιχου κεφαλαίου. 4

21 .2. Περιγραφή των κεφαλαίων Αναλυτικότερα, το 2 ο Κεφάλαιο αποτελεί µια σύντοµη και γενική περιγραφή των σηµαντικότερων µεθόδων συµπίεσης δεδοµένων που έχουν χρησιµοποιηθεί κατά καιρούς στο πεδίο των Βάσεων εδοµένων. Η παρουσίαση είναι αρκετά γενική, µε σκοπό την υπογράµµιση των κυρίαρχων σηµείων κάθε τεχνικής. Στο 3 ο κεφάλαιο ξεκινά η συζήτηση για τον σηµαντικότερο και περισσότερο διαδεδοµένο τρόπο περιληπτικής περιγραφής των δεδοµένων µιας σχεσιακής βάσης, τα ιστογράµµατα. ίνεται η πλήρης ταξινόµησή τους, αλγόριθµοι κατασκευής, και µέτρα επίδοσης. Ακολουθεί η γενίκευσή τους σε πολλές διαστάσεις και η παρουσίαση των σηµαντικότερων πολυδιάστατων ιστογραµµάτων. Στο 4 ο κεφάλαιο ασχολούµαστε µε τους τρόπους χρήσης των ιστογραµµάτων που ορίσαµε στην προηγούµενη ενότητα, για την κατά προσέγγιση απάντηση ερωτήσεων. Παρουσιάζονται δύο µέθοδοι που απευθύνονται, η πρώτη στην απάντηση γενικών SQL ερωτήσεων σε ένα OLTP σύστηµα, η δεύτερη στην απάντηση range-sum ερωτήσεων σε OLAP κύβους. Το 5 ο κεφάλαιο αναφέρεται στην πειραµατική εξακρίβωση των επιδόσεων των προτεινόµενων µεθόδων, για ένα µεγάλο εύρος ερωτήσεων και κατανοµών δεδοµένων. Αφού πραγµατοποιηθεί η σχετική σύγκριση των σφαλµάτων κάθε τεχνικής, αναδεικνύονται πιθανά µειονεκτήµατα, και γίνονται προτάσεις για τη διόρθωσή τους. Στο 6 ο κεφάλαιο ξεκινά η συζήτηση για τις µεθόδους περίληψης δεδοµένων που στηρίζονται στον wavelet µετασχηµατισµό. Όλη η ενότητα αναλώνεται στην παρουσίαση της θεωρίας του wavelet µετασχηµατισµού, που αποτελεί ένα νέο σχετικά µαθηµατικό εργαλείο. Το 7 ο κεφάλαιο περιέχει µια ολοκληρωµένη πρόταση στο θέµα της προσεγγιστικής απάντησης ερωτήσεων, µε αλγορίθµους που στηρίζονται στον wavelet µετασχηµατισµό των δεδοµένων. Παρουσιάζονται µέθοδοι για την εκτέλεση των περισσότερων SQL τελεστών στο πεδίο της περίληψης των δεδοµένων. Στο 8 ο κεφάλαιο πραγµατοποιείται η πειραµατική αξιολόγηση των αλγορίθµων της προηγούµενης ενότητας για την περίπτωση συνθετικών δεδοµένων και των κυριότερων SQL τελεστών. Αφού αναλυθούν τα αποτελέσµατα γίνεται προσπάθεια για την περαιτέρω βελτίωση των αλγορίθµων. Το 9 ο κεφάλαιο είναι και επίλογος της διπλωµατικής, όπου παρουσιάζουµε συγκριτικά τα πλεονεκτήµατα και µειονεκτήµατα των µεθόδων που στηρίζονται στα ιστογράµµατα και τον wavelet µετασχηµατισµό. 5

22 Ο κώδικας την υλοποίησης των µεθόδων συµπίεσης που παρουσιάζονται στο κείµενο, βρίσκεται στο CD που περιέχεται στον τόµο της διπλωµατικής εργασίας, µαζί µε τα σύνολα δεδοµένων που χρησιµοποιήσαµε για την πραγµατοποίηση των πειραµάτων. 6

23 2 Μέθοδοι Συµπίεσης H προσπάθεια για τη συµπίεση των δεδοµένων µε σκοπό την προσεγγιστική απάντηση ερωτήσεων που αναφέρονται σε αυτά, αναφέρεται στη βιβλιογραφία µε πολλά διαφορετικά ονόµατα, ανάλογα µε την οπτική γωνία της συγκεκριµένης θεώρησης. Αριθµητική Ανάλυση Θεωρία Πιθανοτήτων Στατιστική Επεξεργασία Σήµατος - Εικόνας Data Warehousing (Spatial) Data Mining Data Analysis Η περίληψη των δεδοµένων µπορεί να είναι µη απωλεστική, δηλαδή να περιλαµβάνει την ίδια ακριβώς πληροφορία απλά οργανωµένη µε διαφορετικό τρόπο, ώστε να υποστηρίζει µια ειδική λειτουργία πάνω στα δεδοµένα (OLAP Cubes). Συνήθως όµως είναι απωλεστική, οπότε αποθηκεύουµε κλάσµα µόνο της αρχικής πληροφορίας ή ακόµη και µια προσέγγιση της. Σε κάθε περίπτωση έχουµε οφέλη ως προς τον χώρο που διαθέτουµε για την αποθήκευση των δεδοµένων, αλλά και του χρόνου που απαιτείται για να τα προσπελάσουµε (λόγω του µικρότερου I/O). Η παραχώρηση που πρέπει να κάνουµε αφορά στην ακρίβεια της απάντησης, και υπάρχουν αρκετές περιπτώσεις εφαρµογών όπου δεν έχουµε πρόβληµα µε έναν τέτοιο συµβιβασµό. 7

24 Ο χρήστης επιθυµεί µια γρήγορη απάντηση, έστω και ανακριβή. Για παράδειγµα, σε µια ακολουθία από drill-down queries σε ad-hoc data mining, τα αρχικά queries σκοπό έχουν να καθορίσουν την περιοχή που ενδιαφέρει και κατά συνέπεια τα επόµενα queries. Είναι ο κανόνας στα σηµερινά Συστήµατα Στήριξης Αποφάσεων (Decision Support Systems) η εκτέλεση πολύπλοκων ερωτήσεων πάνω σε τεράστιες ποσότητες δεδοµένων (TB), µε ταυτόχρονους περιορισµούς στον διαθέσιµο χρόνο για τον υπολογισµό της απάντησης. Μια προσεγγιστική απάντηση µπορεί να πληροφορήσει για την ορθότητα ενός query. Είναι ευπρόσδεκτη στην περίπτωση όπου τα πραγµατικά δεδοµένα δεν είναι προσπελάσιµα (αποµακρυσµένα, µεγάλο τηλεπικοινωνιακό φορτίο, φορητές Β, κατανεµηµένες Β ). Όταν πραγµατοποιούνται aggregate queries και δεν απαιτείται ακρίβεια στην απάντηση. Σε Query Optimizers των DBMSs, οι οποίοι επιλέγουν το βέλτιστο πλάνο µε βάση το κόστος της εκτέλεσης ενός query. Από την στιγµή που διαθέτουµε µια περίληψη ή σύνοψη των δεδοµένων, µπορούµε να απαντήσουµε σε διάφορες ερωτήσεις του χρήστη. Στη βιβλιογραφία έχει αναλυθεί διεξοδικά η απάντηση aggregate queries, και κυρίως η εκτίµηση επιλεκτικότητας των SQL τελεστών. Στις περιπτώσεις αυτές το αποτέλεσµα της ερώτησης είναι απλά ένας αριθµός που συνοδεύεται από κάποιο σφάλµα ή διάστηµα εµπιστοσύνης. Μια περισσότερο δύσκολη εφαρµογή είναι η απάντηση γενικών SQL queries (approximate query answering) που αποτελεί και αντικείµενο της διπλωµατικής εργασίας. 2. Τεχνικές Συµπίεσης Συνολικά, έχουν προταθεί οι ακόλουθες τεχνικές για την συµπίεση των δεδοµένων και την γρήγορη απάντηση ενός query. 2.. Προϋπολογισµός Queries 8

25 Αν και ουσιαστικά δεν είναι µέθοδος συµπίεσης των δεδοµένων, τυπικά πρόκειται για τεχνική µη απωλεστικής συµπίεσης (loss-less compression). Χαρακτηριστικό παράδειγµα αποτελεί ο τελεστής του κύβου [GBL+96] σε OLAP εφαρµογές, όπου προϋπολογίζονται διάφορα aggregates για συγκεκριµένες τιµές των attributes, τα οποία στη συνέχεια καλούνται διαστάσεις. Συναντήσαµε επιπλέον στη βιβλιογραφία την αποθήκευση του αποτελέσµατος παλαιότερων queries που έχει εκτελέσει ο χρήστης, και την εξαγωγή απάντησης µε βάση αυτά [AC00] ειγµατοληψία Sampling Αντί να χρησιµοποιούµε ολόκληρη τη relation ή τον κύβο για την εξαγωγή του αποτελέσµατος ενός query, χρησιµοποιούµε ένα τυχαίο, οµοιόµορφο δείγµα του εν λόγω πληθυσµού, και µε βάση αυτό υπολογίζεται µια προσεγγιστική απάντηση που ενσωµατώνει µόνο το σφάλµα της δειγµατοληψίας (sampling error). Σε κάθε περίπτωση, όσο µειώνεται το µέγεθος του δείγµατος, τόσο µειώνεται το διάστηµα εµπιστοσύνης της εκτίµησής µας. Σε OLTP συστήµατα µπορούµε να έχουµε ένα δείγµα από κάθε σχέση, και µε βάση αυτά να απαντάµε όλα τα queries [Coc77], [EN82], [GM98], [OR86], [LNS+93], [LNS90]. Περισσότερο ενδιαφέρουσα είναι η εφαρµογή της µεθόδου σε OLAP συστήµατα, όπου µπορούµε να έχούµε µόνο ένα δείγµα ενός κύβου (incomplete data cube) [Dyr96], από το οποία να υπολογίζουµε τα άγνωστα aggregates. Μια άλλη εφαρµογή αποτελούν τα Join Synopses [AGP+99], όπου συντηρούµε δείγµατα από joined relations που σχηµατίζουν ένα chained query (star, snowflake schema). Για την εξαγωγή ενός οµοιόµορφου τυχαίου δείγµατος (uniform random sample) η αποδοτικότερη µέθοδος είναι η reservoir sampling [Vit85]. Η κεντρική της ιδέα συνοψίζεται στη λήψη δείγµατος µεγέθους n από τον πληθυσµό, έτσι ώστε κάθε τιµή να έχει την ίδια πιθανότητα να βρεθεί στο δείγµα Ιστογράµµατα - Grids Τα ιστογράµµατα είναι διαδεδοµένα σε όλα τα εµπορικά συστήµατα διαχείρισης βάσεων δεδοµένων, ως µέρος του query optimizer. Προέρχονται από την στατιστική, και έχουν υποστεί πολλές αλλαγές για την βελτιστοποίησή τους στις βάσεις δεδοµένων. 9

26 Η κύρια τα ταξινόµησή τους έχει γίνει από τον Viswanath Poosala στη διδακτορική του διατριβή [Poo97], όπου θεµελιώνει θεωρητικά κριτήρια βελτιστότητας και προσδιορίζει το ικανότερο ιστόγραµµα για κάθε τύπο query. Σε ότι αφορά στα µονοδιάστατα ιστογράµµατα, αποτελούν ίσως την πιο αποδοτική µορφή απεικόνισης της κατανοµής ενός πεδίου. Η συµπεριφορά τους σε περισσότερες διαστάσεις, οπότε και µιλάµε για από κοινού συνάρτηση πυκνότητας πιθανότητας ή από κοινού κατανοµή συχνοτήτων, δεν είναι ικανοποιητική. Το κύριο µειονέκτηµά τους είναι η αύξηση του σφάλµατος µε την αύξηση των διαστάσεων, και η στατικότητά τους ως προς τον προϋπολογισµό τους σε συγκεκριµένες διαστάσεις. Έτσι ένα ιστόγραµµα για 3 attributes, δεν µπορεί να περιλάβει µετά την κατασκευή του και ένα τέταρτο πεδίο, εκτός και αν χρησιµοποιηθεί η AVI (Attribute Value Independence Assumption). Σε ότι αφορά στα grids, πρόκειται για ιδέα ανάλογη των ιστογραµµάτων. Ο χώρος, θεωρείται ότι τεµαχίζεται από ένα ορθογωνικό πλέγµα. Για κάθε τετράγωνο του πλέγµατος αποθηκεύονται οι ίδιες στατιστικές πληροφορίες µε τα buckets των ιστογραµµάτων. Πρόκειται σαφώς για ιστογράµµατα µε διαφορετικό όνοµα... όµως η διαφορετική οπτική γωνία από την οποία αντιµετωπίζεται ο τεµαχισµός του χώρου, προσφέρει ένα σύνολο νέων, αποδοτικών τεχνικών [PM99] Ιστογράµµατα µιας διάστασης Έχουµε ένα σύνολο τιµών. Το χωρίζουµε (διαλογή - partitioning) σε µια οµάδα από ξένα µεταξύ τους υποσύνολα που η ένωσή τους καλύπτει όλο το αρχικό σύνολο. Κάθε τέτοιο υποσύνολο καλείται κλάση (bucket). Για κάθε κλάση, γνωρίζουµε τα όριά της, καθώς και τον αριθµό των τιµών που περιλαµβάνει. Ο παραπάνω ορισµός δίνεται στην Στατιστική για να περιγράψει µια συνηθισµένη και εξαιρετικά επιτυχηµένη µέθοδο περιληπτικής περιγραφής ενός πληθυσµού. Όµως µια τέτοια περίληψη σκοπό έχει κυρίως την εποπτική αναπαράσταση του αρχικού συνόλου τιµών, ώστε να είναι άµεσα ορατά τα στατιστικά χαρακτηριστικά της κατανοµής που ακολουθούν τα δεδοµένα. Στις Βάσεις εδοµένων, τα ιστογράµµατα χρησιµοποιήθηκαν ήδη από το 980 σε διάφορα Σ Β, ως µέρος του query optimizer. Με βάση µια αδρή προσέγγιση των δεδοµένων σε κάθε σχέση, καθίσταται δυνατή η κατά προσέγγιση πρόβλεψη της επιλεκτικότητας ενός query, και κατά συνέπεια το βέλτιστο πλάνο εκτέλεσης. 0

27 Όµως, µε βάση την ίδια πληροφορία µπορούµε να δώσουµε και προσεγγιστικές απαντήσεις σε aggregate queries (sum, max, min, count, average). Υπάρχουν άλλωστε αρκετές εφαρµογές όπου χρήστης είναι διατεθειµένος να λάβει µια προσεγγιστική απάντηση µε αντάλλαγµα την αύξηση της ταχύτητας εκτέλεσης του ερωτήµατός του. Μέσα στο πλαίσιο της προσπάθειας για συµπίεση στα δεδοµένα, ανάµεσα σε άλλες τεχνικές, αναζητήθηκε η βελτιστοποίηση των χαρακτηριστικών των ιστογραµµάτων, ώστε να αποκρίνονται καλύτερα στο έργο τους σε ένα Σ Β. Μια πρώτη άµεση βελτίωση του κλασσικού ορισµού είναι η χρήση ιστογραµµάτων όπου οι κλάσεις τους (buckets ή grids) έχουν το ίδιο εύρος (equiwidth) ή το ίδιο πλήθος τιµών (equidepth). Για τα περιεχόµενα ενός bucket, µπορούµε να υποθέσουµε ότι σε αυτό περιλαµβάνονται όλες οι τιµές µεταξύ των ορίων του, οπότε και η συχνότητα κάθε τιµής είναι ίση µε το µέσο όρο των συχνοτήτων (continuous value assumption), ή πως υπάρχουν m τιµές που απέχουν ίση απόσταση (uniform spread assumption) ή τέλος πως κάθε bucket περιλαµβάνει µία µόνο τιµή (point value assumption) Ιστογράµµατα περισσότερων διαστάσεων Όταν σε κάποιο query µας ενδιαφέρει η συσχέτιση δύο ή περισσοτέρων attributes, τότε πρέπει να έχουµε την αναπαράσταση τής από κοινού κατανοµής συχνοτήτων των εν λόγω attributes. Το πρόβληµα σε σχέση µε την µία διάσταση, είναι ότι δεν υπάρχει προφανής γραµµική (εν σειρά) διάταξη των σχηµατιζόµενων κλάσεων. Για την κατασκευή ενός πολυδιάστατου ιστογράµµατος µπορούµε να ακολουθήσουµε µια από τις παρακάτω τεχνικές AVI Mhist Hilbert Numbering Rectangular Partitioning (Grid) Fgrid Vmhist Sgrid (Summary Grids) 2..4 Παλινδρόµηση Regression (Parametric Modeling)

28 Η ιδέα στην παλινδρόµηση είναι η αντικατάσταση των πραγµατικών δεδοµένων (για µία, ή περισσότερες διαστάσεις) µε ένα καλά επιλεγµένο στατιστικό µοντέλο που εκφράζει την συνάρτηση πυκνότητας πιθανότητας. Κύρια σηµεία σε αυτή την τεχνική, που χρησιµοποιείται ευρύτατα σε διάφορες µεθόδους προβλέψεων, είναι η επιλογή της κατάλληλης συνάρτησης (γραµµική, πολυωνυµική, εκθετική) και η προσαρµογή των παραµέτρων της στα πραγµατικά δεδοµένα. Εάν έχει πραγµατοποιηθεί µια επιτυχηµένη παρεµβολή, µπορούµε να χρησιµοποιούµε αποκλειστικά το στατιστικό µοντέλο. Όπως προκύπτει και από τα παραπάνω, η επιλογή της κατάλληλης συνάρτησης που περιγράφει καλύτερα τα δεδοµένα έχει εξαιρετική σηµασία. Συνήθως χρησιµοποιούνται πολυωνυµικές συναρτήσεις ης (για ευκολία) ή 5 ης και 6 ης τάξης (για ακρίβεια). Στην πρώτη περίπτωση έχουµε υψηλό σφάλµα, ενώ στη δεύτερη µεγάλο υπολογιστικό κόστος. Αυτό που παραµένει όµως είναι το εξαιρετικά µικρό κόστος σε χώρο για την αποθήκευση του µοντέλου. Μια σηµαντική θεώρηση που πραγµατοποιείται στις παρεµβολές, είναι η ιδέα των outliers, των σηµείων δηλαδή που απέχουν αρκετά από το στατιστικό µοντέλο, και κατά συνέπεια δεν µπορούν να περιγραφούν ικανοποιητικά από αυτό. Προτιµούµε είτε να τα αγνοούµε εντελώς (στην στατιστική ανάλυση) είτε να τα αποθηκεύουµε µαζί µε τις παραµέτρους του µοντέλου SVD Singular Value Decomposition Επιχειρείται η προσέγγιση µιας κατανοµής µε την βοήθεια ενός µικρού αριθµού γραµµικών συναρτήσεων. Προέρχεται από την Γραµµική Άλγεβρα και Αριθµητική Ανάλυση, και στηρίζεται στη κατάλληλη επιλογή ενός αριθµού σηµείων της κατανοµής που θα αποτελέσουν τα άκρα των γραµµικών συναρτήσεων (threading) Οµαδοποίηση Clustering (Parametric Modeling) Αποτελεί γενίκευση της παλινδρόµησης (και της SVD), όπου τα δεδοµένα δεν προσεγγίζονται από µία µόνο συνάρτηση, αλλά από το άθροισµα ενός συνόλου συναρτήσεων που έχουν το χαρακτηριστικό να επικεντρώνονται στην απεικόνιση µιας µόνο περιοχής (πχ Gaussian). Η µέθοδος της οµαδοποίησης χρησιµοποιείται ευρύτατα στη θεωρία Νευρωνικών 2

29 ικτύων, θέτοντας έτσι τις βάσεις και για µια καθαρόαιµη υλοποίηση νευρωνικού δικτύου που πραγµατοποιεί προβλέψεις κατά προσέγγιση (Clustering + Radial Basis Functions). Παρουσιάζει εξαιρετικό ενδιαφέρον, όπως επίσης και οι περισσότερες τεχνικές που αντικαθιστούν ολοκληρωτικά τα δεδοµένα µε ένα πιθανοτικό µοντέλο (probabilistic techniques). Πέρα από τις διαδεδοµένες εφαρµογές data analysis, µπορούν να υποστηρίξουν µε επιτυχία φορητές βάσεις δεδοµένων (ακόµη και σε ένα Pocket PC) καθώς α) καταλαµβάνουν πολύ µικρό χώρο στη µνήµη (~ΚΒ) β) περιγράφουν ολόκληρη τη βάση ή αντίστοιχα τον κύβο γ) δεν είναι ιδιαίτερα απαιτητικά σε υπολογιστικό φορτίο. Ενδιαφέρουσα είναι η επίδρασή τους στις διαδεδοµένες what-if εφαρµογές. Επιτυχηµένες µέθοδοι είναι οι BIRCH [ZRL96], που εισάγει την ιδέα της δυναµικής δηµιουργίας ενός CF-tree (cluster feature), CLARANS, που προοδευτικά βελτιώνει τα χαρακτηριστικά των clusters χρησιµοποιώντας heuristic µεθόδους, και η πρόσφατη εργασία των Compressed Data Cubes [SFB99] Wavelet Decomposition Τα wavelets είναι ένα µαθηµατικό εργαλείο που αποσκοπεί στην ιεραρχική αποσύνθεση συναρτήσεων. Η αρχική συνάρτηση αποσυντίθεται σε ένα άθροισµα βασικών όρων των οποίων το βάρος στον ακριβή σχηµατισµό της συνάρτησης ελαττώνεται σταθερά. Έτσι, είναι δυνατό να κρατήσουµε µόνο τους πρώτους 2 ή 3 όρους και να θεωρήσουµε πως η συνάρτησή µας προσεγγίζεται ικανοποιητικά. Η τεχνική αυτή είχε προκύψει από την Κυµατική Φυσική (wavelets=µικρά κύµατα) και την ανάλυση ενός κύµατος σε συνιστώσες σταθερά µειουµένου πλάτους, των οποίων η συχνότητα είναι πολλαπλάσιο (αρµονική) της κύριας συχνότητας. Τα πλεονεκτήµατά της είναι όµοια µε την τεχνική Clustering, ενώ έχει χρησιµοποιηθεί µε επιτυχία στην επεξεργασία εικόνας. Είναι σχετικά νέα µέθοδος, µε µεγάλο ενδιαφέρον Approximate Data Structures Για τον ταχύ υπολογισµό ενός aggregate, σχηµατίζεται µια δοµή δεδοµένων, που παρέχει άµεσα µια πρώτη, προσεγγιστική απάντηση. Για παράδειγµα, η ελάχιστη τιµή θα µπορούσε να προκύψει από µια ουρά προτεραιότητας που περιλαµβάνει τέτοιες ελάχιστες τιµές. 3

30 2..9 Υβριδικές µέθοδοι Σε αρκετές περιπτώσεις πραγµατοποιείται ένας συνδυασµός των παραπάνω µεθόδων. 2.2 Γενικές Παρατηρήσεις Κάθε µια τεχνική εµφανίζει συγκεκριµένα χαρακτηριστικά που την καθιστούν περισσότερο ή λιγότερο επιθυµητή για µια συγκεκριµένη εφαρµογή. Όµως ακόµη και σε ένα συγκεκριµένο πεδίο, η ίδια γενική λύση µπορεί να βελτιστοποιηθεί δραστικά για ένα συγκεκριµένο σκοπό (ένα γνωστό query). Μπορούµε ωστόσο να συγκρίνουµε τις διάφορες µεθόδους µέσα στο ειδικό πλαίσιο µιας εφαρµογής µε βάση τους µέσους όρους (και τις αποκλίσεις από αυτούς) των διαφόρων κριτηρίων βελτιστότητας. Τέτοια κριτήρια είναι: Η ταχύτητα εκτέλεσης (µέτρηση) Η ακρίβεια της απάντησης (σε σχέση µε την πραγµατική τιµή) Το διάστηµα εµπιστοσύνης και το εκτιµώµενο σφάλµα της απάντησης o Με βάση στατιστικές µεθόδους Κεντρικό Οριακό Θεώρηµα (CLT) Hoeffding bounds Chebychev bounds (ανισότητα) Chernof bounds o Εµπειρικά Subsampling - Chunking Πολλαπλή επανάληψη των µετρήσεων Η εκµετάλλευση χώρου σε σχέση µε την ακρίβεια της απάντησης (compression ratio) Πρέπει να σηµειωθεί ότι ένα κοινό γνώρισµα όλων ανεξαιρέτως των µεθόδων είναι η de yure αδυναµία τους να απαντήσουν σε queries µε µικρό selectivity (µικρότερο του %). Ενώ de facto, όσο αυξάνεται η επιλεκτικότητα, τόσο αυξάνεται και η ακρίβειά τους. Ένα ρεαλιστικό ελάχιστο µέγιστο σφάλµα (infimum) που µπορεί να επιτευχθεί από το σύνολο των τεχνικών είναι περίπου 5%, ανεξάρτητα µονοδιάστατου ή πολυδιάστατου περιβάλλοντος. 4

31 Επιπλέον, οι περισσότερες τεχνικές θέτουν συγκεκριµένους περιορισµούς για τον διαθέσιµο χώρο που θα καταλάβει η περίληψη των δεδοµένων. Συνήθως είναι της τάξης των KB, και σε κάθε περίπτωση 3-5 τάξεις µεγέθους µικρότερα από τα πραγµατικά δεδοµένα. Οι περιορισµοί ως προς τον διαθέσιµο χώρο επιβάλλονται από την ανάγκη αποθήκευσης των περιλήψεων (data summaries) στην κύρια µνήµη, ώστε να καθίσταται ταχύτατη η εκτίµηση του κόστους ενός query από τον query optimizer. Σε ένα OLAP περιβάλλον όµως, όπου εξ ορισµού έχουµε χαµηλή κανονικοποίηση και πολλά δεδοµένα (GB, TB), δεν υπάρχουν έτσι κι αλλιώς εναλλακτικά πλάνα εκτέλεσης. Κυρίως µας ενδιαφέρει (Decision Support και Data Mining) η ταχύτατη απάντηση ενός query. Επιπλέον, ενδιαφέρουσες εφαρµογές αποτελούν η off-line απάντηση ενός query χρησιµοποιώντας µόνο τις περιλήψεις. Σε αυτό το πλαίσιο συναντάµε την ιδέα του cube operator, που στην ουσία είναι µια µέθοδος προϋπολογισµού aggregate queries. Το κύριο χαρακτηριστικό της είναι ότι συνήθως συµπεριφέρεται ως µη απωλεστικός αλγόριθµος συµπίεσης των δεδοµένων που υπάρχουν στις relations του OLAP περιβάλλοντος. 2.3 Συµπεράσµατα Με βάση τα όσα µελετήσαµε στην εκτενή βιβλιογραφία, επιλέξαµε να επικεντρώσουµε το ενδιαφέρον της µελέτης µας στις µεθόδους προσεγγιστικής απάντησης ερωτήσεων που στηρίζονται στα ιστογράµµατα και τον wavelet µετασχηµατισµό. Στην απόφαση αυτή καταλήξαµε για δύο κυρίως λόγους. Πρώτον, τα ιστογράµµατα αποτελούν την πλέον διαδεδοµένη, σε πραγµατικά συστήµατα, µέθοδο για την συγκέντρωση στατιστικών χαρακτηριστικών των κατανοµών των δεδοµένων. Εξασφαλίζουν καλές επιδόσεις και έχουν παρουσιαστεί και αναλυθεί εκτενώς στην αντίστοιχη βιβλιογραφία και θα αποτελέσουν αξιόπιστο µέτρο σύγκρισης της δεύτερης µεθόδου. εύτερον, οι επιδόσεις των τεχνικών που στηρίζονται στον WT είναι αντίστοιχες των ιστογραµµάτων, και εξαιρετικά καλύτερες για µεγάλο αριθµό διαστάσεων. εδοµένης της σύντοµης ζωής αυτών των µεθόδων και της ταυτόχρονης επιτυχίας του σε τόσο σύντοµο χρονικό διάστηµα, µοιάζουν εξαιρετικά ελκυστικές και υποσχόµενες για το µέλλον. Στα επόµενα κεφάλαια θα παρουσιαστούν ανεξάρτητα η θεωρητική θεµελίωση και πειραµατική αξιολόγηση των δύο µεθόδων. Στο 9ο κεφάλαιο θα επιχειρήσουµε, κατά το δυνατόν, τη µεταξύ τους σύγκριση. 5

32 6

33 3 Ιστογράµµατα Το κεφάλαιο αυτό αποτελεί µία γενική εισαγωγή στη θεωρία των ιστογραµµάτων. Αρχικά γίνεται µία σύντοµη παρουσίαση της χρησιµότητας τους, και δίνονται οι ορισµοί των κυριότερων εννοιών που θα µας απασχολήσουν. Ακολουθεί η παρουσίαση των κυριότερων µονοδιάστατων και πολυδιάστατων ιστογραµµάτων, του τρόπου κατασκευής και συντήρησής τους. 3. Γενικά Στη βιβλιογραφία έχουν κατά καιρούς προταθεί διάφορες τεχνικές για την προσέγγιση των κατανοµών δεδοµένων µίας βάσης. Αυτές γενικά µπορούν να ταξινοµηθούν σε τρεις κατηγορίες: Parametric Sampling 7

34 Histograms Οι παραµετρικές τεχνικές (parametric βλ. [Sel79]) προσεγγίζουν την κατανοµή δεδοµένων µε τη βοήθεια µίας µαθηµατικής συνάρτησης η οποία έχει ένα πεπερασµένο πλήθος ανεξάρτητων παραµέτρων, όπως για παράδειγµα οι σταθερές ενός πολυωνύµου ή η µέση τιµή και η διασπορά στη κανονική κατανοµή. Οι τιµές των παραµέτρων µεταβάλλονται κατάλληλα ώστε η συνάρτηση να ταιριάζει όσο το δυνατόν περισσότερο µε την πραγµατική κατανοµή. Αν κάτι τέτοιο είναι εφικτό, προκύπτει µία πολύ µικρή και ακριβής προσέγγιση της αρχικής κατανοµής. υστυχώς όµως, τις περισσότερες φορές η κατανοµή των δεδοµένων δεν είναι πάντα εκ των προτέρων γνωστή και κατά συνέπεια η επιλογή του κατάλληλου µαθηµατικού µοντέλου είναι δύσκολη. Για το λόγο αυτό συνήθως χρησιµοποιείται ένα πολυώνυµο και εφαρµόζεται η τεχνική των ελαχίστων τετραγώνων προκειµένου να βρεθούν οι σταθερές αυτού, που ελαχιστοποιούν το συνολικό σφάλµα. Επιπλέον, µε τη βοήθεια ανατροφοδότησης (feedback) των αποτελεσµάτων των ερωτήσεων, είναι δυνατόν οι σταθερές του πολυωνύµου να ενηµερώνονται για τυχών αλλαγές στην κατανοµή δεδοµένων. Όµως και η λύση µε τη χρήση πολυωνύµων δεν είναι πολλές φορές αρκετή, αφού µπορεί να εµφανιστούν στα αποτελέσµατα των προσεγγίσεων αρνητικές συχνότητες κάτι που είναι αδύνατο. Τέλος, στο σχήµα φαίνεται η προσέγγιση µίας συνεχούς κατανοµής µε ένα πολυώνυµο τετάρτου βαθµού. Frequency Continuous Distribution Πολυώνυµο 4 ου βαθµού Attribute Values Σχήµα : Προσέγγιση τυχαίας συνεχούς κατανοµής από ιστόγραµµα και πολυώνυµο 4 ου βαθµού Η τεχνικές δειγµατοληψίας (sampling βλ. [GM98]) εξάγουν εκτιµήσεις µε τη βοήθεια τυχαίων δειγµάτων από τα ίδια τα δεδοµένα. εδοµένου όµως ότι η διεξαγωγή της δειγµατοληψίας κατά την εκτέλεση µίας ερώτησης έχει υψηλό κόστος, συνήθως κατασκευάζονται και συντηρούνται περιλήψεις των δεδοµένων εκ των προτέρων. Οι τεχνικές αυτού του είδους έχουν το πλεονέκτηµα ότι δίνουν µικρά σφάλµατα και παρέχουν στατιστικές εγγυήσεις για την ακρίβεια των αποτελεσµάτων τους (π.χ. άνω φράγµα για το σφάλµα εντός κάποιου διαστήµατος εµπιστοσύνης). Ωστόσο, απαιτούν πολύ περισσότερο αποθηκευτικό χώρο από ότι οι τεχνικές που περιγράφονται παρακάτω (0% - 20% του όγκου των πραγµατικών δεδοµένων), γεγονός που καθιστά τη χρήση τους µη πρακτική. 8

35 Τα ιστογράµµατα αποτελούν την πιο διαδεδοµένη από τις παραπάνω τεχνικές. Γενικά ένα ιστόγραµµα προσεγγίζει την κατανοµή συχνοτήτων ενός πεδίου (attribute) µίας σχέσης (relation) οµαδοποιώντας τις τιµές του πεδίου σε ξένα µεταξύ τους υποσύνολα (buckets) και εν συνεχεία να προσεγγίζοντας τις πραγµατικές τιµές και τις αντίστοιχες συχνότητές σε κάθε bucket µε τη βοήθεια στατιστικών στοιχείων που αποθηκεύονται σε αυτό. Στα σχήµατα και 2 απεικονίζονται δύο παραδείγµατα ιστογραµµάτων µίας διάστασης, ένα για συνεχή Frequency Discrete Distribution Attribute Values Σχήµα 2: Προσέγγιση διακριτής κατανοµής από ιστόγραµµα (continuous) και ένα για διακριτή (discrete) κατανοµή δεδοµένων. Στην ανάλυση που ακολουθεί, παρόλο που τα πεδία τιµών των διαφόρων attributes µπορεί να είναι συνεχή, οι κατανοµές συχνοτήτων είναι διακριτές και σε αυτές επικεντρώνεται το ενδιαφέρον µας. Τα ιστογράµµατα γενικά συγκεντρώνουν τα εξής επιθυµητά χαρακτηριστικά : Η χρήση τους συνεπάγεται πολύ µικρή επιβάρυνση στη συνολική απόδοση του συστήµατος Τα πραγµατικά δεδοµένα δε χρειάζεται να ακολουθούν κάποια συγκεκριµένη στατιστική κατανοµή Προσφέρουν ικανοποιητική ακρίβεια, ενώ ταυτόχρονα έχουν µικρές απαιτήσεις σε χώρο αποθήκευσης. Κύριο µειονέκτηµα το ιστογραµµάτων (όπως θα φανεί από τα παρακάτω) είναι ότι το σφάλµα αυξάνει σηµαντικά µε την αύξηση των διαστάσεων. Παρακάτω θα ασχοληθούµε µε τα εξής θέµατα : Ορισµοί - Συµβολισµοί Μονοδιάστατα ιστογράµµατα Επέκταση θεωρίας ιστογραµµάτων σε περισσότερες της µίας διαστάσεων 9

36 Επέκταση ιστογραµµάτων και χρήση αυτών για την εξαγωγή προσεγγιστικών απαντήσεων Μέθοδοι κατασκευής και δυναµικής ενηµέρωσης ιστογραµµάτων Τέλος σηµειώνουµε ότι τα ιστογράµµατα αρχικά χρησιµοποιήθηκαν κυρίως για την εκτίµηση της επιλεκτικότητας (selectivity) των διαφόρων σχεσιακών τελεστών (select σ { a, project π { A}, join R { } >< { R A R B} R B, κτλ.) και της κατανοµής δεδοµένων του αποτελέσµατος A.. { } ενός ερωτήµατος. Ωστόσο, οι νέοι τύποι ιστογραµµάτων, λόγω του µικρού σφάλµατός τους, µπορούν να χρησιµοποιηθούν εξίσου αποδοτικά και για την προσεγγιστική απάντηση ερωτήσεων. = 2 A } 3.2 Ορισµοί Οι συµβολισµοί και ορισµοί που χρησιµοποιούµε προέρχονται από την αντίστοιχη δηµοσίευση των Poosala και Ιωαννίδη [PI97]. Ορίζουµε, λοιπόν, ως πεδίο ορισµού D (domain) ενός πεδίου Χ (attribute) µίας σχέσης R το σύνολο όλων των δυνατών τιµών του X και ως πεδίο τιµών V ( value set V D) το σύνολο των τιµών του Χ που εµφανίζονται στην R. Το σύνολο D είναι άπειρο και µη αριθµήσιµο, ωστόσο το V είναι πεπερασµένο και αριθµήσιµο. Έστω λοιπόν ότι V = { ui i D} : και ότι u i < u j για i < j. Υπάρχει δηλαδή µία σχέση ολικής διάταξης για τα στοιχεία του V. Ορίζουµε το spread s i για το u i ως s [ ) = u + u : i D ( για i = D θέτουµε = ). Η συχνότητα f ( frequency ) του u i i i, s D ορίζεται ως το πλήθος των tuples R για τα οποία ισχύει t. X = ui. Η περιοχή a i (area) του ορίζεται ως το γινόµενο της συχνότητας f και του spread si. Η αθροιστική u i συχνότητα (cumulative frequency) του u ορίζεται ως το πλήθος των tuples R για τα c i i i i i οποία ισχύει t. X, δηλαδή ισχύει c i = f. Η κατανοµή δεδοµένων u i j j= j T ( data distribution) του X στο R ορίζεται ως το σύνολο των ζευγών T = {( ui, f),( ui, f 2 ), ( ui, f3 ),...,( u i, f D )}. Οµοίως η αθροιστική κατανοµή δεδοµένων T C ( cumulative data distribution) του X στο R ορίζεται ως το σύνολο των ζευγών T = ( u c ), ( u, c ), ( u, ),...,( u, )}. Τέλος η εκτεταµένη αθροιστική κατανοµή { i, i 2 i c 3 δεδοµένων + T c i c D ( extended cumulative data distribution) του X στο R είναι η επέκταση της 20

37 T C σε όλο το πεδίο ορισµού, όπου θεωρούµε µηδενικό f για κάθε u το οποίο ανήκει στο D V. Προκειµένου οι παραπάνω ορισµοί να γίνουν πιο κατανοητοί στο σχήµα 3 δίνεται µία τυχαία κατανοµή δεδοµένων και τα αντίστοιχα µεγέθη που ορίστηκαν παραπάνω, καθώς και µία γραφική απεικόνιση αυτής. Value Frequency i i Spread s i = u + u i i Area a i = f s i i Cumulative Frequency c i = j j= f j f s 6 u Σχήµα 3: Τυχαία διακριτή κατανοµή δεδοµένων και πίνακας παραµέτρων αυτής 3.3 Ταξινόµηση Ιστογραµµάτων Ορισµός Μονοδιάστατων Ιστογραµµάτων [PI97] : Ένα ιστόγραµµα H πάνω στο πεδίο X της σχέσης R, ορίζεται ως µία διαµέριση της κατανοµής δεδοµένων Τ του Χ σε β ( ) ξένα µεταξύ τους υποσύνολα (buckets) και τη προσέγγιση των πραγµατικών τιµών και των αντίστοιχων συχνοτήτων τους σε κάθε υποσύνολο µε µία κοινή για όλα τα υποσύνολα µέθοδο. Τα όρια των υποσυνόλων προσδιορίζονται από ένα κανόνα διαµέρισης, που στόχο έχει την ελαχιστοποίηση της απόκλισης µεταξύ της προσεγγιστικής κατανοµής που προκύπτει από την πραγµατική Προκειµένου να ταξινοµήσουµε τις διάφορες κλάσεις ιστογραµµάτων χρησιµοποιούµε τις παρακάτω παραµέτρους, η σηµασία των οποίων ερµηνεύεται αναλυτικότερα στην επόµενη ενότητα : 2

38 Partition class: Προσδιορίζει την ιδιαίτερη τάξη στην οποία ανήκει ένα ιστόγραµµα. Partition Constraint: Ο µαθηµατικός περιορισµός, η εφαρµογή του οποίου πάνω στις sort και source παραµέτρους ορίζει µοναδικά ένα ιστόγραµµα εντός µίας συγκεκριµένης τάξης. Sort parameter: Η παράµετρος αυτή προκύπτει από την κατανοµή δεδοµένων Τ. Συνήθως ως sort parameter χρησιµοποιούνται οι τιµές u, f και a. Source parameter: Η παράµετρος αυτή προκύπτει από την κατανοµή δεδοµένων Τ. Συνήθως ως source parameter χρησιµοποιούνται οι τιµές f, c και a. i i i i i i Εκτός από τις παραπάνω παραµέτρους ένα ιστόγραµµα χαρακτηρίζεται από τις εξής δύο ιδιότητες : Μέθοδος προσέγγισης των πραγµατικών τιµών σε ένα bucket. Μέθοδος προσέγγισης της πραγµατικής συχνότητας κάθε τιµής που βρίσκεται σε ένα bucket Οι τελευταίες δύο παράµετροι καθορίζουν την πληροφορία η οποία ουσιαστικά αποθηκεύεται για κάθε bucket Sort & Source Parameters Η sort παράµετρος προκύπτει από την κατανοµή δεδοµένων Τ και µπορεί να είναι µία από τις παραµέτρους s, f, c ή a που ορίστηκαν στην ενότητα 3.2. Όλα τα στοιχεία της κατανοµής Τ ταξινοµούνται βάσει της sort παραµέτρου που τους έχει αντιστοιχιστεί πριν από την εκτέλεση της διαµέρισης. Οµοίως, η source παράµετρος προκύπτει και αυτή από την κατανοµή Τ και είναι συνήθως µία εκ των f, c ή a. Η source παράµετρος είναι το µέγεθος πάνω στο οποίο εφαρµόζεται ο κανόνας διαµέρισης για τον υπολογισµό των ορίων των buckets. i i i i Η επιλογή των sort και source παραµέτρων ενός ιστογράµµατος επηρεάζει άµεσα την ακρίβειά του. Η χρήση των u και s δίνει καλή προσέγγιση του πεδίου τιµών, ενώ των i i i i i fi και c i των συχνοτήτων της κατανοµής Τ. Ωστόσο, στόχος ενός ιστογράµµατος είναι η 22

39 προσέγγιση τόσο των τιµών όσο και των συχνοτήτων τους, δηλαδή ολόκληρης της κατανοµής Τ. Έτσι λοιπόν οι χρησιµοποιούµενες παράµετροι θα πρέπει να απεικονίζουν αποδοτικά το συνδυασµό τιµής και αντίστοιχης συχνότητας. Η παράµετρος που εξυπηρετεί αποδοτικότερα ένα τέτοιο σκοπό είναι η περιοχή a i (area) Partition Class Οι τάξεις ιστογραµµάτων συνήθως καθορίζουν περιορισµούς στον αριθµό των στοιχείων της κατανοµής Τ, ο οποίος αντιστοιχίζεται σε κάθε bucket. Ο κυριότερες τάξεις ιστογραµµάτων είναι : Serial: Στα ιστογράµµατα αυτά κάθε bucket αποτελείται από ένα υποσύνολο στοιχείων της κατανοµής Τ τα οποία είναι διατεταγµένα ως προς την sort παράµετρο και δεν επικαλύπτεται µε κανένα άλλο bucket. εν τίθεται κανένας περιορισµός ως προς το πλήθος των στοιχείων σε κάθε bucket. Biased: Τα ιστογράµµατα αυτά περιέχουν τουλάχιστον ένα bucket το οποίο δεν είναι singleton 2, δηλαδή, περιέχει τουλάχιστον δύο στοιχεία της κατανοµής Τ. End Biased: Σε αντίθεση µε την προηγούµενη περίπτωση στα ιστογράµµατα αυτά όλα τα buckets, εκτός από ένα, είναι singleton. Παρατηρώντας τους παραπάνω ορισµούς, προκύπτει ότι η τάξη των Serial ιστογραµµάτων είναι γενικότερη από όλες τις άλλες και περικλείει αυτές των Biased και End Biased. Οµοίως τα Biased είναι πιο γενικά από τα End Biased τα οποία και περικλείουν. Οι σχέσεις µεταξύ τω διαφόρων τάξεων ιστογραµµάτων φαίνονται στο σχήµα 4. Serial Biased End Biased Σχήµα 4: Σχέσεις µεταξύ των διαφόρων τάξεων ιστογραµµάτων Τα serial ιστογράµµατα προσφέρουν γενικότερα µεγαλύτερη ακρίβεια, ενώ τα biased µεγαλύτερη εξοικονόµηση αποθηκευτικού χώρου. 2 Singleton bucket είναι ένα υποσύνολο της κατανοµής δεδοµένων µε ένα µόνο στοιχείο αυτής. 23

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ 1.1 Πίνακες, κατανομές, ιστογράμματα... 1 1.2 Πυκνότητα πιθανότητας, καμπύλη συχνοτήτων... 5 1.3

Διαβάστε περισσότερα

Μεγίστου Σφάλµατος. Παναγιώτης Καρράς. Αθήνα, 26 Αυγούστου 2005

Μεγίστου Σφάλµατος. Παναγιώτης Καρράς. Αθήνα, 26 Αυγούστου 2005 Μ ένα Σµπάρο υο Τρυγώνια: Εισάπαξ Κυµατιδιακές Συνόψεις για Μέτρα Μεγίστου Σφάλµατος Παναγιώτης Καρράς Αθήνα, 6 Αυγούστου 005 Έρευνα στο HKU µε τον Νίκο Μαµουλή Περίληψη Προκαταρκτικά & Κίνητρα Χρησιµότητα

Διαβάστε περισσότερα

Πληροφοριακά Συστήµατα

Πληροφοριακά Συστήµατα Nell Dale John Lewis Chapter 12 Πληροφοριακά Συστήµατα Στόχοι Ενότητας Η κατανόηση της έννοιας «Πληροφοριακό Σύστηµα» Επεξήγηση της οργάνωσης λογιστικών φύλλων (spreadsheets) Επεξήγηση της ανάλυσης δεδοµένων

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

Πολύγωνο αθροιστικών σχετικών συχνοτήτων και διάµεσος µιας τυχαίας µεταβλητής ρ. Παναγιώτης Λ. Θεοδωρόπουλος πρώην Σχολικός Σύµβουλος ΠΕ03 e-mail@p-theodoropoulos.gr Πρόλογος Στην εργασία αυτή αναλύονται

Διαβάστε περισσότερα

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής: ΣΕΙΡΕΣ TAYLOR Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων Πολυώνυµο είναι κάθε συνάρτηση της µορφής: p( ) = a + a + a + a + + a, όπου οι συντελεστές α i θα θεωρούνται

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram).

Κατανοµές. Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται από το σχήµα του ιστογράµµατος (histogram). Ιωάννης Παραβάντης Επίκουρος Καθηγητής Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών Πανεπιστήµιο Πειραιώς Μάρτιος 2010 Κατανοµές 1. Οµοιόµορφη κατανοµή Η κατανοµή (distribution) µιας µεταβλητής (variable) φαίνεται

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ 1 ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ 1. Ένα σηµείο Α(χ, ψ) ανήκει στη γραφική παράσταση της f αν f(ψ)=χ. 2. Αν µια συνάρτηση είναι γνησίως αύξουσα σε ένα διάστηµα A,

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

( ) = inf { (, Ρ) : Ρ διαµέριση του [, ]}

( ) = inf { (, Ρ) : Ρ διαµέριση του [, ]} 7 ΙΙΙ Ολοκληρωτικός Λογισµός πολλών µεταβλητών Βασικές έννοιες στη µια µεταβλητή Έστω f :[ ] φραγµένη συνάρτηση ( Ρ = { t = < < t = } είναι διαµέριση του [ ] 0 ( Ρ ) = Μ ( ) όπου sup f ( t) : t [ t t]

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ηµήτρης Κουγιουµτζής http://users.auth.gr/dkugiu/teach/civilengineer E mail: dkugiu@gen.auth.gr 1/11/2009 2 Περιεχόµενα 1 ΠΕΡΙΓΡΑΦΙΚΗ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές Διωνυμικοί

Διαβάστε περισσότερα

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα Database System Concepts, 6 th Ed. Silberschatz, Korth and Sudarshan See www.db-book.com for conditions on re-use Παράδειγμα Σχέσης attributes

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τοµέας Μαθηµατικών, Σχολή Εφαρµοσµένων Μαθηµατικών και Φυσικών Επιστηµών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόµενα Εισαγωγή στη

Διαβάστε περισσότερα

14/10/2005. <id, ts, x, y> (online). (single-pass). Potamias-abstract.pdf

14/10/2005. <id, ts, x, y> (online). (single-pass). Potamias-abstract.pdf Συµπίεση εδοµένων Τροχιάς Κινούµενων Αντικειµένων Μιχάλης Ποταµιάς mpotamias@dblab.ntua.gr ιπλωµατική εργασία στο Εργαστήριο Συστηµάτων Βάσεων Γνώσεων και εδοµένων Επιβλέπων: Καθηγητής Τ. Σελλής 1 Εισαγωγή

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Στα πλαίσια της ΣΤΑΤΙΣΤΙΚΗΣ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑΣ προσπαθούµε να προσεγγίσουµε τα χαρακτηριστικά ενός συνόλου (πληθυσµός) δια της µελέτης των χαρακτηριστικών αυτών επί ενός µικρού

Διαβάστε περισσότερα

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους. Μάθηµα 1 Κεφάλαιο 1o: Συστήµατα Θεµατικές Ενότητες: A. Συστήµατα Γραµµικών Εξισώσεων B. Συστήµατα 3x3 Α. ΣΥΣΤΗΜΑΤΑ ΓΡΑΜΜΙΚΩΝ ΕΞΙΣΩΣΕΩΝ Ορισµοί Κάθε εξίσωση της µορφής α x+β =γ, µε α, β, γ R παριστάνει

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ Μετά από την εκτίµηση των παραµέτρων ενός προσοµοιώµατος, πρέπει να ελέγχουµε την αλήθεια της υποθέσεως που κάναµε. Είναι ορθή η υπόθεση που κάναµε? Βεβαίως συνήθως υπάρχουν

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 21 2.1.1 Αβεβαιότητα και Τυχαίο Πείραμα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αυτόνομες Τεχνικές Εντοπισμού Θέσης ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της ΚΑΤΕΡΙΝΑΣ

Διαβάστε περισσότερα

Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ)

Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ) Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ) ΜΙΧΑΛΗΣ ΤΖΟΥΜΑΣ ΕΣΠΟΤΑΤΟΥ 3 ΑΓΡΙΝΙΟ. ΠΕΡΙΛΗΨΗ Η έννοια της συνάρτησης είναι στενά συνυφασµένη µε τον πίνακα τιµών και τη γραφική παράσταση.

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ

ΚΑΤΑΝΟΜΈΣ. 8.1 Εισαγωγή. 8.2 Κατανομές Συχνοτήτων (Frequency Distributions) ΚΕΦΑΛΑΙΟ ΚΑΤΑΝΟΜΈΣ ΚΕΦΑΛΑΙΟ 8 81 Εισαγωγή Οι κατανομές διακρίνονται σε κατανομές συχνοτήτων, κατανομές πιθανοτήτων και σε δειγματοληπτικές κατανομές Στη συνέχεια θα γίνει αναλυτική περιγραφή αυτών 82 Κατανομές

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

στατιστική θεωρεία της δειγµατοληψίας

στατιστική θεωρεία της δειγµατοληψίας στατιστική θεωρεία της δειγµατοληψίας ΕΙΓΜΑΤΟΛΗΨΙΑ : Εισαγωγή δειγµατοληψία Τα στοιχεία που απαιτούνται τόσο για την ανάλυση των µεταφορικών συστηµάτων και όσο και για την ανάπτυξη των συγκοινωνιακών µοντέλων

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΖΩΓΡΑΦΟΥ 157 73, ΑΘΗΝΑ ΕΒΓ - ΙΠΛ-2003-1 20 Ιανουαρίου 2003 Σύγκριση Αλγορίθµων

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ Βασικές µορφές Ερωτήσεων - απαντήσεων Ανοιχτές Κλειστές Κλίµακας ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2 Ανοιχτές ερωτήσεις Ανοιχτές

Διαβάστε περισσότερα

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ 4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΕΙΓΜΑΤΟΛΗΨΙΑ (STRATIFIED RANDOM SAMPLING) Στην τυχαία δειγµατοληψία κατά στρώµατα ο πληθυσµός των Ν µονάδων (πρόκειται για τον στατιστικό πληθυσµό και τις στατιστικές µονάδες)

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Στατιστική ανάλυση του γεωχηµικού δείγµατος µας δίνει πληροφορίες για τον γεωχηµικό πληθυσµό που µελετάµε. Συνυπολογισµός σφαλµάτων Πειραµατικά

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

ΘΕΩΡΗΤΙΚΗ ΑΣΚΗΣΗ Σφάλµατα και στατιστική επεξεργασία πειραµατικών µετρήσεων

ΘΕΩΡΗΤΙΚΗ ΑΣΚΗΣΗ Σφάλµατα και στατιστική επεξεργασία πειραµατικών µετρήσεων ΘΕ1 ΘΕΩΡΗΤΙΚΗ ΑΣΚΗΣΗ Σφάλµατα και στατιστική επεξεργασία πειραµατικών µετρήσεων 1. Σκοπός Πρόκειται για θεωρητική άσκηση που σκοπό έχει την περιληπτική αναφορά σε θεµατολογίες όπως : σφάλµατα, στατιστική

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Certified Data Base Designer (CDBD)

Certified Data Base Designer (CDBD) Certified Data Base Designer (CDBD) Εξεταστέα Ύλη (Syllabus) Πνευµατικά ικαιώµατα Το παρόν είναι πνευµατική ιδιοκτησία της ACTA Α.Ε. και προστατεύεται από την Ελληνική και Ευρωπαϊκή νοµοθεσία που αφορά

Διαβάστε περισσότερα

Παρεµβολή και Προσέγγιση Συναρτήσεων

Παρεµβολή και Προσέγγιση Συναρτήσεων Κεφάλαιο 4 Παρεµβολή και Προσέγγιση Συναρτήσεων 41 Παρεµβολή µε πολυώνυµο Lagrage Εστω ότι γνωρίζουµε τις τιµές µιας συνάρτησης f (x), f 0, f 1,, f ν σε σηµεία x 0, x 1,, x ν, και Ϲητάµε να υπολογίσουµε

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Συστήµατα και Αλγόριθµοι Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων Συστήµατα και Αλγόριθµοι Πολυµέσων Ιωάννης Χαρ. Κατσαβουνίδης Οµιλία #3: Αρχές Επεξεργασίας Σηµάτων Πολυµέσων 10 Οκτωβρίου 005 Επανάλειψη (1) ειγµατοληψία επανα-δειγµατοληψία Τεχνικές φίλτρων (συνέλειξη)

Διαβάστε περισσότερα

Μεθοδολογίες παρεµβολής σε DTM.

Μεθοδολογίες παρεµβολής σε DTM. Μάθηµα : Αλγοριθµικές Βάσεις στη Γεωπληροφορική ιδάσκων : Συµεών Κατσουγιαννόπουλος Μεθοδολογίες παρεµβολής σε DTM.. Μέθοδοι παρεµβολής. Η παρεµβολή σε ψηφιακό µοντέλο εδάφους (DTM) είναι η διαδικασία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Εξόρυξη Γνώσης από εδοµένα (Data Mining) ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά Εξόρυξη Γνώσης από εδοµένα (Data Mining) Αποθήκες εδοµένων Γιάννης Θεοδωρίδης Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιά http://isl.cs.unipi.gr/db/courses/dm "Πυραµίδα"

Διαβάστε περισσότερα

Στατιστική Εισαγωγικές Έννοιες

Στατιστική Εισαγωγικές Έννοιες Στατιστική Εισαγωγικές Έννοιες Στατιστική: η επιστήµη που παρέχει µεθόδους και εργαλεία για την οργάνωση, συστηµατική περιγραφή και περιληπτική παρουσίαση δεδοµένων, καθώς και για την ανάλυση της πληροφορίας

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ

ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ ΤΕΤΑΡΤΟ ΠΑΚΕΤΟ ΣΗΜΕΙΩΣΕΩΝ ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ ΓΕΝΙΚΑ Η συλλογή των στατιστικών δεδοµένων αποτελεί σηµαντικό στάδιο κάθε Στατιστικής έρευνας. Απαιτεί ιδιαίτερη προσοχή, διότι,

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Βασικές τεχνικές κωδικοποίησης Κωδικοποίηση Huffman Κωδικοποίηση µετασχηµατισµών Κβαντοποίηση διανυσµάτων ιαφορική κωδικοποίηση Τεχνολογία

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Όπως θα δούμε αργότερα στη Στατιστική Συμπερασματολογία, λέγοντας ότι «από έναν πληθυσμό παίρνουμε ένα τυχαίο δείγμα μεγέθους» εννοούμε ανεξάρτητες τυχαίες μεταβλητές,,..., που

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός Δυναμικός Προγραμματισμός Επιμέλεια διαφανειών: Δ. Φωτάκης Τροποποιήσεις /προσθήκες: Α. Παγουρτζής Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Διωνυμικοί Συντελεστές

Διαβάστε περισσότερα

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί) ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί) Α. Ερωτήσεις πολλαπλών επιλογών.(11 βαθµοί) (1:3 βαθµοί, 2-9:8 βαθµοί) 1. ίνεται ο πίνακας: Χ

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.) 3 Οριακά θεωρήµατα Κεντρικό Οριακό Θεώρηµα (ΚΟΘ) Ένα από τα πιο συνηθισµένα προβλήµατα που ανακύπτουν στη στατιστική είναι ο προσδιορισµός της κατανοµής ενός µεγάλου αθροίσµατος ανεξάρτητων τµ Έστω Χ Χ

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι

ιµελής Σχέση ιατεταγµένο ζεύγος (α, β): ύο αντικείµενα (όχι κατ ανάγκη διαφορετικά) σε καθορισµένη σειρά. Γενίκευση: διατεταγµένη τριάδα (α, β, γ), δι Σχέσεις ιδάσκοντες: Φ. Αφράτη, Σ. Ζάχος,. Σούλιου Επιµέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιµελής Σχέση ιατεταγµένο ζεύγος (α, β):

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100 Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς

Διαβάστε περισσότερα

Σηµειώσεις στις σειρές

Σηµειώσεις στις σειρές . ΟΡΙΣΜΟΙ - ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ Σηµειώσεις στις σειρές Στην Ενότητα αυτή παρουσιάζουµε τις βασικές-απαραίτητες έννοιες για την µελέτη των σειρών πραγµατικών αριθµών και των εφαρµογών τους. Έτσι, δίνονται συστηµατικά

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Π E Ρ IEXOMENA Πρόλογος... xiii ΜΕΡΟΣ ΠΡΩΤΟ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ 1.1 Εισαγωγή... 3 1.2 Ορισµός και αντικείµενο της στατιστικής... 3

Διαβάστε περισσότερα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ]

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ] ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΗΧΑΝΙΚΗΣ ΕΦΑΡΜΟΓΕΣ ΜΕ ΧΡΗΣΗ MATLAB ΔΕΥΤΕΡΗ ΕΚΔΟΣΗ [ΒΕΛΤΙΩΜΕΝΗ ΚΑΙ ΕΠΑΥΞΗΜΕΝΗ] Συγγραφείς ΝΤΑΟΥΤΙΔΗΣ ΠΡΟΔΡΟΜΟΣ Πανεπιστήμιο Minnesota, USA ΜΑΣΤΡΟΓΕΩΡΓΟΠΟΥΛΟΣ ΣΠΥΡΟΣ Αριστοτέλειο

Διαβάστε περισσότερα

Στατιστική. Εκτιμητική

Στατιστική. Εκτιμητική Στατιστική Εκτιμητική Χατζόπουλος Σταύρος 28/2/2018 και 01 /03/2018 Εισαγωγή Το αντικείμενο της Στατιστικής είναι η εξαγωγή συμπερασμάτων που αφορούν τον πληθυσμό ή το φαινόμενο που μελετάμε, με τη βοήθεια

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Πληροφορικής Εξεταστική Επιτροπή από την Χαρά Παπαγεωργίου

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Περιεχόμενα. σελ. Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii

Περιεχόμενα. σελ. Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii Περιεχόμενα Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii 1. Ειδικές συναρτήσεις 1.0 Εισαγωγή... 1 1.1 Εξίσωση του Laplace Συστήματα συντεταγμένων... 2 1.2 Συνάρτηση δ του Dirac...

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Στα προηγούμενα (σελ. 7), δώσαμε μια πρώτη, γενική, διατύπωση του Κεντρικού Οριακού Θεωρήματος (Κ.Ο.Θ.) και τη γενική ιδέα για το πώς το Κ.Ο.Θ. εξηγεί το μεγάλο εύρος εφαρμογής

Διαβάστε περισσότερα

Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών. ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών. ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Τελική Εξέταση (3 ώρες) Ηµεροµηνία: 7

Διαβάστε περισσότερα

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα Το Κεντρικό Οριακό Θεώρημα Στα προηγούμενα (σελ. 7), δώσαμε μια πρώτη, γενική, διατύπωση του Κεντρικού Οριακού Θεωρήματος (Κ.Ο.Θ.) και τη γενική ιδέα για το πώς το Κ.Ο.Θ. εξηγεί το μεγάλο εύρος εφαρμογής

Διαβάστε περισσότερα

υναμικός Προγραμματισμός

υναμικός Προγραμματισμός υναμικός Προγραμματισμός ιδάσκοντες: Σ. Ζάχος,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο ιωνυμικοί Συντελεστές ιωνυμικοί

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

ΠΙΘΑΝΟΤΗΤΑ ΚΑΙ ΒΑΣΙΚΕΣ Ι ΙΟΤΗΤΕΣ ΤΗΣ

ΠΙΘΑΝΟΤΗΤΑ ΚΑΙ ΒΑΣΙΚΕΣ Ι ΙΟΤΗΤΕΣ ΤΗΣ ΠΙΘΑΝΟΤΗΤΑ ΚΑΙ ΒΑΣΙΚΕΣ Ι ΙΟΤΗΤΕΣ ΤΗΣ Χαράλαµπος Α. Χαραλαµπίδης 12 Οκτωβρίου 2009 ΠΡΑΞΕΙΣ ΣΤΑ ΕΝ ΕΧΟΜΕΝΑ Ενωση ενδεχοµένων Η ένωση δύο ενδεχοµένων A και B (ως προς ένα δειγµατικό χώρο Ω), συµβολιζόµενη

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα