Υποστηρικτικό Υλικό για Πτυχιακές και MSc. Π. Βασιλειάδης

Σχετικά έγγραφα
Data Warehouse Refreshment via ETL tools. Panos Vassiliadis

Άμεση Αναλυτική Επεξεργασία (OLAP)

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Βάσεις Δεδομένων ΙΙ. Διάλεξη 7 η Aποθήκες Δεδομένων και OLAP (On-line Analytical Processing)

Άμεση Αναλυτική Επεξεργασία (OLAP)

Privacy - k-anonymity. Πιλαλίδου Αλίκη

Distance Functions on Hierarchies. Eftychia Baikousi

Models for Probabilistic Programs with an Adversary

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

Εισαγωγή στις Αποθήκες εδομένων

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

Μηχανική Μάθηση Hypothesis Testing

2 Composition. Invertible Mappings

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΙΑ ΙΚΑΣΙΩΝ ΕΞΑΓΩΓΗΣ-ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ-ΦΟΡΤΩΣΗΣ Ε ΟΜΕΝΩΝ (ΤΟΜΟΣ Ι)

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΒΑΛΕΝΤΙΝΑ ΠΑΠΑΔΟΠΟΥΛΟΥ Α.Μ.: 09/061. Υπεύθυνος Καθηγητής: Σάββας Μακρίδης

Section 8.3 Trigonometric Equations

TMA4115 Matematikk 3

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Διαχείριση Έργων Πληροφορικής

UDZ Swirl diffuser. Product facts. Quick-selection. Swirl diffuser UDZ. Product code example:

The Simply Typed Lambda Calculus

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

If we restrict the domain of y = sin x to [ π, π ], the restrict function. y = sin x, π 2 x π 2

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Finite Field Problems: Solutions

The challenges of non-stable predicates

Other Test Constructions: Likelihood Ratio & Bayes Tests

If we restrict the domain of y = sin x to [ π 2, π 2

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

5.4 The Poisson Distribution.

Abstract Storage Devices

Volume of a Cuboid. Volume = length x breadth x height. V = l x b x h. The formula for the volume of a cuboid is

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

Δίκτυα Επικοινωνιών ΙΙ: OSPF Configuration

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Μιχάλης Βαφόπουλος, vafopoulos.org

Lecture 2. Soundness and completeness of propositional logic

Partial Trace and Partial Transpose

Instruction Execution Times

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

Approximation of distance between locations on earth given by latitude and longitude

Εισαγωγή στις Αποθήκες εδοµένων

February 2012 Source: Cyprus Statistical Service

CE 530 Molecular Simulation

"ΦΟΡΟΛΟΓΙΑ ΕΙΣΟΔΗΜΑΤΟΣ ΕΤΑΙΡΕΙΩΝ ΣΥΓΚΡΙΤΙΚΑ ΓΙΑ ΤΑ ΟΙΚΟΝΟΜΙΚΑ ΕΤΗ "

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

1) Formulation of the Problem as a Linear Programming Model

4.6 Autoregressive Moving Average Model ARMA(1,1)

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

European Constitutional Law

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Case 1: Original version of a bill available in only one language.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

(C) 2010 Pearson Education, Inc. All rights reserved.

Notes on the Open Economy

ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ ΚΑΙ ΔΙΑΤΡΟΦΗΣ ΤΟΥ ΑΝΘΡΩΠΟΥ

EE512: Error Control Coding

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Principles of Database Systems

Right Rear Door. Let's now finish the door hinge saga with the right rear door

Fractional Colorings and Zykov Products of graphs

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

«ΨΥΧΙΚΗ ΥΓΕΙΑ ΚΑΙ ΣΕΞΟΥΑΛΙΚΗ» ΠΑΝΕΥΡΩΠΑΪΚΗ ΕΡΕΥΝΑ ΤΗΣ GAMIAN- EUROPE

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

ΠΕΡΙΕΧΟΜΕΝΑ. Κεφάλαιο 1: Κεφάλαιο 2: Κεφάλαιο 3:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΛΟΠΟΝΝΗΣΟΥ

Every set of first-order formulas is equivalent to an independent set

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 6η: Basics of Industrial Organization Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

HOMEWORK#1. t E(x) = 1 λ = (b) Find the median lifetime of a randomly selected light bulb. Answer:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΠΕΙΡΑΙΑ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΚΑΤΕΥΘΥΝΣΗ: ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Advanced Subsidiary Unit 1: Understanding and Written Response

Example Sheet 3 Solutions

ΔΘΝΗΚΖ ΥΟΛΖ ΓΖΜΟΗΑ ΓΗΟΗΚΖΖ ΚΑ ΔΚΠΑΙΓΔΤΣΙΚΗ ΔΙΡΑ ΣΔΛΗΚΖ ΔΡΓΑΗΑ

derivation of the Laplacian from rectangular to spherical coordinates

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

How to register an account with the Hellenic Community of Sheffield.

Math 6 SL Probability Distributions Practice Test Mark Scheme

Transcript:

Υποστηρικτικό Υλικό για Πτυχιακές και MSc Π. Βασιλειάδης

RADAR: Radial Applications Depiction Around Relations For Data-Centric Ecosystems Panos Vassiliadis http://www.cs.uoi.gr/~pvassil/publications/2011_dali/index.html

Data centric ecosystems & the need for a map Act3 Act4 Act5 Act2 Act1 WWW 3

Graph model The ecosystem is a bipartite graph G(V,E) Nodes: relations and queries Edges: query q uses a relation r in any way Simplest possible model: we only care for the usage of a relation by a query For the future Query semantics Views & constraints 4

5

Fan-out = 1,2 Things are nice and calm in radar city Observe the conflict resolution 6

Observe the angle Fan-out = 1,2,3 7

Fan-out = 1,2,3 See how the concentric circles work It s called RADAR, remember? 8

Data Warehouses, their refreshment and ETL Panos Vassiliadis

Data Warehouse Environment 10

Extract-Transform-Load (ETL) Extract Transform & Clean Load Sources DSA DW 11

Importance ETL market has a steady increase rate of approximately 20.1% each year, while it becomes a $667 million market in 2001 (Giga 02) ETL and Data Cleaning tools cost 30% of effort and expenses in the budget of the DW (Enterprise Information Portals) 55% of the total costs of DW runtime (Inmon) 80% of the development time in a DW project (Demarest) ETL tools will not be replaced by EAI (Enterprise Application Integration) tools in near future (Giga 02) ETL tools will be used in other areas beyond DWs (Gartner 04) 12

ETL workflows DS.PS_NEW DS.PS_NEW 1.PKEY, DS.PS_OLD 1.PKEY SUPPKEY=1 DS.PS 1.PKEY, LOOKUP_PS.SKEY, SUPPKEY COST DATE 1 DS.PS_OLD 1 DIFF 1 DS.PS 1 Add_SPK 1 SK 1 Log rejected $2 rejected Log A2EDate rejected Log U DS.PS_NEW 2 DS.PS_NEW 2.PKEY, DS.PS_OLD 2.PKEY SUPPKEY=2 DS.PS 2.PKEY, LOOKUP_PS.SKEY, SUPPKEY COST DATE=SYSDATE QTY>0 DIFF 2 DS.PS 2 Add_SPK 2 SK 2 NotNULL AddDate CheckQTY DS.PS_OLD rejected rejected 2 Log Log DSA PKEY, DAY MIN(COST) S 1 _PARTSU PP FTP 1 DW.PARTSU PP Aggregate 1 V1 DW.PARTSUPP.DATE, DAY PKEY, MONTH AVG(COST) S 2 _PARTSU PP FTP 2 TIME Aggregate 2 V2 Sources DW 13

Value Incompatibility (example of surrogate keys) ID Descr 10 Coke 20 Pepsi R1? DW.R ID Descr???????? ID Descr 10 Pepsi 20 Fanta R2 14

Data mappings? Source 1: Personnel (Cobol) EMP ID Name DoB Salary Total Incom e DeptID 110 Kostas 1/1/72 1500 1200 132 DW.EMP Source 2: Accounting (DB2) EMP ID IL_ID Amount 110 10 1500 110 30 300 EMP INCOME EMP ID Name Age DW 110 Kostas 30 120 Mitsos 48 130 Roula 29 EMP IL_ID Descr 10 Salary 20 Bonus 1 30 Tax...... Income Lookup 15

MS SSIS SQL Server Integration Services 16

Talend Open Studio for Data Integration www.talend.com/download_form.php?cont=ge n&src=homepage 17

Pentaho s Kettle http://kettle.pentaho.com/ 18

OLAP & data cubes Panos Vassiliadis 19

OLAP Αφορά την ανάλυση κάποιων μετρήσιμων μεγεθών (μέτρων) πωλήσεις, απόθεμα, κέρδος,... Διαστάσεις: παράμετροι που καθορίζουν το περιβάλλον (context) των μέτρων ημερομηνία, προϊόν, τοποθεσία, πωλητής, Κύβοι: συνδυασμοί διαστάσεων που καθορίζουν κάποια μέτρα Ο κύβος καθορίζει ένα πολυδιάστατο χώρο διαστάσεων, με τα μέτρα να είναι σημεία του χώρου αυτού 20

Κύβοι για OLAP N S W PRODUCT Juice Cola Soap 10 13 Jan MONTH

Κύβοι για OLAP

Βασικές Έννοιες OLAP Τα δεδομένα θεωρούνται αποθηκευμένα σε ένα πολυδιάστατο πίνακα (multi-dimensional array), ο οποίος αποκαλείται και κύβος ή υπερκύβος (Cube και HyperCube αντίστοιχα). Ο κύβος είναι μια ομάδα από κελιά δεδομένων (data cells). Κάθε κελί χαρακτηρίζεται μονοσήμαντα από τις αντίστοιχες τιμές των διαστάσεων (dimensions) του κύβου. Τα περιεχόμενα του κελιού ονομάζονται μέτρα (measures) και αναπαριστούν τις αποτιμώμενες αξίες του πραγματικού κόσμου.

Ιεραρχίες επιπέδων για OLAP Μια διάσταση μοντελοποιεί όλους τους τρόπους με τους οποίους τα δεδομένα μπορούν να συναθροιστούν σε σχέση με μια συγκεκριμένη παράμετρο του περιεχομένου τους. Ημερομηνία, Προϊόν, Τοποθεσία, Πωλητής, Κάθε διάσταση έχει μια σχετική ιεραρχία επιπέδων συνάθροισης των δεδομένων (hierarchy of levels). Αυτό σημαίνει, ότι η διάσταση μπορεί να θεωρηθεί από πολλά επίπεδα αδρομέρειας. Ημερομηνία: μέρα, εβδομάδα, μήνας, χρόνος,

Ιεραρχίες Επιπέδων Ιεραρχίες Επιπέδων: κάθε διάσταση οργανώνεται σε διαφορετικά επίπεδα αδρομέρειας Ο χρήστης μπορεί να πλοηγηθεί από το ένα επίπεδο στο άλλο, δημιουργώντας νέους κύβους κάθε φορά Year Month Day Week Αδρομέρεια: το αντίθετο της λεπτομέρειας -- ο σωστός όρος είναι αδρομέρεια... 25

Κύβοι & ιεραρχίες διαστάσεων για OLAP Sales volume Διαστάσεις: Product, Region, Date Product Ιεραρχίες διαστάσεων: Industry Country Category Region Year Quarter Month Product City Month Week Store Day

Εργασίες που κάνει ο χρήστης Συνήθεις πράξεις που κάνουμε σε κύβους Συναθροίσεις (total sales, percent-to-total) Συγκρίσεις (budget vs. expense) Ταξινόμηση - κατάταξη (top 10) Πρόσβαση σε πιο αναλυτική πληροφορία Οπτικοποίηση με διαφορετικούς τρόπους

Roll up Industry Country Year Category Region Quarter Sales volume Product City Store Month Week Day Products Store1 Store2 Q1 Q2 Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Χρόνος: Επίπεδο Quarter Year 1996 Sales volume Products Electronics Toys Clothing Cosmetics Store1 Store2 $14,1 $2,65 $6,9 $2,6 Χρόνος: Επίπεδο Year $12,8 $1,8 $7,2 $1,6 SUM(Sales volumes)

Privacy for published data Panos Vassiliadis 29

Model of data publishing Deborah, a star DBA & a TRUSTED data publisher Detailed Data T Anonymized Data T* Ben, the benevolent (& intelligent) data miner Bob (the victim) to be hidden Alice, the attacker (a.k.a. the adversary) 30

Identifier(s): attribute(s) that explicitly reveal the identity of a person (name, SSN, ). These attributes are removed from the public data set Quasi identifier: attribute(s) that if joined with external data can reveal sensitive information Sensitive attribute: containing the values that should be kept private 31

Fundamental anonymization technique: hide individual in groups of similar values!! Here: each individual is hidden in a group with values being generalizations of the specific values of the data set 32

K-anonymity Assume R and a public attribute Q SELECT Q, count(*) FROM R GROUP BY Q If every group formed has more than k tuples then the data set R is k-anonymous wrt. Q 33

K-anonymity: what and how To achieve anonymity we perform two operations: Suppress all values that cannot fit in a group of size at least k Generalize the common values of the members of the same group in a more abstract value The ultimate goal is to find the anonymization scheme that minimizes suppression and generalization while guaranteeing k-anonymity! 34

Generalization hierarchies Zip code hierarchy Race hierarchy 35

Lattice The combination of hierarchy levels creates a lattice Here: 3 dimensions, Age, Race, Zip A node is characterized by the levels for each dimension Node 412 means level 4 for age, level 1 for race, level 2 for zip

A. Pilalidou s MSc + E. Kontogiannopoulou s Diploma User input K = MaxSupp = H = [,, ] We compute a histogram for each of the lattice s nodes The algorithm checks whether the 3 constraints can be met by a node; else it suggests alternatives 37