Data Warehouse Refreshment via ETL tools. Panos Vassiliadis



Σχετικά έγγραφα
Υποστηρικτικό Υλικό για Πτυχιακές και MSc. Π. Βασιλειάδης

Άμεση Αναλυτική Επεξεργασία (OLAP)

Βάσεις Δεδομένων ΙΙ. Διάλεξη 7 η Aποθήκες Δεδομένων και OLAP (On-line Analytical Processing)

Αποθήκες Δεδομένων. Αρχιτεκτονική, Μοντέλο Δεδομένων και Σχεδίαση

Άμεση Αναλυτική Επεξεργασία (OLAP)

Εισαγωγή στις Αποθήκες εδομένων

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Εισαγωγή στις Αποθήκες εδοµένων

ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΙΑ ΙΚΑΣΙΩΝ ΕΞΑΓΩΓΗΣ-ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ-ΦΟΡΤΩΣΗΣ Ε ΟΜΕΝΩΝ (ΤΟΜΟΣ Ι)

Εισαγωγή στις Αποθήκες εδομένων

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ Ε ΟΜΕΝΩΝ -2

Distance Functions on Hierarchies. Eftychia Baikousi

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Συστήματα OLAP. Πασχάλης Θρήσκος, PhD Λάρισα

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Υποστήριξη Αποφάσεων. Γεώργιος Ευαγγελίδης. (βασισμένο στο κεφ. 23 του βιβλίου «Συστήματα Διαχείρισης Βάσεων Δεδομένων»)

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Data Cube. Μ.Χατζόπουλος 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανάλυση Δεδομένων (Data Analysis) Άμεση Αναλυτική Επεξεργασία (OLAP) Λειτουργίες Συνάθροισης στην SQL (windowing, ranking)

11.1. Θεωρητικό υπόβαθρο για τους κύβους δεδομένων και την πολυδιάστατη ανάλυση

February 2012 Source: Cyprus Statistical Service

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Αποθήκες Δεδομένων. Αποθήκες και εξόρυξη δεδομένων 6 ο εξάμηνο

«Χωροχρονικές Αποθήκες εδοµένων και η Εφαρµογή τους στην Περίπτωση της Αγοράς Ακινήτων»

ΕΞΑΓΩΓΗ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΜΕΤΑΦΟΡΤΩΣΗ (EXTRACT, TRANSFORM, LOAD) Πασχάλης Θρήσκος, PhD Λάρισα

Αποθήκες Δεδομένων & Πολυδιάστατη Ανάλυση

EXERCISES: 2.57, 2.58, 2.63, 11.33, 11.34

Μιχάλης Βαφόπουλος, vafopoulos.org

Εισαγωγή σε SQL Server Reporting Services

Orchid: Integrating Schema Mapping and ETL ICDE 2008

Πανεπιστήμιο Πειραιώς. Τμήμα Ψηφιακών Συστημάτων Π.Μ.Σ. «Διδακτική της Τεχνολογίας & Ψηφιακά Συστήματα» Κατεύθυνση Ψηφιακών Επικοινωνιών και Δικτύων

ΑΛΕΞΑΝΔΡΕΙΟ Τ.Ε.Ι ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πολυδιάστατη Ανάλυση Δεδομένων

CYPDIS BI Platform. ών Υπηρεσιών

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ. Βασικές Ενότητες Πρόσθετες Ενότητες Entry Start Λογιστικές Εφαρμογές xline ERP ATLANTIS ERP

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΑΠΟΘΗΚΕΣ Ε ΟΜΕΝΩΝ Σ. ΛΙΓΟΥ ΙΣΤΙΑΝΟΣ

CAPITAL Business - Βασικές Ενότητες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΙΟΙΚΗΣΗΣ II ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Προγραμματισμός ταμειακής ροής για αγορές υλικών

5. ΠΟΛΥΔΙΑΣΤΑΤΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

UDZ Swirl diffuser. Product facts. Quick-selection. Swirl diffuser UDZ. Product code example:

Βάσεις Δεδομένων (Ε) Εισαγωγή στην υλοποίηση σχεσιακών βάσεων δεδομένων

Ένα σύνολο αλληλοσχετιζόμενων συστημάτων που συλλέγουν, επεξεργάζονται, αποθηκεύουν και διανέμουν πληροφορίες

ΚΕΦΑΛΑΙΟ Βασικές Ενότητες

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Διαχείριση Έργων Πληροφορικής Εργαστήριο

Προκαταρκτικά. Όταν εκτελέσουμε για πρώτη φορά το power wabit, πρώτη δουλειά μας είναι να φέρουμε τον driver που θα κάνει τη διασύνδεση με τη mysql.

Water Supply Project Midlands and Eastern Re ion. (WSP) Economic Needs Report

ΚΕΦΑΛΑΙΟ Βασικές Ενότητες

Η Συνεργασία Cosmos Trading και Omilos Laikou Distributors

Πρόγραμμα Εκπαιδεύσεων & Εξετάσεων Πιστοποίησης

Faculty of Management and. Economics. Master s Thesis. Πορεία Ναύλων και Οικονομία: Παράγοντες που επηρεάζουν τους Δείκτες Ναύλων της Ναυτιλίας

ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣ ALTEC ΚΕΦΑΛΑΙΟ. ALTEC xline ERP ALTEC ATLANTIS II ERP ALTEC ATLANTIS II PAYROLL. ALTEC xline PAYROLL

CAPITAL Business Βασικές Ενότητες... Ανεξάρτητες Eνότητες... CAPITAL Commercial Βασικές Ενότητες... Ανεξάρτητες Eνότητες...

ΠΕΡΙΕΧΟΜΕΝΑ - BOS. CAPITAL Business Βασικές Ενότητες... Ανεξάρτητες Eνότητες... CAPITAL Commercial Βασικές Ενότητες... Ανεξάρτητες Eνότητες...

Budget Highlights. The chart below detail the expenditure budget change from FY 2016 to FY 2017 by fund type.

Food Values. Evolving Consumer Behavior: John Moisoglou TradeUSA Lead. Mytilene, Lesvos May 14, 2018

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Λήψη απόφασης, Συστήματα Υποστήριξης Αποφάσεων, OLAP Ανάλυση, Περιβαλλοντική Εκπαίδευση ΕΙΣΑΓΩΓΗ

ΚΕΦΑΛΑΙΟ Βασικές Ενότητες

Περιεχόμενα. Πρόλογος 9. Ευχαριστίες 11. Εισαγωγή Κατανόηση των δεδομένων Βασικές τεχνικές ανάλυσης δεδομένων 41

Business Development, SAP Hellas 01/12/2007

GS1 Cloud. Προϊόντα στην παγκόσμια αγορά. Δημήτρης Χρήστου Director, Market Development. Food Expo 2018

FEATURES APPLICATION PRODUCT T IDENTIFICATION PRODUCT T DIMENSION MAG.LAYERS

Βασικές Ενότητες Πρόσθετες Ενότητες Ανεξαρτήτως Χρηστών Λογιστικές Εφαρμογές Entry Start Services...

ΠΡΟΓΡΑΜΜΑ IKYDA 2012 PROGRAMME IKYDA 2012

Διαχείριση Έργων Πληροφορικής

Βασικές Ενότητες Πρόσθετες Ενότητες Entry... Start... Λογιστικές Εφαρμογές... Βασικές Ενότητες... Πρόσθετες Ενότητες...

Βασικές Ενότητες Πρόσθετες Ενότητες Ανεξαρτήτως Χρηστών Entry Start Services... Λογιστικές Εφαρμογές Retail...


Προγραμματισμός ταμειακής ροής για αγορές υλικών

Digital e-ra ή αλλιώς: GS1 Cloud

Μέτρηση αντικτύπου του έργου Αποτελέσματα Ερευνών. Deloitte 26 Οκτωβρίου 2016 Λευκωσία

SMD Power Inductor. - SPRH127 Series. Marking. 1 Marking Outline: 1 Appearance and dimensions (mm)

Ιωσηφίδης Ελευθέριος

Διαχείριση Έργων Ανάπτυξης Πληροφοριακών Συστημάτων

ΑΝΑΛΥΣΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΤΑΣΤΑΣΕΩΝ

- S P E C I A L R E P O R T - EMPLOYMENT. -January Source: Cyprus Statistical Service

2004 Microsoft Corporation. All rights reserved. This presentation is for informational purposes only. MICROSOFT MAKES NO WARRANTIES, EXPRESS OR

Συστήματα Διαχείρισης Πελατειακών Σχέσεων

Transient Voltage Suppression Diodes: 1.5KE Series Axial Leaded Type 1500 W

ckoullas 2 c k : :. :.. . : -

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

Πανεπιστήμιο Αιγαίου Τμήμα πληροφοριακών και Επικοινωνιακών συστημάτων Ολοκληρωμένη Μεθοδολογία Υλοποίησης Έργων Επιχειρηματικής Ευφυίας An

Πύλη Φαρμακευτικών Υπηρεσιών Υπουργείου Υγείας Κύπρου. System Architecture Overview

ΠΠΜ 515: Προχωρηµένα Θέµατα Διεύθυνσης Κατασκευαστικών Έργων

EXECUTIVE MARKETING MANAGER

Τ Μ Η Μ Α Δ ΙΟ ΙΚ Η Σ Η Σ Μ Ο Ν Α Δ Ω Ν Υ Γ Ε ΙΑ Σ Π ΡΟ Ν Ο ΙΑ Σ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «ΕΓΚΑΤΑΣΤΑΣΗ ΚΑΙ ΜΕΑΕΤΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΧΕΙΡΙΣΗΣ ΔΕΔΟΜΕΝΩΝ OLAP»

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών «Πληροφορική»

ΠΠΜ 515: Προχωρημένα Θέματα Διεύθυνσης Κατασκευαστικών

Hardware System Integration & It Services Internet Business Solutions e-commerce Web Applications & On Line Databases

4 Πολυδιάστατη Ανάλυση και Αποθήκες Δεδομένων

Ενότητα 21 Pivot Tables

Transcript:

Data Warehouse Refreshment via ETL tools Panos Vassiliadis

Data Warehouse Environment 2

Extract-Transform-Load (ETL) Extract Transform & Clean Load Sources DSA DW 3

Importance ETL market has a steady increase rate of approximately 20.1% each year, while it becomes a $667 million market in 2001 (Giga 02) ETL and Data Cleaning tools cost 30% of effort and expenses in the budget of the DW (Enterprise Information Portals) 55% of the total costs of DW runtime (Inmon) 80% of the development time in a DW project (Demarest) ETL tools will not be replaced by EAI (Enterprise Application Integration) tools in near future (Giga 02) ETL tools will be used in other areas beyond DWs (Gartner 04) 4

ETL workflows DS.PS_NEW DS.PS_NEW 1.PKEY, DS.PS_OLD 1.PKEY SUPPKEY=1 DS.PS 1.PKEY, LOOKUP_PS.SKEY, SUPPKEY COST DATE 1 DS.PS_OLD 1 DIFF 1 DS.PS 1 Add_SPK 1 SK 1 Log rejected $2 rejected Log A2EDate rejected Log U DS.PS_NEW 2 DS.PS_NEW 2.PKEY, DS.PS_OLD 2.PKEY SUPPKEY=2 DS.PS 2.PKEY, LOOKUP_PS.SKEY, SUPPKEY COST DATE=SYSDATE QTY>0 DIFF 2 DS.PS 2 Add_SPK 2 SK 2 NotNULL AddDate CheckQTY DS.PS_OLD rejected rejected 2 Log Log DSA PKEY, DAY MIN(COST) S 1 _PARTSU PP FTP 1 DW.PARTSU PP Aggregate 1 V1 DW.PARTSUPP.DATE, DAY PKEY, MONTH AVG(COST) S 2 _PARTSU PP FTP 2 TIME Aggregate 2 V2 Sources DW 5

Value Incompatibility (example of surrogate keys) ID Descr 10 Coke 20 Pepsi R1? DW.R ID Descr???????? ID Descr 10 Pepsi 20 Fanta R2 6

Data mappings? Source 1: Personnel (Cobol) EMP ID Name DoB Salary Total Incom e DeptID 110 Kostas 1/1/72 1500 1200 132 DW.EMP Source 2: Accounting (DB2) EMP ID IL_ID Amount 110 10 1500 110 30 300 EMP INCOME EMP ID Name Age DW 110 Kostas 30 120 Mitsos 48 130 Roula 29 EMP IL_ID Descr 10 Salary 20 Bonus 1 30 Tax...... Income Lookup 7

MS SSIS SQL Server Integration Services 8

Talend Open Studio for Data Integration www.talend.com/download_form.php?cont=ge n&src=homepage 9

Pentaho s Kettle http://kettle.pentaho.com/ 10

OLAP & data cubes Panos Vassiliadis 11

OLAP Αφορά την ανάλυση κάποιων μετρήσιμων μεγεθών (μέτρων) πωλήσεις, απόθεμα, κέρδος,... Διαστάσεις: παράμετροι που καθορίζουν το περιβάλλον (context) των μέτρων ημερομηνία, προϊόν, τοποθεσία, πωλητής, Κύβοι: συνδυασμοί διαστάσεων που καθορίζουν κάποια μέτρα Ο κύβος καθορίζει ένα πολυδιάστατο χώρο διαστάσεων, με τα μέτρα να είναι σημεία του χώρου αυτού 12

Κύβοι για OLAP N S W PRODUCT Juice Cola Soap 10 13 Jan MONTH

Κύβοι για OLAP

Βασικές Έννοιες OLAP Τα δεδομένα θεωρούνται αποθηκευμένα σε ένα πολυδιάστατο πίνακα (multi-dimensional array), ο οποίος αποκαλείται και κύβος ή υπερκύβος (Cube και HyperCube αντίστοιχα). Ο κύβος είναι μια ομάδα από κελιά δεδομένων (data cells). Κάθε κελί χαρακτηρίζεται μονοσήμαντα από τις αντίστοιχες τιμές των διαστάσεων (dimensions) του κύβου. Τα περιεχόμενα του κελιού ονομάζονται μέτρα (measures) και αναπαριστούν τις αποτιμώμενες αξίες του πραγματικού κόσμου.

Ιεραρχίες επιπέδων για OLAP Μια διάσταση μοντελοποιεί όλους τους τρόπους με τους οποίους τα δεδομένα μπορούν να συναθροιστούν σε σχέση με μια συγκεκριμένη παράμετρο του περιεχομένου τους. Ημερομηνία, Προϊόν, Τοποθεσία, Πωλητής, Κάθε διάσταση έχει μια σχετική ιεραρχία επιπέδων συνάθροισης των δεδομένων (hierarchy of levels). Αυτό σημαίνει, ότι η διάσταση μπορεί να θεωρηθεί από πολλά επίπεδα αδρομέρειας. Ημερομηνία: μέρα, εβδομάδα, μήνας, χρόνος,

Ιεραρχίες Επιπέδων Ιεραρχίες Επιπέδων: κάθε διάσταση οργανώνεται σε διαφορετικά επίπεδα αδρομέρειας Ο χρήστης μπορεί να πλοηγηθεί από το ένα επίπεδο στο άλλο, δημιουργώντας νέους κύβους κάθε φορά Year Month Day Week Αδρομέρεια: το αντίθετο της λεπτομέρειας -- ο σωστός όρος είναι αδρομέρεια... 17

Κύβοι & ιεραρχίες διαστάσεων για OLAP Sales volume Διαστάσεις: Product, Region, Date Product Ιεραρχίες διαστάσεων: Industry Country Category Region Year Quarter Month Product City Month Week Store Day

Εργασίες που κάνει ο χρήστης Συνήθεις πράξεις που κάνουμε σε κύβους Συναθροίσεις (total sales, percent-to-total) Συγκρίσεις (budget vs. expense) Ταξινόμηση - κατάταξη (top 10) Πρόσβαση σε πιο αναλυτική πληροφορία Οπτικοποίηση με διαφορετικούς τρόπους

Roll up Industry Country Year Category Region Quarter Sales volume Product City Store Month Week Day Products Store1 Store2 Q1 Q2 Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Χρόνος: Επίπεδο Quarter Year 1996 Sales volume Products Electronics Toys Clothing Cosmetics Store1 Store2 $14,1 $2,65 $6,9 $2,6 Χρόνος: Επίπεδο Year $12,8 $1,8 $7,2 $1,6 SUM(Sales volumes)