BIG DATA. Η Ανάγκη, το Πρόβληµα, η Τεχνολογία

Σχετικά έγγραφα
BIG DATA ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΗΣ ΕΙΡΗΝΗΣ ΖΑΡΟΓΙΑΝΝΟΥ ΑΜ: 05/2872 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΗΜΗΤΡΙΟΣ ΑΧΙΛ. ΕΡΒΟΣ Η ΑΝΑΓΚΗ - ΤΟ ΠΡΟΒΛΗΜΑ - Η ΤΕΧΝΟΛΟΓΙΑ

EPL 660: Lab 4 Introduction to Hadoop

Πληροφοριακά Συστήματα Διοίκησης

EPL660: Information Retrieval and Search Engines Lab 5

ΜΕΛΕΤΗ ΣΧΕΔΙΑΣΗ ΕΦΑΡΜΟΓΗΣ ΣΕ ΥΠΟΛΟΓΙΣΤΙΚΟ ΝΕΦΟΣ (CLOUD COMPUTING) ΜΕ ΕΜΦΑΣΗ ΣΤΗΝ ΚΑΤΑΣΚΕΥΗ ΔΕΝΤΡΩΝ.

Πληροφοριακά Συστήματα Διοίκησης

EPL451: Data Mining on the Web Lab 1

EPL451: Data Mining on the Web Lab 1

Μαζικός Παραλληλισμός λ με Map - Reduce. Μοντέλο Θέματα υλοποίησης Παραδείγματα διαχείρισης δεδομένων

Big Data. CERN/LHC: 40TB/μέρα (15PB/έτος) Πολλά, πολλά ακόμα Web logs, αρχεία ομιλιών, ιατρικοί φάκελοι, κλπ. για όλους...

Αποθηκευμένες Διαδικασίες Stored Routines (Procedures & Functions)

Διδάσκων: Νεκτάριος Κοζύρης, καθηγητής

Ανάκτηση Πληροφορίας σε Νέφη Υπολογιστών

Διδάσκων: Νεκτάριος Κοζύρης, καθηγητής

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Cloud Computing & Data Management (Υπολογιστικά Νέφη & Διαχείριση Δεδομένων)

Ανάλυση Αρχείων Καταγραφής σε Υπολογιστικά Νέφη. Log File Analysis in Cloud Computing

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Big Data Πνιγόμαστε σε έναν ωκεανό δεδομένων

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Επερωτήσεις σύζευξης με κατάταξη

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΑΝΕΜΗΜΕΝΑ ΣΥΣΤΗΜΑΤΑ Εαρινό Εξάμηνο

Information Technology for Business

Ανοικτά Δεδομένα. Η εμπειρία του OpenDataCloud

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Υλοποίηση αλγορίθμων ταξινόμησης μεγάλου όγκου δεδομένων με το μοντέλο MapReduce

EPL660: Information Retrieval and Search Engines Lab 5

Όροι Χρήσης της IBM Όροι για Συγκεκριμένες Προσφορές SaaS. IBM BigInsights on Cloud

Αποδοτική επεξεργασία ερωτημάτων κατάταξης στο Map/Reduce

ΠΡΟΧΩΡΗΜΕΝΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Ακ. έτος , 9ο Εξάμηνο ΗΜ&ΜΥ Ν. Κοζύρης Εξαμηνιαία Εργασία. Εισαγωγή στο MapReduce και στις βάσεις NoSQL

Κατανεμημένη Εξόρυξη Πολύεπίπεδων

Κεφάλαιο 8: Υπολογιστικές Μέθοδοι για Ανάλυση Μεγάλων Δεδομένων (Hadoop και MapReduce)

L. M. Vaquero, L. Rodero Merino, J. Caceres, M. Lindner

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ - Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

Σχεδιασμός Βάσεων Δεδομένων

Ατομική Διπλωματική Εργασία. Evaluating Hadoop, a MapReduce implementation, for Multicore systems. Κωνσταντίνος Χριστοφή ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

MapReduce. Κατανεμημένα Συστήματα

Εθνικό Μετσόβιο Πολυτεχνείο. Μελέτη Απόδοσης Κατανεμημένων Βάσεων Δεδομένων Για Γράφους για Διαχείριση Διασυνδεδεμένων Δεδομένων

ΜΕΛΕΤΗ ΘΕΡΜΟΚΡΑΣΙΑΣ ΠΟΛΥΠΥΡΗΝΟΥ ΕΠΕΞΕΡΓΑΣΤΗ ΜΕ ΕΦΑΡΜΟΓΕΣ PHOENIX

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

EPL451: Data Mining on the Web Lab 3

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Εισαγωγή. Ρόλοι και τύποι cloud. Ορισμός και σύγκριση.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

MapReduce Εισαγωγή. MapReduce. ηµήτρης Λεβεντέας

Big Data. Βάσεις Δεδομένων

MapReduce: Simplified Data Processing on Large Clusters

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Optimal Load Balancing in Distributed NoSQL Databases

Υπολογιστικά Νέφη. Ενότητα 12: MapReduce. Άγγελος Μιχάλας Τμήμα Μηχανικών Πληροφορικής ΤΕ

Web Data Mining ΕΡΓΑΣΤΗΡΙΟ 2 & 3. Prepared by Costantinos Costa Edited by George Nikolaides. EPL Data Mining on the Web

Ανάκτηση Δεδομένων (Information Retrieval)

Πτυχιακή Εργασία. Μελέτη υλοποίησης αλγορίθμων με το περιβάλλον. MapReduce/Hadoop.

Cloud Computing with Google and Microsoft. Despoina Trikomitou Andreas Diavastos Class: EPL425

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

VERSION 1.0 ΝΟΕΜΒΡΙΟΣ, 2016 ΤΕΧΝΟΛΟΓΙΕΣ ΥΠΟΛΟΓΙΣΤΙΚΟΥ ΝΕΦΟΥΣ ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΠΡΟΣΟΜΟΙΩΣΗΣ CLOUDSIM ΕΠΙΜΕΛΕΙΑ: ΒΑΣΙΛΕΙΟΣ ΤΣΑΚΑΝΙΚΑΣ

SFlow, Hadoop, MapReduce, Hive, Spark, Shark, HBase, NoSQL, K-d Tree, Map Join

Επεξεργασία Ερωτημάτων Κορυφογραμμής σε Περιβάλλον Map/Reduce

Ενότητα 3: Τα δεδομένα στο Web. (και η σημασιολογία τους semantics )

Hancock. Ζωγραφάκης Ιωάννης Εξαρχάκος Νικόλαος. ΕΠΛ 428 Προγραμματισμός Συστημάτων

Εισαγωγή στα Συστήματα Βάσεων Δεδομένων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εθνικό Μετσόβιο Πολυτεχνείο. Ανάλυση και Πρόβλεψη Δεδομένων Δικτυακής Κίνησης σε Κατανεμημένα Συστήματα Πραγματικού Χρόνου

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Κεφάλαιο 4 Λογισμικό συστήματος. Εφαρμογές Πληροφορικής Κεφ.4 Καραμαούνας Πολύκαρπος 1

Εργαστήριο Σημασιολογικού Ιστού

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΙΑ ΙΚΑΣΙΑ ΜΕΤΑΒΑΣΗΣ ΣΤΟ CLOUD COMPUTING ΜΑΘΗΣΙΑΚΟΙ ΣΤΟΧΟΙ

Υπολογιστική Νέφους Cloud computing

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

Searching and Downloading OpenStreetMap Data

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών & Μηχανικών Υπολογιστών

Οπτικοποίηση με Prefuse. Δομή / Βασικά Χαρακτηριστικά / Παράδειγμα

Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τµήµα Πληροφορικής ΕΠΛ 646 Προχωρηµένα Θέµατα Βάσεων Δεδοµένων

Κεφάλαιο 4. Λογισμικό Συστήματος

Εθνικό Μετσόβιο Πολυτεχνείο. Μοντελοποίηση της Επίδοσης και του Κόστους Αλγορίθμων Συνένωσης σε Εφαρμογές Μεγάλου Όγκου Δεδομένων

Σχεδιασµός βασισµένος σε συνιστώσες

Περιγραφή του EcoTruck

Επιχειρηματική Ευφυΐα (Business Intelligence - BI)

Η γλώσσα προγραμματισμού C

Πύλη Φαρμακευτικών Υπηρεσιών Υπουργείου Υγείας Κύπρου. System Architecture Overview

Φορολογική Βιβλιοθήκη. Θανάσης Φώτης Προγραμματιστής Εφαρμογών

Προχωρημένα Θέματα σε Κατανεμημένα Συστήματα GFS / HDFS

Ανάλυση Στατιστικά Σημαντικών Εστιών για Μεγάλα Δεδομένα

, Evaluation of a library against injection attacks

Τέτοιες λειτουργίες γίνονται διαμέσου του

Σχεδίαση και Χρήση Βάσεων Δεδομένων. Χρήση της MySQL. Γιώργος Πυρουνάκης -

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σχεδιασμός Βάσεων Δεδομένων

Εισαγωγή. Βάσεις Δεδομένων : Εισαγωγή 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Βάσεις Δεδομένων (4 ο εξάμηνο) Εργαστήριο MySQL #2

ΕΥΡΩΠΑΪΚΗ ΕΝΩΣΗ ΕΥΡΩΠΑΪΚΟ ΤΑΜΕΙΟ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ

Εισαγωγή στα Συστήματα Βάσεων εδομένων

IBM Bluemix Data and Analytics Plan

Εργαστήριο Σημασιολογικού Ιστού

Αρχιτεκτονική του πληροφοριακού συστήµατος Cardisoft Γραµµατεία 2003 ιαχείριση Προσωπικού

Transcript:

BIG DATA Η Ανάγκη, το Πρόβληµα, η Τεχνολογία Πτυχιακή εργασία της Ειρήνης Ζαρογιάννου ΑΜ: 05/2872 Επιβλέπων Καθηγητής: ηµήτριος Αχιλ. έρβος Θεσσαλονίκη 2012-13

Τα χαρακτηριστικά των Big Data (V 3 )

Ηπλατφόρµατων Big Data Όπωςµετο Data Warehouse καιµετιςπλατφόρµες IT, ηυποδοµή των Big Data έχει συγκεκριµένες απαιτήσεις, όπου ο στόχος είναι η εύκολη ενσωµάτωση των µεγάλων δεδοµένων µε τα δεδοµένα των επιχειρήσεων, ώστε να γίνουν αναλύσεις εις βάθος. Απαιτήσεις υποδοµής - Οι απαιτήσεις για µία Big Data υποδοµή ορίζονται µε βάση την συλλογή, οργάνωση και ανάλυσή τους. Συλλογή - Κατά την εισαγωγή των δεδοµένων, αλλά και στην εκτέλεσηαπλώνσύντοµωνερωτηµάτωνπρέπειηbig Data υποδοµή να είναι σε θέση να χειριστεί µεγάλου όγκου δεδοµένα, σε κατανεµηµένο περιβάλλον υποστηρίζοντας ευέλικτες και δυναµικές δοµές δεδοµένων (NoSQL). Οργάνωση - Η υποδοµή που απαιτείται για την οργάνωση των Big Dataθαπρέπειναµπορείναεπεξεργαστείκαινα χειριστεί τα δεδοµένα στην αρχική τους θέση αποθήκευσης µε υψηλή ισχύ διεκπεραίωσης (throughput). Ανάλυση - υποστηρίζει στατιστικές αναλύσεις και εργαλεία εξόρυξης πληροφορίας, σε µία ευρύτερη ποικιλία τύπων δεδοµένων που είναι αποθηκευµένα σε διαφορετικά συστήµατα

ιαιρούµενο φάσµα λύσεων

Το Apache Hadoop είναι µία ανοιχτού κώδικα επαναχρησιµοποιήσιµη πλατφόρµα λογισµικού (framework) γραµµένη σε JAVA για τη συγγραφή και την εκτέλεση κατανεµηµένων εφαρµογών, οι οποίες επεξεργάζονται µεγάλου όγκου δεδοµένα. Το Hadoop προήλθε από το MapReduce της Google και της Google το File System (GFS). Προσβάσιµο (Accessible) Το Hadoop τρέχεισεσυστοιχίες (clusters) κόµβων (commodity machines) συνδεδεµένων στο δίκτυο ή σε υπηρεσίες διαδικτύου (cloud). Εύρωστο (Robust) Του Hadoop η αρχιτεκτονική σχεδιάστηκε µε την υπόθεση ύπαρξης συχνής δυσλειτουργίας υλικού. Mπορεί οµαλά να διαχειριστεί τέτοιου είδους αποτυχίες. Επεκτάσιµο (Scalable) Το Hadoop κλιµακώνεται γραµµικά για την διαχείριση µεγαλύτερων όγκων δεδοµένων προσθέτοντας περισσότερους κόµβους (nodes) στη συστοιχία. Απλό (Simple) Το Hadoop επιτρέπει στους χρήστες να γράφουν γρήγορα και αποδοτικά παράλληλο κώδικα.

Συστατικά της πλατφόρµας Hadoop MapReduce Το οποίο είναι ένα περιβάλλον συγγραφής προγραµµάτων για την επεξεργασία µεγάλου όγκου δοµηµένων και αδόµητων δεδοµένων γρήγορα και αξιόπιστα, µέσα από µεγάλες συστοιχίες από εικονικές ή φυσικές µηχανές. Hadoop Distributed File System (HDFS) ιαχειρίζεται την αποθήκευση και τη γρήγορη πρόσβαση µεγάλου όγκου δεδοµένων σε εκατοντάδες κόµβους. Hive Για ad-hoc ερωτήµατασεσύνολαδεδοµένωνπου είναι αποθηκευµένα στο HDFS (Hadoop s Warehouse). HBase Ένα NoSQL περιβάλλονπουδίνειτηδυνατότητα άµεσης πρόσβασης ανάγνωσης και εγγραφής στα Big Data και την παρουσίαση τους στους τελικούς χρήστες.

Μία συστοιχία Hadoop

Παράδειγµα αλληλεπίδρασης κάποιου χρήστη µεµίασυστοιχία Hadoop client client client jobs jobs Hadoop cluster jobs

Οι δαίµονες (deamons) εκτελούν λειτουργίες διαχείρισης καιεπεξεργασίαςτηςσυστοιχίας Hadoop: HDFS storage deamons NameNode DataNode Secondary NameNode Deamons MapReduce computing deamons Job Tracker Task Tracker

Ηmaster/slave αρχιτεκτονική τουhadoop

Αλληλεπίδραση τουnamenode και τωνdatanodes στοhdfs NameNode NameSpace File Metadata: /user/irene/data1 -> 1,2,3 /user/irene/data2 -> 4, 5 DataNode DataNode DataNode DataNode 3 5 3 5 5 3 1 4 4 2 1 2 1 2 4

Κατανόησης της κατανεµηµένης επεξεργασίας(1) Παράδειγµα WordCount: do as I say, not as I do define wordcount as Multiset; for each document in documentset { T= tokenize (document); for each token in T{ wordcount[token]++; } } display(wordcount); Word as do I not say Count 2 2 2 1 1

Κατανόησης της κατανεµηµένης επεξεργασίας(2) define wordcount as Multiset; for each document in documentsubset { T= tokenize (document); for each token in T{ wordcount[token]++; } } sendtosecondphase(wordcount); define totalwordcount as Multiset; for each wordcount received from firstphase{ multisetadd (totalwordcount, wordcount); }

Κατανόησης της κατανεµηµένης επεξεργασίας(3α) map reduce Input <k1, v1> <k2, list(v2)> Output list<k2, v2> list<k3, v3> Do as I say, not as I do Map input Map output MR group by key map(do) map(as) map(i) map(say,) map(not) map(as) map(i) map(do) do:1 as:1 I:1 say,:1 not:1 as:1 I:1 do:1 do:[1,1] as:[1,1] I:[1,1] say,:[1] not:[1] Reduce input reduce(do:[1,1]) reduce(as:[1,1]) reduce(i:[1,1]) reduce(say,:[1]) reduce(not:[1]) Reduce Output do:1 as:2 I:2 say,:1 not:1

Κατανόησης της κατανεµηµένης επεξεργασίας(3β) map(string filename, String document){ List<String> T = tokenize(document); for each token in T { emit((string)token, (Integer)1); } } reduce(string token, List<Integer> value){ integer sum=0; for each value in values{ sum= sum + value; } emit((string)token, (Integer)sum); }

Τρόποι λειτουργίας τουhadoop Local (standalone) mode Pseudo-distributed mode Fully distributed mode Τα βασικά αρχεία διαµόρφωσης της συστοιχίας Hadoop σε κάθε περίπτωση είναι τα: core-site.xml mapred-site.xml hdfs-site.xml

Pseudo-distributed mode

Fully distributed mode

Hadoop Web Interfaces http://localhost:50070/ για τον NameNode daemon http://localhost:50030/ για τον JobTracker daemon http://localhost:50060/ για τον TaskTracker daemon

Γλώσσες ανάπτυξης εφαρµογών στο Hadoop (1) Pig και PigLatin L = LOAD hdfs://node/tweet_data ; FL = FILTER L BY iso_language_code EQ en ; G = GROUP FL BY from_user; RT = FOREACH G GENERATE group, SUM(retweets); HIVE CREATE TABLE Tweets(from_user STRING, userid BIGINT, tweettxt STRING, retweets INT) COMMENT This is the Twitter feed table STORED AS SEQUENCEFILE; LOAD DATA INPATH hdfs://node/tweetidata INTO TABLE TWEETS; SELECT from_user, SUM(retweets) FROM TWEETS GROUP BY from_user;

Γλώσσες ανάπτυξης εφαρµογών στο Hadoop (2) Jaql Results: [ $tweets = read(hdfs( tweet_log )); { $tweets created_at: Thurs, 14 Jul 2011 -> filter $.iso_language_code = en 09:47:45 +0000 -> group by u = $.from_user from_user: eatonchris into { user: $from_user, total: geo: { sum($.retweet)}; coordinates: [43.334543, 78.933333] type: Point } iso_language_code: en text: Reliance Life Insurance migrates... retweet: 3 to_user_id: null to_user_id_str: null }...

Hadoop Streaming hadoop jar contrib/streaming/hadoop-streaming.jar \ -input input/dataset.txt \ -output output \ -mapper text_processor_map.py \ -reducer text_processor_reduce.py

Άλλα συστατικά τουhadoop Zookeeper -είναιέναανοιχτούκώδικα Apache project που παρέχει µία συγκεντρωτική υποδοµή και υπηρεσίες που ενεργοποιούν τον συγχρονισµό σεµίασυστοιχία. HBase - είναι ένα column-oriented σύστηµα διαχείρισης βάσης δεδοµένων που τρέχει πάνω στο HDFS. Oozie -απλοποιείτηροήεργασιώνκαιτον συντονισµό µεταξύ των jobs. Lucene - project για αναζήτηση κειµένου Avro - παρέχει υπηρεσίες σειριοποίησης (serialization) δεδοµένων. Flume - είναι µία κατανεµηµένη, αξιόπιστη και διαθέσιµη υπηρεσία για την αποτελεσµατική συλλογή, την συνάθροιση, και τη µετακίνηση µεγάλων ποσοτήτων δεδοµένων καταγραφής (logs).

SQL καιhadoop Επεκτασιµότητα (scale-out) αντί για αναβάθµιση (scale-up) Ζεύγος κλειδί/τιµή (key/value) αντί για σχεσιακού πίνακες Λειτουργικό προγραµµατισµό (functional programming MapReduce) αντίγιαδηλωτικάερωτήµατα (SQL) Εκτόςσύνδεσηςεπεξεργασίαδέσµηςεντολών (batch processing) αντίγιαηλεκτρονικέςσυναλλαγές (online transactions)

Η βασική αρχιτεκτονική συστηµάτων δεδοµένων των επιχειρήσεων σήµερα

Επιλέγοντας µεταξύ Hadoop και Data Warehouse

Reporting& Analysis στο Hadoop(1) Τα στάδια λήψης και επεξεργασίας των Big Data.

Τρεις περιπτώσεις χρήσης για την ανάλυση τωνbig Data

ΒΙ& Hadoop αρχιτεκτονική

Αναφορές Chuck Lam, Hadoop in Action, Manning, 2011 Chris Eaton, Dirk Deroos, Tom Deutsch, George Lapis, Understanding Big Data Analytics for Enterprise Class Hadoop and Streaming Data, 2012 Hadoop and the Data Warehouse, When to use Which, https://www.clouder.com/content/dam/clouder/resources/pdf/ Hadoop_and_the_Data_Warehouse_Whitepaper.pdf Big Data University - Hadoop Reporting and Analysis, http://bigdatauniversity.com/courses/ Oracle: Big Data for the Enterprise, http://www.oracle.com/us/products/database/big-data-for-enterprise-519135.pdf