Ανάκτηση Πληροφορίας. Φροντιστήριο 4

Σχετικά έγγραφα
ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ 5ο ΚΕΦΑΛΑΙΟ

Τεχνικές Εξόρυξης Δεδομένων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Αρχές Δικτύων Επικοινωνιών. Επικοινωνίες Δεδομένων Μάθημα 4 ο

ΒΑΣΙΚΕΣ ΥΠΗΡΕΣΙΕΣ Βελώνης Γεώργιος ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ. Μάθημα 2ο. Βελώνης Γεώργιος - 1ο Τ.Ε.Ε. Κατερίνης. Καθηγητής Πληροφορικής ΠΕ20 2-1

AEI Πειραιά Τ.Τ. Τμ. Μηχ/κων Αυτοματισμού ΤΕ. Δίκτυα Μετάδοσης Δεδομένων. Διάλεξη 1: Εισαγωγή στα δίκτυα υπολογιστών και βασικές αρχές

AEI Πειραιά Τ.Τ. Τμ. Μηχ/κων Αυτοματισμού ΤΕ. Δίκτυα Υπολογιστών. Διάλεξη 1: Εισαγωγή στα δίκτυα υπολογιστών και βασικές αρχές

Διδάσκοντες: Μαρία Χαλκίδη

Πρωτόκολλα Διαδικτύου

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

ΤΕΙ Στερεάς Ελλάδας Τμ. Ηλ.γων Μηχ/κων ΤΕ. Δίκτυα Υπολογιστών. Διάλεξη 1: Εισαγωγή στα δίκτυα υπολογιστών και βασικές αρχές

7.9 ροµολόγηση. Ερωτήσεις

Κεφάλαιο 1 Ε Π Α Ν Α Λ Η Ψ Η

Δίκτυα ΙΙ. Κεφάλαιο 7

1.5.1 ΓΕΦΥΡΑ (BRIDGE) Εικόνα Επίπεδα λειτουργίας επαναλήπτη, γέφυρας, δρομολογητή και πύλης ως προς το μοντέλο OSI.

ΔΙΑΣΥΝΔΕΣΗ ΔΙΚΤΥΩΝ (INTERNETWORKING)

ΔΙΑΓΩΝΙΣΜΑ ΤΕΛΙΚΗΣ ΕΠΑΝΑΛΗΨΗΣ ΣΤΙΣ ΕΝΟΤΗΤΕΣ

ΗY335: Δίκτυα Υπολογιστών Χειμερινό Εξάμηνο Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης Διδάσκουσα: Μαρία Παπαδοπούλη 16 Νοεμβρίου 2013

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή

ΚΕΦΑΛΑΙΟ 4. Τεχνική Ανίχνευσης του. Πτυχιακή Εργασία Σελίδα 95

α. Συνόδου β. Μεταφοράς γ. Δικτύου δ. Διασύνδεσης δεδομένων ε. Φυσικού Επιπέδου (Μονάδες 5)

Διαχείριση Πολιτισμικών Δεδομένων

ΗΥ335 - Δίκτυα Υπολογιστών Χειμερινό εξάμηνο Φροντιστήριο Ασκήσεις στο TCP

Ενότητα 4. Πρωτόκολλα ροµολόγησης: Αρχές Λειτουργίας του OSPF (Open Shortest Path First)

Γενικές Αρχές. Τεχνολογία ικτύων Επικοινωνιών ΙΙ

Διαχείριση Πολιτισμικών Δεδομένων

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

ΔΙΚΤΥΑ (15-17) Π. Φουληράς

Σχεδιασμός Επεξεργασίας και Τηλεπεξεργασίας

Εφαρμογές Υπολογιστικής Νοημοσύνης στις Ασύρματες Επικοινωνίες

Επαναληπτικές Ασκήσεις Μαθήματος

7.4 Πρωτόκολλο UDP. 3. Στη περίπτωση που ένα μήνυμα χωράει σε ένα τμήμα, χρησιμοποιούμε το πρωτόκολλο TCP.

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Εγγυημένη ποιότητα υπηρεσίας

Ερώτηση 1 η μεταγωγής κυκλώματος? : Ποια είναι τα κύρια χαρακτηριστικά της. Ερώτηση 2 η : Ποια είναι τα κύρια χαρακτηριστικά της μεταγωγής μηνύματος?

ΚΕΦΑΛΑΙΟ 1.7. Πρωτόκολλα και Αρχιτεκτονική Δικτύου

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή σε Έννοιες των Δικτύων Υπολογιστών Κεφάλαιο 2 Αξιοπιστία Κεφάλαιο 3 Αλγόριθμοι Πολλαπλής Πρόσβασης...

Άσκηση 1. (σημειώστε πως 1KB = 2 10 bytes, 1Mbps = 10 6 bits/sec).

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Τρίτη Πρόοδος [110 μονάδες] Απαντήσεις

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ 1 ο ΚΕΦΑΛΑΙΟ

ΠΡΟΤΕΙΝΟΜΕΝΑ ΘΕΜΑΤΑ ΣΤΑ ΔΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ ΙΙ Γ Τάξη Ε.Π.Α.Λ.

Εργαστήριο 4 Πρωτόκολλα Δρομολόγησης

Δίκτυα ATM. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 21-1

7.3 Πρωτόκολλο TCP. 1. Το TCP πρωτόκολλο παρέχει υπηρεσίες προσανατολισµένες σε σύνδεση. Σ Λ

Δίκτυα ΙΙ Τομέας Πληροφορικής,

Κεφάλαιο 7.3. Πρωτόκολλο TCP

Αντίγραφα στο σύννεφο

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ 7ο ΚΕΦΑΛΑΙΟ

Είναι η διαδικασία εύρεσης της διαδρομής που πρέπει να ακολουθήσει ένα πακέτο για να φτάσει στον προορισμό του. Η διαδικασία αυτή δεν είναι πάντα

Προτεινόμενες Διπλωματικές Εργασίες 2009

Κεφάλαιο 1 Ε Π Α Ν Α Λ Η Ψ Η. Αρχές Δικτύων Επικοινωνιών

Πρωτόκολλα Διαδικτύου

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΚΤΥΩΝ

Τεχνολογία Δικτύων Επικοινωνιών (Ενότητα Πρωτόκολλα και Αρχιτεκτονική Δικτύου)

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Ethernet Ethernet ΙΕΕΕ CSMA/CD

Υλοποίηση τεχνικών για την αποφυγή συμφόρησης σε τοπικά ασύρματα δίκτυα αισθητήρων

Εισαγωγή στο πως λειτουργεί το διαδίκτυο

Άσκηση 1. Δίδονται: Ποσότητα Πληροφορίας. D4: 300 bit ΔΜ: 2 Kbit E: 10 Mbit. Διαφημιστικά Μηνύματα (ΔΜ) + Εικόνες (Ε)

Μάθημα 5: To Μοντέλο Αναφοράς O.S.I.

1.8 Το μοντέλο OSI 1 / 33

Εισαγωγή στην επιστήμη των υπολογιστών. Υλικό Υπολογιστών Κεφάλαιο 6ο ίκτυα υπολογιστών

Δίκτυα Υπολογιστών I

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Συσκευές Τηλεπικοινωνιών και Δικτύωσης. Επικοινωνίες Δεδομένων Μάθημα 9 ο

ΔΡΟΜΟΛΟΓΗΣΗ ΠΑΚΕΤΩΝ. Η δρομολόγηση των πακέτων μπορεί να γίνει είτε κάνοντας χρήση ασυνδεσμικής υπηρεσίας είτε συνδεσμοστρεφούς υπηρεσίας.

Διάρθρωση. Δίκτυα Υπολογιστών I Βασικές Αρχές Δικτύωσης. Διάρθρωση. Δίκτυο Υπολογιστών: ένας απλός ορισμός. Ευάγγελος Παπαπέτρου

Πανεπιστήμιο Πειραιά Τμήμα Ψηφιακών Συστημάτων. ίκτυα Υπολογιστών Ι. To Μοντέλο OSI. Αναπλ. Καθηγ. Π. εμέστιχας

Δίκτυα και Διαδίκτυο

Επεξεργασία Ερωτήσεων

7.5 Πρωτόκολλο IP. Τεχνολογία ικτύων Επικοινωνιών ΙΙ

Κεφάλαιο 2. Υπολογιστές και Τεχνολογία Επικοινωνιών Παρελθόν - Παρόν - Μέλλον

Τρίτη Σειρά Ασκήσεων ΑΣΚΗΣΗ 1 ΑΣΚΗΣΗ 1 ΛΥΣΗ ΑΣΚΗΣΗ 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Βάσεις Περιβαλλοντικών Δεδομένων

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2012 ΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ ΙΙ / ΕΙ ΙΚΟΤΗΤΑΣ

Νέες Επικοινωνιακές Τεχνολογίες

ΔΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ Ι. Σημειώσεις Θεωρίας

ΔΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ ΙΙ

Δίκτυα Υπολογιστών Firewalls. Χάρης Μανιφάβας

Κεφάλαιο 3 Πολυπλεξία

Δίκτυα Υπολογιστών. Δίκτυα υπολογιστών και το Διαδίκτυο Εισαγωγή. Κ. Βασιλάκης

Α5.1 Εισαγωγή στα Δίκτυα. Α Λυκείου

Συνεχής ροή πολυµέσων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΤΕΧΝΟΛΟΓΙΑ ΔΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Λειτουργικά Συστήματα. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

ΔΙΚΤΥΑ (13) Π. Φουληράς

ΕΠΙΚΟΙΝΩΝΙΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΕΣ INTERNET

Συνοπτική Μεθοδολογία Ασκήσεων Κεφαλαίου 7. Ασκήσεις στο IP Fragmentation

Ιατρική Πληροφορική. Δρ. Π. ΑΣΒΕΣΤΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΒΙΟΪΑΤΡΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ Τ. Ε. Χρήσιμοι Σύνδεσμοι

ΔΙΚΤΥΑ (20-22) Π. Φουληράς

A1. Φυσικό επίπεδο 1. Αντιπαραθέσετε (κάνετε τη σύγκριση) με 2-3 προτάσεις την στατιστική πολυπλεξία και την πολυπλεξία με διαίρεση χρόνου.

Transcript:

Ανάκτηση Πληροφορίας Φροντιστήριο 4 Τσιράκης Νίκος Νοέμβριος 2007

2 Περιεχόμενα Ροές Δεδομένων

3 Ανάκτηση Πληροφορίας - Φροντιστήριο 4 - Νοέμβριος 2007 Ροές Δεδομένων

4 Εισαγωγή Οι παραδοσιακές βάσεις δεδομένων αποθηκεύουν στατικά δεδομένα χωρίς την αίσθηση του χρόνου, με εξαίρεση περιπτώσεις όπου ο χρόνος αποτελεί τμήμα επιπρόσθετο στα δεδομένα. Με την πάροδο των χρόνων και καθώς ο όγκος της πληροφορίας αυξανόταν γεωμετρικά υπήρξε ανάγκη για ανάλυση δεδομένων σε πραγματικό χρόνο.

5 πλημμύρα από δεδομένα Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα: αστρονομικά, βιολογικά κλπ. Κείμενα στο web κ.α. Αποθηκεύονται όλο και περισσότερα δεδομένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά ΣΔΒΔ για μεγάλες ΒΔ

6 Παραδείγματα Το ευρωπαϊκό Very Long Baseline Interferometry (VLBI) διαθέτει 16 τηλεσκόπια, καθένα από τα οποία παράγει 1 Gigabit/second αστρονομικά δεδομένα σε συνόδους παρατήρησης των 25 ημερών η αποθήκευση και ανάλυση τέτοιου όγκου δεδομένων είναι πρόβλημα Ο τηλεπικοινωνιακός κολοσός AT&T χειρίζεται δισεκατομμύρια κλήσεις/ μέρα τόσο μεγάλος είναι ο όγκος των δεδομένων που αυτά δεν αποθηκεύονται η ανάλυση γίνεται «στον αέρα» (on the fly) Η ΒΔ της επιχείρησης λιανεμπορίου Wal-Mart είναι της τάξης των 24 Tbytes Το UC Berkeley έκανε την εκτίμηση ότι μέσα στο 2002 παρήχθησαν 5 Exa-bytes (5 εκατομμύρια TBytes) δεδομένων!!!

7 Τάσεις ανάπτυξης Ο νόμος του Moore Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 μήνες Ο νόμος της αποθήκευσης Τα δεδομένα που αποθηκεύονται διπλασιάζονται κάθε 9 μήνες Κατά συνέπεια... πολύ λίγα από αυτά τα δεδομένα μπορεί να κοιτάξει (και να αναλύσει) ο άνθρωπος Άρα χρειάζεται η ανακάλυψη γνώσης μέσα από τα δεδομένα (Knowledge Discovery in Data - KDD) για να δώσει νόημα και χρήση στα δεδομένα

8 Εφαρμογές Data Mining Market analysis and management target marketing, customer relation management, market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection (attacks) and management αλλά και... Intelligent query answering Text / Web mining (news group, email, documents)

9 Ροές δεδομένων Οι ροές δεδομένων (data streams) είναι δεδομένα τα οποία αλλάζουν συνεχώς και με γρήγορο ρυθμό με την πάροδο του χρόνου. Είναι αδύνατον να γίνει έλεγχος της διάταξης με την οποία έρχονται τα αντικείμενα και επίσης να αποθηκευτεί μια ροή ολόκληρη μαζί στον ίδιο χώρο.

10 Ροές δεδομένων Ερωτήματα σε ροές μπορούν να εφαρμοστούν συνεχόμενα σε μια περίοδο χρόνου και αυξητικά επιστρέφουν νέα αποτελέσματα καθώς νέα δεδομένα έρχονται από την ροή αυτή. Αυτά τα ερωτήματα είναι γνωστά και ως longrunning, συνεχόμενα, standing, και μόνιμα ερωτήματα

11 Γενικά Μια ροή δεδομένων είναι μια ακολουθία απο ψηφιακά κρυπτογραφημένα σήματα που χρησιμοποιούνται για αναπαραστίσουν την πληροφορία που μεταδίδεται (με γρήγορο ρυθμό) Γρήγορος ρυθμός σημαίνει πως είναι δύσκολο να: Μεταδοθεί (T) η είσοδος στο πρόγραμμα Υπολογιστούν (C) συναρτήσεις και διεργασίες σε μεγάλο όγκο δεδομένων εισόδου σε γρήγορο ρυθμό και να Αποθηκευθούν (S) Είναι αναγκαίες λοιπόν οι λεγόμενες TCS απαιτήσεις

12 Το φαινόμενο των ροών δεδομένων Όταν έχουμε μετάδοση δεδομένων, αν η επικοινωνία παρουσιάζει σφάλματα τότε από τη μια πλευρά τα δεδομένα φτάνουν ορθά αλλά από την άλλη έχουν καθυστέρηση. Αν η υπολογιστική ισχύς είναι μικρή ή το πρόγραμμα έχει μεγάλη πολυπλοκότητα, απαιτείται χρόνος για την επεξεργασία των δεδομένων.

13 Παραδείγματα Transactional data streams: log interactions between entities Credit card: purchases by consumers from merchants Telecommunications: phone calls by callers to dialed parties Web: accesses by clients of resources at servers Measurement data streams: monitor evolution of entity states IP network: traffic at router interfaces Sensor networks: physical phenomena, road traffic Earth climate: temperature, moisture at weather stations

14 Βάσεις δεδομένων και Ροές Δεδομένων Συστήματα βάσεων δεδομένων Μοντέλο: μόνιμες αλληλεξαρτήσεις Ανανέωση δεδομένων: τροποποιήσεις Ερωτήματα: προσωρινά Απαντήσεις ερωτήσεων: ακριβείς Αποτίμηση ερωτήσεων: αυθαίρετη Πλάνο ερωτημάτων: αμετάβλητο Συστήματα ροών δεδομένων Μοντέλο: προσωρινές transient αλληλεξαρτήσεις Ανανέωση δεδομένων: συμπληρώματα Ερωτήματα: μόνιμα Απαντήσεις ερωτήσεων : προσεγγιστικές Αποτίμηση ερωτήσεων: ενός περάσματος Πλάνο ερωτημάτων: προσαρμοστικό

15 Μια νέα ομάδα εφαρμογών Ένα λογισμικό που λειτουργεί σαν ενδιάμεσο μέσο (middleware) υποστηρίζοντας αποτελεσματικά εξόρυξη δεδομένων από ροές δεδομένων, και επιτρέπει πολύπλοκα ερωτήματα μειώνοντας την επιβάρυνση σε χρόνο.

16 Η βασική ιδέα Ροές Δεδομένων Σύνοψη στη μνήμη Επεξεργασία Ροών (κατά προσέγγιση) Απαντήσεις

17 Δυο πεδία ανάπτυξης Ανάγκη αυτόματης δημιουργίας μεγάλου όγκου δεδομένων με συνεχής ενημερώσεις Αυτό έχει ξεκινήσει τις τελευταίες δεκαετίες με πρώτο αντικείμενο δίκτυα τα οποία καταμετρούσαν τις τραπεζικές συναλλαγές και αυτές των καρτών. Το διαδίκτυο είναι και αυτό ένα μεγάλο δίκτυο το οποίο έχει κατανεμημένα τόσο τις πηγές δεδομένων όσο και τους πελάτες του.γενικά συμπεραίνουμε πως από τις διάφορες συναλλαγές δημιουργούνται πολλαπλά stream δεδομένων.

18 Δυο πεδία ανάπτυξης Ανάγκη για ειδική ανάλυση ανανεωμένων ροών σε πραγματικό χρόνο Η ανάλυση με μια κλασική μέθοδο ανανέωσης δεδομένων είναι απλή γιατί με εφαρμογή ενός ερωτήματος πολύ απλά παίρνουμε την νέα τιμή, αυτό είναι εφαρμόσιμο ειδικά σε τραπεζικές συναλλαγές και αυτές των καρτών. Σε πιο πολύπλοκες αναλύσεις όπως είναι trend analysis, forecasting κ.τ.λ. η ανάλυση γίνεται offline σε warehouses. Σήμερα όμως δεν μας αρκεί αυτό γιατί υπάρχει πληθώρα από αυτόματα data feeds σε πολλούς τομείς. Απαιτείται ειδική ανάλυση και πολύπλοκες εργασίες πρέπει να γίνουν. Αυτές εξαρτώνται άμεσα από το χρόνο και απαιτούν ανάλυση πραγματικού χρόνου.

19 Μοντέλα ροών δεδομένων Θεωρούμε μια ροή εισόδου a1,a2,.. η οποία φτάνει ακολουθιακά και περιγράφει το σήμα Α, μια μονοδιάστατη συνάρτηση Α: [1...Ν] R 2. Τα μοντέλα διαφέρουν στο πως τα a i περιγράφουν το Α. Time series Model Cash register Model Turnstile Model

20 Μοντέλα ροών δεδομένων Απώτερος στόχος μας είναι να υπολογίζουμε διάφορες συναρτήσεις ενός σήματος Α σε διαφορετικές χρονικές στιγμές όσο βλέπουμε τη ροή. Για αυτό το σκοπό υπάρχουν διαφορετικές μετρικές απόδοσης. Χρόνος υπολογισμού ανα στοιχείο ai στην ροή (Proc. Time). Ο χώρος που χρησιμοποιήθηκε για την αποθήκευση της δομής του At σε χρόνο t (Storage). Ο χρόνος που χρειάστηκε για τον υπολογισμό των συναρτήσεων στο Α (Compute Time).

21 Ερωτήματα σε ροές δεδομένων Τα ερωτήματα σε ροές δεδομένων έχουν πολλά κοινά με αυτά που εφαρμόζονται στα παραδοσιακά συστήματα βάσεων δεδομένων. Στα συστήματα ροών δεδομένων υπάρχουν δυο ιδιαίτερες διακρίσεις: Η πρώτη είναι μεταξύ των στιγμιαίων και των συνεχόμενων ερωτημάτων. Η δεύτερη διάκριση είναι μεταξύ των προκαθορισμένων ερωτημάτων και των κατά περίπτωση ερωτημάτων (ad hoc queries).

22 Ερωτήματα σε ροές δεδομένων Διάκτιση Ι Τα στιγμιαία είναι ερωτήματα που εφαρμόζονται μια φορά σε μια χρονική περίοδο και θεωρούν τα δεδομένα σαν ένα στιγμιότυπο επιστρέφοντας την απάντηση στο χρήστη. Τα συνεχόμενα ερωτήματα εφαρμόζονται συνεχώς καθώς η ροή δεδομένων έρχεται. Τα ερωτήματα αυτά είναι πιο ενδιαφέροντα στην κατηγορία των ροών δεδομένων. Η απάντηση σε ένα τέτοιο ερώτημα δημιουργείται κατά το πέρασμα του χρόνου, και συνεχώς ανταποκρίνεται στη ροή που έχει περάσει μέχρι τη στιγμή της εφαρμογής του ερωτήματος. Οι απαντήσεις αυτές μπορούν να αποθηκεύονται και να ανανεώνονται καθώς νέα δεδομένα έρχονται. Ανάλογα την περίπτωση γίνεται χρήση είτε των στιγμιαίων είτε των συνεχών ερωτημάτων.

23 Ερωτήματα σε ροές δεδομένων Διάκτιση ΙΙ Ένα προκαθορισμένο ερώτημα είναι αυτό που εφαρμόζεται σε ένα σύστημα ροών δεδομένων πριν έρθει κάποιο από τα δεδομένα. Είναι συνήθως συνεχόμενα ερωτήματα, αλλά και στιγμιαία ερωτήματα μπορούν να είναι προκαθορισμένα. Αντίθετα τα κατά περίπτωση ερωτήματα εφαρμόζονται αφού έχει γίνει η άφιξη των δεδομένων και είναι πραγματικού χρόνου ερωτήματα. Μπορούν να είναι είτε στιγμιαία είτε συνεχόμενα ερωτήματα. Τα κατά περίπτωση ερωτήματα περιπλέκουν το σχεδιασμό ενός συστήματος διαχείρισης ροών δεδομένων και αυτό γιατί δεν είναι γνωστά για τη βελτιστοποίηση των ερωτημάτων τους και γιατί συνήθως απαιτούν αναφορές σε δεδομένα που ήδη έχουν περάσει από το σύστημα.

24 Ένα σενάριο ροών δεδομένων Ο παγκόσμιος ιστός αποτελείται δρομολογητές οι οποίοι είναι συνδεδεμένοι μεταξύ τους και προωθούν IP πακέτα. Για να διαχειριστούμε τέτοια δίκτυα απαιτείται πραγματικού χρόνου αναφορά λαθών, χρήση προτύπων και δυνατότητα να αναφέρονται οι ασυνήθιστες συμπεριφορές. Αυτό απαιτεί ανάλυση της κίνησης και των εσφαλμένων δεδομένων σε πραγματικό χρόνο.

25 Ένα σενάριο ροών δεδομένων Η κίνηση στους δρομολογητές μπορούμε να την παρατηρήσουμε σε διάφορα επίπεδα: Στο τελευταίο επίπεδο, έχουμε το packet log: κάθε IP πακέτο έχει ένα header που περιέχει τις IP διευθύνσεις προορισμού και αφετηρίας, ports και άλλα. Σε ένα πιο υψηλό επίπεδο επαύξησης, έχουμε το flow log: κάθε ροή είναι μια συλλογή πακέτων με ίδιες τιμές για συγκεκριμένα χαρακτηριστικά όπως η IP διεύθυνση προορισμού και αφετηρίας και το log περιέχει αθροιστικές πληροφορίες σχετικά με τον αριθμό των bytes και των πακέτων που έχουν σταλεί, ώρα εκκίνησης, ώρα τερματισμού, τύπος πρωτοκόλλου κ.α. Στο υψηλότερο επίπεδο, έχουμε το SNMP log: το οποίο είναι τα επαυξημένα δεδομένα του αριθμού των bytes που στάλθηκαν σε κάθε σύνδεσμο κάθε λίγα λεπτά.

26 Ένα σενάριο ροών δεδομένων Πολλά ακόμα log αρχεία μπορούν να δημιουργηθούν από IP δίκτυα. Κάθε φορά ανάλογα τις απαιτήσεις υπάρχουν πολλά ακόμα log ειδικού τύπου που μπορούν να χρησιμοποιηθούν.

27 Ένα σενάριο ροών δεδομένων Ορισμένα ερωτήματα που μπορεί κάποιος να κάνει στα IP logs είναι τα παρακάτω. Πόση κίνηση (ΗΤΤΡ) έγινε σε κάποιο συγκεκριμένο σύνδεσμο από ένα ορισμένο φάσμα IP διευθύνσεων; Πόσες μοναδικές IP διευθύνσεις χρησιμοποίησαν ένα συγκεκριμένο σύνδεσμο για να στείλουν την κίνηση τους από την αρχή της μέρας; Ποιες είναι οι k πιο επιβαρημένες ροές κατά τη διάρκεια της μέρας; Πόσες ροές αποτελούν ένα πακέτο μόνο; Πόσο ποσοστό της κίνηση χτες σε δυο δρομολογητές ήταν κοινή ή παρόμοια; Ποιοι είναι οι k σχετιζόμενοι σύνδεσμοι μέσα στην μέρα για ένα δοθέν μέτρο συσχέτισης; Για κάθε IP διεύθυνση και κάθε πέντε λεπτών διακοπή, υπολόγισε τον αριθμό των bytes και των πακέτων που μεταφέρθηκαν.

28 Κατηγορίες εφαρμογών ροών δεδομένων 1. Δίκτυα αισθητήρων Τα δίκτυα αισθητήρων (sensor networks) μπορούν να χρησιμοποιηθούν σε πολλές εφαρμογές ελέγχου που εκτελούν πολύπλοκες διεργασίες φιλτραρίσματος. Σε αυτές τις εφαρμογές απαιτούνται πολλές φορές συνάθροιση και σύνδεση πολλαπλών ροών δεδομένων για να είναι δυνατή η ανάλυση δεδομένων από διαφορετικές πηγές.

29 Κατηγορίες εφαρμογών ροών δεδομένων 2. Ανάλυση κίνησης δικτύων Σε αυτή την κατηγορία συναντάμε συστήματα που εκτελούν αναλύσεις σχετικά με την κίνηση δικτύων σε πραγματικό χρόνο και χρησιμοποιούνται ήδη για τον υπολογισμό τέτοιων στατιστικών δεδομένων και για τον εντοπισμό ακραίων καταστάσεων (π.χ. μεγάλη συμφόρηση, αρνήσεις υπηρεσιών). Ο συνεχής έλεγχος ορισμένων πηγών και των προορισμών τους είναι αρκετά σημαντικός καθώς το μεγαλύτερο μέρος του bandwidth καταναλώνεται από ένα μικρό σύνολο απειλητικών χρηστών.

30 Κατηγορίες εφαρμογών ροών δεδομένων 3. Οικονομικά Εισιτήρια Η συνεχής ανάλυση χρηματιστηριακών δεδομένων εμπεριέχει, ανακάλυψη συσχετίσεων, αναγνώριση τάσεων και δυνατοτήτων κερδοσκοπίας καθώς και πρόβλεψη μελλοντικών τιμών.

31 Κατηγορίες εφαρμογών ροών δεδομένων 4. Ανάλυση αρχείων καταγραφής δοσοληψιών Συστήματα παρακολούθησης δεδομένων δοσοληψιών μέσω διαδικτύου, τηλεφωνικών εγγραφών και συστήματα αυτόματων τραπεζικών συναλλαγών έχουν να κάνουν με ροές δεδομένων. Σκοπός των μοντέλων διαχείρισης τέτοιων ροών είναι να βρίσκουν πρότυπα συμπεριφοράς χρηστών που παρουσιάζουν ενδιαφέρον, να αναγνωρίζουν συμπεριφορές χρηστών που μπορεί να επιφέρουν απάτες και να μπορούν να προβλέψουν μελλοντικές συμπεριφορές χρηστών.

32 Συστήματα ροών δεδομένων Άμεση επεξεργασία των ροών δεδομένων Το σύστημα αυτό κρατά τμήματα κάθε φορά από τη ροή δεδομένων και συνήθως χρησιμοποιεί γλώσσες προγραμματισμού όπως η C για να διαχειριστεί την πληροφορία

33 Συστήματα ροών δεδομένων Συστήματα που επιτρέπουν την μεγάλη απόδοση στη διαδικασία ανανεώσεων των βάσεων δεδομένων χρησιμοποιώντας τυποποιημένη τεχνολογία Εδώ έχουμε εφαρμογές φτιαγμένες πάνω από μια βάση δεδομένων η οποία βάση διαχειρίζεται τα δεδομένα (SNPM logs συνάθροιση δεδομένων από bytes που στάλθηκαν σε κάθε link σε ορισμένα λεπτά) και δίνει στην εφαρμογή τη δυνατότητα για δημιουργία traffic patterns σε links μεταξύ των IP routers.

34 Συστήματα ροών δεδομένων Συστήματα βάσεων δεδομένων όπου εσωτερικά είναι διαμορφωμένα να χειρίζονται ροές δεδομένων Εδώ ερευνητικά το θέμα είναι ανοιχτό και μιλάμε για νέους stream operators, SQL extensions, μεθόδους δρομολόγησης. Εδώ έχουμε εξ ολοκλήρου ενα σύστημα διαχείρισης ροών δεδομένων.

35 Μέθοδοι σε ροές δεδομένων Όταν θέλουμε να αναφερθούμε σε εξόρυξη γνώσης μέσα από data streams τότε υπάρχουν πολλές μέθοδοι που χρησιμοποιούνται γι αυτό το σκοπό. Κατηγοριοποίηση Classic operation in machine learning and data mining Συσταδοποίηση (Clustering) Classic area of machine learning and pattern recognition Πρότυπα ακολουθιών (Sequential Patterns) Μείωση διαστάσεων (Reduction of Dimensions)

36 Μέθοδοι σε ροές δεδομένων Κατηγοριοποίηση Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Συνήθως υπάρχει περιορισμός στον αριθμό των κατηγοριών γι αυτό το σκοπό χρησιμοποιούνται κάποιες τεχνικές τις οποίες κατατάσσουμε σε 2 κατηγορίες δέντρα αποφάσεων νευρωνικά δίκτυα Και οι δύο βασίζονται στην ιδέα της εκπαίδευσης με τη βοήθεια ενός υποσυνόλου δεδομένων που ονομάζεται σύνολο εκπαίδευσης. Έτσι με την εφαρμογή της διαδικασίας εκπαίδευσης καθορίζονται κάποια πρότυπα για τις κατηγορίες δεδομένων.

37 Μέθοδοι σε ροές δεδομένων Συσταδοποίηση Εδώ μιλάμε για την εργασία καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο περισσότερων ετερογενών συστάδων. Εδώ δεν έχουμε προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους.

38 Μέθοδοι σε ροές δεδομένων Πρότυπα ακολουθιών Εδώ έχουμε εξόρυξη των συχνά εμφανιζόμενων προτύπων σχετικών με το χρόνο ή άλλες ακολουθίες.

39 Μέθοδοι σε ροές δεδομένων Μείωση διαστάσεων Οι τεχνικές αυτές υπολογίζουν μια μικρότερη αντιπροσώπευση του αρχικού συνόλου δεδομένων. Εδώ γίνεται προσπάθεια να διατηρηθεί όσο το δυνατόν η αρχική δομή.

40 Συμπεράσματα Χρειαζόμαστε υποδομές σε TCS για να διαχειριστούμε και να επεξεργαστούμε τις ροές δεδομένων. Αυτό δημιουργεί νέα ανοιχτά ερευνητικά ζητήματα σε τομείς όπως: Αλγόριθμοι Βάσεις Δεδομένων Δίκτυα Συστήματα Γλώσσες

41 Ανάκτηση Πληροφορίας - Φροντιστήριο 4 - Νοέμβριος 2007 Τέλος 4 ου Φροντιστηρίου