Απαλλακτικές εργασίες στα πλαίσια του µαθήµατος «Αποθήκες εδοµένων & Εξόρυξη Γνώσης» Άνοιξη 2008

Σχετικά έγγραφα
Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Business Development, SAP Hellas 01/12/2007

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Συνοπτική επισκόπηση αγοράς & εργαλείων ΒΙ

ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

CYPDIS BI Platform. ών Υπηρεσιών

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

Οι «κύκλοι» της επιχειρησιακής νοηµοσύνης. Μέθοδοι και Τεχνικές εξερεύνησης των

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Διδάσκοντες: Μαρία Χαλκίδη

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου - Δεκεμβρίου

Πληροφοριακά Συστήματα Διοίκησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ - Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

...στις µέρες µας, όσο ποτέ άλλοτε, οι χώρες καταναλώνουν χρόνο και χρήµα στη µέτρηση της απόδοσης του δηµόσιου τοµέα...(oecd)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Προτεινόμενες Διπλωματικές Εργασίες 2008

Business Software & Networks. Λύσεις Προώθησης Πωλήσεων µε τη πλατφόρµα mobile server. salesman. ing software platform.

Πρόγραμμα Σεμιναρίων Φεβρουαρίου - Ιουλίου

ΠΡΟΣΚΛΗΣΗ ΕΚ ΗΛΩΣΗΣ ΕΝ ΙΑΦΕΡΟΝΤΟΣ στα Σεµινάρια του Εργαστηρίου Προηγµένων Εκπαιδευτικών Τεχνολογιών και Εφαρµογών Κινητών Συσκευών

ΠΛΗΡΟΦΟΡΙΑΚΑ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Πίνακας περιεχοµένων

Πληροφοριακά Συστήματα Διοίκησης

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου Δεκεμβρίου

Πρόγραμμα Σεμιναρίων Σεπτεμβρίου - Δεκεμβρίου

Περίληψη ιπλωµατικής Εργασίας

Αλλάξτε τον τρόπο που κάνετε τη δουλειά σας

Πρόγραμμα Σεμιναρίων Φεβρουαρίου - Ιουλίου

Προηγμένα Πληροφοριακά Συστήματα. Ακαδημαϊκό Έτος

Η εταιρία µας στελεχώνεται από: Μηχανικούς Πληροφορικής. ιδάκτορες Πληροφορικής. Επιµελητές κειµένων και Marketing υλικού

Πληροφοριακά Συστήματα Διοίκησης

Προτεινόμενες Διπλωματικές Εργασίες 2009

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Συγκριτικά Πλεονεκτήµατα Γραµµατείας 2003 έναντι Γραµµατείας 2.5

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Ένα σύνολο αλληλοσχετιζόμενων συστημάτων που συλλέγουν, επεξεργάζονται, αποθηκεύουν και διανέμουν πληροφορίες

Τεχνικές Εξόρυξης Δεδομένων

Επιχειρηματική Ευφυΐα (Business Intelligence - BI)

Εξόρυξη Γνώσης από εδοµένα (data mining)

4. ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΠΟΛΥΔΙΑΣΤΑΤΗΣ ΑΝΑΛΥΣΗΣ

ΣΤΡΑΤΗΓΙΚΟ MANAGEMENT KAI EΠΙΧΕΙΡHΜΑΤΙΚΗ ΕΥΦΥΙΑ. Παρουσίαση 2 ο μέρος:

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Τι είναι πληροφοριακό σύστημα

Ομαδοποίηση των απαιτήσεων του προτύπου ISO Σύστημα ποιότητας Ευθύνη της διοίκησης Διαχείριση πόρων Υλοποίηση του προϊόντος

Επιλέγοντας πίνακες και πεδία από τη βάση δεδοµένων του Microsoft Navision, οι χρήστες µπορούν να οργανώσουν και να καθορίσουν "κύβους" πληροφοριών

Ανοιχτά Οικονοµικά εδοµένα

Εµβάθυνση στις έννοιες: Ανάλυση, β) Εξαγωγή Αναφορών (Enterprise Reporting & Online Analytical Processing / OLAP). Παραδείγµατα.

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ευφυΐας (Business Intelligence)

H Epsilon Net A.E. είναι ένας ταχύτατα αναπτυσσόμενος Όμιλος Εταιριών, που δραστηριοποιείται από το 1999 στους τομείς της πληροφορικής (Epsilon

ΜΗΧΑΝΙΣΜΟΣ ΔΙΑΓΝΩΣΗΣ ΤΩΝ ΑΝΑΓΚΩΝ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ ΣΕ ΕΠΑΓΓΕΛΜΑΤΑ ΚΑΙ ΔΕΞΙΟΤΗΤΕΣ: Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ ΤΠΕ

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

economy Δρ. Πάνος Φιτσιλής, Καθηγητής ΤΕΙ Θεσσαλίας Πρόγραμμα Μεταπτυχιακών Σπουδών Διοίκηση και Διαχείριση Έργων

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

ΙΝΤΡΑΚΟΜ Ανώνυμη Εταιρεία Τηλεπικοινωνιακών Λύσεων 19,7 χλμ. Λεωφ. Μαρκοπούλου, Παιανία Αττικής τ: f:

Εφαρµογές WebGIS Open Source


Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΕΠΙΧΕΙΡΗΣΙΑΚΩΝ ΠΟΡΩΝ

FROM TESTOTA.REGISTRY

ΥΠΟΔΟΧΗ ΠΡΩΤΟΕΤΩΝ ΦΟΙΤΗΤΩΝ Παρουσίαση του Τµήµατος

Information Technology for Business

Σταύρος Κουτουπές Γ. Καραντώνης, Α. Σωτηριάδης, Α. Κυρατζή, Κ. Βαλαδάκη, Ν. Θεοδουλίδης, Α. Σαββαίδης, Η. Τζιαβός, Π. Σαββαίδης, Ι.

Πύλη Φαρμακευτικών Υπηρεσιών Υπουργείου Υγείας Κύπρου. System Architecture Overview

ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ Εργ. Συστημάτων Βάσεων Γνώσεων & Δεδομένων LOCATION BASED SERVICES ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΜΩΜΑ


ΕΙΣΑΓΩΓΗ. Πρόκειται για µια δυνατότητα που προσφέρεται σήµερα.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Πληροφοριακά Συστήματα Διοίκησης

Περιεχόμενα Α ΜΕΡΟΣ. Πρόλογος των Συγγραφέων ΚΕΦΑΛΑΙΟ 1 Πληροφοριακά Συστήματα. ΚΕΦΑΛΑΙΟ 2 Πληροφοριακά Συστήματα και Σύγχρονη Επιχείρηση

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Νέες Εφαρμογές 3D Χαρτογραφίας:

ΔΙΑΚΗΡΥΞΗ ΔΗΜΟΠΡΑΣΙΑΣ ΜΕ ΑΡΙΘΜΟ ΔΔ-...

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ. Παραγωγικές Λειτουργίες Επιχείρησης

ΚΑΤΑΛΟΓΟΣ ΕΚΠΑΙΔΕΥΣΗΣ

Η λίστα με τα 87 επαγγέλματα με αυξημένη ζήτηση την επόμενη 20ετία

ΕΡΓΑΣΙΑ. (στο µάθηµα: Τεχνολογίες Εφαρµογών ιαδικτύου του Η εξαµήνου σπουδών του Τµήµατος Πληροφορικής & Τηλ/νιών)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Παρουσίαση της λύσης Dnet Mobile Terminal

Πληροφοριακά Συστήματα Διοίκησης

Αριστοµένης Μακρής Εργαστήρια Η/Υ

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Νέες λύσεις της SiEBEN: Απάντηση στην κρίση με Τεχνολογία! Ισίδωρος Σιδερίδης Business Development Manager Σταύρος Λαγγούσης Technical Director

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Το µάθηµα Ψηφιακές Βιβλιοθήκες

Γιάννης Θεοδωρίδης. Εργαστήριο Πληροφοριακών Συστηµάτων.

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Transcript:

Απαλλακτικές εργασίες στα πλαίσια του µαθήµατος «Αποθήκες εδοµένων & Εξόρυξη Γνώσης» Άνοιξη 2008 περιεχόµενα TrajSim - Μελέτη διαφορετικών συναρτήσεων οµοιότητας τροχιών κινούµενων αντικειµένων για τη συσταδοποίηση τους Stock-miner συλλογή και ανάλυση χρηµατιστηριακών δεδοµένων Seismo-surfer συλλογή και ποιοτική ανάλυση σεισµολογικών δεδοµένων Easy-miner ολοκληρωµένη πλατφόρµα ανάλυσης δεδοµένων µε χρήση τεχνολογιών BI Mobile analytics ανάλυση δεδοµένων θέσης κινούµενων αντικειµένων Πρόβλεψη συµπεριφοράς χρηστών Εξαγωγή γνώσης από κείµενα

TrajSim - Μελέτη διαφορετικών συναρτήσεων οµοιότητας τροχιών κινούµενων αντικειµένων για τη συσταδοποίηση τους Νίκος Πελέκης (npelekis@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς Εισαγωγή & Κίνητρο Στην βιβλιογραφία έχουν προταθεί µία σειρά από τεχνικές συσταδοποίησης (π.χ. DB-SCAN, OPTICS, K-Means etc.) Επίσης έχουν προταθεί µία σειρά από τεχνικές οι οποίες ορίζουν την οµοιότητα µεταξύ τροχιών κινούµενων αντικειµένων (π.χ. Edit distance, EDR, DTW, LCSS etc.), δηλ. της πορείας κίνησης ενός αντικειµένου στο χωροχρόνο. Η εφαρµογή συγκεκριµένων συναρτήσεων οµοιότητας και η ενσωµάτωσή τους σε έναν από τους παραπάνω αλγόριθµους συσταδοποίησης ενδέχεται να έχει διαφορετικά αποτελέσµατα ανάλογα µε τησυνάρτησηοµοιότητας, τα χαρακτηριστικά της κίνησης των τροχιών, αλλά και του επιλεγµένου αλγορίθµου. Συνεπώς, υπάρχει ανάγκη για µελέτη των διαφορετικών συνδυασµών που πρέπει να κάνει ένας αναλυτής για επιτύχει το επιθυµητό αποτέλεσµα ανάλογα το πεδίο εφαρµογής!

Επιµέρους εργασίες / tasks Task 1 Μελέτη εναλλακτικών συναρτήσεων οµοιότητας τροχιών και καταγραφή κριτηρίων-σεναρίων χρήσης ανάλογα το πεδίο εφαρµογής και τα χαρακτηριστικά κίνησης των τροχιών Task 2 Ενσωµάτωση ήδη υλοποιηµένων τεχνικών συσταδοποίησης και συναρτήσεων οµοιότητας κάτω από ενιαίο προγραµµατιστικό περιβάλλον (π.χ. C++ή Java). Task 3 Κατασκευή συνόλων δεδοµένων σύµφωνα µε τα διαφορετικά καταγεγραµµένα σενάρια του Task 1, µε χρήση ενός έτοιµου προγράµµατος δηµιουργίας συνθετικών δεδοµένων. Task 4 Πειραµατισµός µε χρήση των αποτελεσµάτων των Tasks 2 & 3, και κριτική καταγραφή των αποτελεσµάτων. Project: Stock-Miner συλλογή και ανάλυση χρηµατιστηριακών δεδοµένων Γεράσιµος Μαρκέτος (marketos@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Πανεπιστήµιο Πειραιώς http://isl.cs.unipi.gr/db

Εισαγωγή & Κίνητρο Ανάπτυξη Συστήµατος Υποστήριξης Αποφάσεων που µπορεί να απευθύνεται σε χρηµατιστές, επενδυτές κτλ. Εφαρµογή τεχνικών αποθήκευσης δεδοµένων και εξόρυξης γνώσης σε χρηµατιστηριακά δεδοµένα Συνδυασµός τεχνολογιών εξόρυξης γνώσης και τεχνικής ανάλυσης 7 ιαθέσιµα δεδοµένα από ΧΑΑ Κατηγοριοποίηση των µετοχών Κλάδοι Κατηγοριοποίηση των µετοχών είκτες Εταιρία Μετοχή εδοµένα στο τέλος κάθε ηµέρας: Τιµή µετοχής Κλείσιµο Ανώτερη και κατώτερη τιµή στην διάρκεια της ηµέρας Όγκος και αξία των συναλλαγών 8

Ηπροτεινόµενη λύση Στόχος: η ανάπτυξη ενός πρωτότυπου συστήµατος για συλλογή, ανάλυση και αξιοποίηση χρηµατιστηριακών δεδοµένων. Θα περιλαµβάνει δυο βασικές λειτουργίες: ιαχείριση χαρτοφυλακίου Ανάλυση δεδοµένων Ώστε (ιδεατά) να µπορεί ο χρήστης να παίρνει συµβουλές σχετικά µε συναλλαγές που πιθανότατα θα του αποφέρουν κέρδος 9 Γενική Αρχιτεκτονική 10

Γενική Αρχιτεκτονική 11 Περιγραφή του Έργου Βασικά εργαλεία: Πλατφόρµα ανάπτυξης:.net Βάση εδοµένων: Microsoft SQL Server (2005 ή 2008) http://www.microsoft.com/sql/default.mspx Ανάλυση δεδοµένων: Microsoft SQL Server BI Suite http://www.microsoft.com/sql/solutions/bi/default.mspx 12

Tasks προς ανάπτυξη Task 1 - ιαχειριστικό περιβάλλον Ορισµός και βασική διαχείριση χαρτοφυλακίου Ενηµέρωση τοπικής βάσης δεδοµένων µε στοιχεία από το ΧΑΑ Task 2 - Λειτουργικότητα Αποθήκευσης και Ανάλυσης Συγκεντρωτικών εδοµένων Cubes, OLAP, Reporting, Task 3 - Λειτουργικότητα Εξόρυξης Γνώσης Εύρεση / οπτικοποίηση συστάδων Εύρεση χρονικών συσχετίσεων (συχνών επεισοδίων) Εντοπισµός ασυνήθιστων / ανώµαλων καταγραφών (outliers) Task 4 - Αξιολόγηση και αξιοποίηση αποτελεσµάτων ανάλυσης 13 Project: Seismo-Surfer συλλογή και ποιοτική ανάλυση σεισµολογικών δεδοµένων http://www.seismo.gr Γεράσιµος Μαρκέτος (marketos@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Πανεπιστήµιο Πειραιώς http://isl.cs.unipi.gr/db

Εισαγωγή & Κίνητρο Τα σεισµολογικά δεδοµένα συλλέγονται από επιστήµονες προκείµενου να µελετηθεί η τεκτονική δραστηριότητα Η αποτελεσµατική διαχείριση και ανάλυση σεισµολογικών δεδοµένων ενδιαφέρει: Επιστήµονες γεωφυσικών επιστηµών Οργανισµούς ηµόσιου Τοµέα Απλούς χρήστες Τα σεισµολογικά δεδοµένα αποτελούνται από διάφορους τύπους δεδοµένων: Αλφαριθµητικά (π.χ. µέγεθος σεισµού) Χωρικά (π.χ. θέση επικέντρου) Χρονικά (χρονική στιγµή συµβάντος) 15 Ηπροτεινόµενη λύση Στόχος: η ανάπτυξηενόςπρωτότυπουσυστήµατος ιαχείρισης και Εξόρυξης Σεισµολογικών εδοµένων που θα βασίζεται σε µια σειρά από τεχνολογίες: Μη παραδοσιακές Βάσεις εδοµένων (χωρο-χρονικές) Αποθήκευση εδοµένων (Data warehousing) Εξόρυξη Γνώσης (Data mining) σε ένα περιβάλλον που θα είναι φιλικό για τον χρήστη 16

ΗαρχιτεκτονικήτουSeismo-Surfer 17 Seismo-Surfer Portal 18

19 1) Spatio-temporal queries 20

1a) Closest-pair queries 21 2) Clustering 22

3) Plotting facilities 23 Περιγραφή του Έργου Θα βασίζεται σε Web τεχνολογίες Βασικά εργαλεία: Πλατφόρµα ανάπτυξης: Java Οπτικοποίηση: Google Maps Βάση εδοµένων: Oracle Database (10g / 11g) http://www.oracle.com/technology/software/products/database/ Ανάλυση δεδοµένων: Oracle Business Intelligence Suite http://www.oracle.com/technology/products/bi/ 24

Tasks προς ανάπτυξη Task 1: Αποθήκευση και Ανάλυση Συγκεντρωτικών εδοµένων Cubes, OLAP, Reporting, Task 2: Λειτουργικότητα Εξόρυξης Γνώσης Εύρεση / οπτικοποίηση συστάδων Εύρεση χρονικών συσχετίσεων Εντοπισµός φαινοµένων, π.χ. Σεισµικές ακολουθίες (κύριος σεισµός, µετασεισµοί) Ασυνήθιστες / ανώµαλες καταγραφές (outliers) 25 Tasks προς ανάπτυξη Task 1: Νέο Interface µε χρήση Google Maps Οπτικοποίηση αποτελεσµάτων ερωτηµάτων κτλ Task 2: Αποθήκευση και Ανάλυση Συγκεντρωτικών εδοµένων Κύβοι, OLAP, 26

Tasks προς ανάπτυξη Task 3: Νέο Interface µε χρήση Google Maps Οπτικοποίηση αποτελεσµάτων ερωτηµάτων κτλ Task 4: Εµπλουτισµός εσωτερικών λειτουργιών Crawler συγκέντρωση σχετικού υλικού από ΜΜΕ Personalization προσαρµογήλειτουργιώνστοπροφίλτου χρήστη 27 Project: Easy-Miner Γεράσιµος Μαρκέτος (marketos@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Πανεπιστήµιο Πειραιώς http://isl.cs.unipi.gr/db

Εισαγωγή & Κίνητρο Ο Easy-Miner φιλοδοξεί να αποτελέσει µια ολοκληρωµένη και αποτελεσµατική πλατφόρµα ανάλυσης δεδοµένων µε χρήση σύγχρονων τεχνολογιών Business Intelligence Απευθύνεται σε διαφορετικές κατηγορίες χρηστών: ΒΙ Experts που θα είναι υπεύθυνοι για τη προσαρµογή του στις εκάστοτε απαιτήσεις Αναλυτές που θα χρησιµοποιούν τη παρεχόµενη λειτουργικότητα Τελικοί χρήστες που θα έχουν πρόσβαση σε συγκεκριµένες αναφορές, KPIs κτλ Καλύπτει όλα τα επίπεδα λήψης απόφασης: Στρατηγικό (strategic BI) Τακτικό (tactical BI) Επιχειρησιακό (operational BI) 29 Γενική Αρχιτεκτονική 30

Περιγραφή του Έργου Βασικά εργαλεία: Πλατφόρµα ανάπτυξης:.net Βάση εδοµένων: Microsoft SQL Server (2005 ή 2008) http://www.microsoft.com/sql/default.mspx Ανάλυση δεδοµένων: Microsoft SQL Server BI Suite http://www.microsoft.com/sql/solutions/bi/default.mspx 31 Tasks προς ανάπτυξη Task 1 - ιαχειριστικό περιβάλλον Ορισµός dashboards για γρήγορη πληροφόρηση Ορισµός χρηστών και δικαιωµάτων πρόσβασης Task 2 - Λειτουργικότητα Αποθήκευσης και Ανάλυσης Συγκεντρωτικών εδοµένων Cubes, OLAP, Reporting, ιαχείριση KPIs Task 3 - Λειτουργικότητα Εξόρυξης Γνώσης Εύρεση / οπτικοποίηση συστάδων Εύρεση κανόνων συσχετίσεων (χωρίς / µε χρονική διάσταση) Εντοπισµός ασυνήθιστων / ανώµαλων καταγραφών (outliers) 32

Project: Mobile Analytics Γεράσιµος Μαρκέτος (marketos@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Πανεπιστήµιο Πειραιώς http://isl.cs.unipi.gr/db Εισαγωγή & Κίνητρο Κίνητρο Κινητά τηλέφωνα και άλλες ασύρµατες συσκευές µας δίνουν τη δυνατότητα να συλλέγουµε δεδοµένα θέσης Οι σηµερινές BI τεχνικές δεν µπορούν να χειριστούν αποτελεσµατικά το νέο αυτό τύπο δεδοµένων (χωροχρονικά δεδοµένα) Υπάρχει αναγκαιότητα για Real-time ανάλυση της πληροφορίας Πρόταση Επέκταση των παραδοσιακών τεχνικών εξόρυξης γνώσης και αποθηκών δεδοµένων Mobile Analytics: το σύνολο των τεχνικών που επεξεργάζονται και αναλύουν δεδοµένα θέσης/τροχιές αντικειµένων 36

Το έργο GeoPKDD Bandwidth/Power optimization Mobile cells planning Traffic Management Accessibility of services Mobility evolution Urban planning. Aggregative Location-based services Telecommunication provider interpretation visualization Public administration or business companies Privacy-aware Data mining GeoKnowledge trajectory reconstruction p(x)=0.02 ST patterns warehouse Trajectory warehouse Privacy enforcement 37 Γενική Αρχιτεκτονική data analyst (desktop) location data (obj-id, x, y, t) (not trajectories) are generated data producers (mobile) web service Trajectory warehouse trajectory data cube trajectory database custom s/w trajectory stream manager GIS infrastructure (road network, etc.) is considered geolayers aggregated trajectory data are computed (ETL procedure) trajectory data (obj-id, traj-id, (x, y, t) + ) are reconstructed 38

Ηπροτεινόµενη λύση Στόχος: η ανάπτυξησυστήµατος ανάλυσης δεδοµένων τροχιών αντικειµένων µε σύγχρονες τεχνολογίες: Αποθήκευσης εδοµένων (Trajectory Data Warehousing) Εξόρυξης Γνώσης από δεδοµένα (Trajectory Data Mining) 39 Περιγραφή του Έργου Θα βασίζεται σε Web τεχνολογίες Βασικά εργαλεία: Πλατφόρµα ανάπτυξης:.net / Java Οπτικοποίηση: Google Maps Βάση εδοµένων: Oracle Database (10g / 11g) http://www.oracle.com/technology/software/products/database/ Ανάλυση δεδοµένων: Oracle Business Intelligence Suite http://www.oracle.com/technology/products/bi/ 40

Tasks προς ανάπτυξη Task 1: Αποθήκευση και Ανάλυση Συγκεντρωτικών εδοµένων Cubes, OLAP, Reporting, Task 2: Λειτουργικότητα Εξόρυξης Γνώσης Εύρεση / οπτικοποίηση συστάδων Εύρεση αντιπροσωπευτικών τροχιών = cell 41 Tasks προς ανάπτυξη Πρόβλεψη µελλοντικής θέσης 20% 7%? 5% 60% 8% Task 3: Οπτικοποίηση µε χρήσηgoogle Maps Οπτικοποίηση τροχιών, αποτελεσµάτων ερωτηµάτων, ανάλυσης κτλ GeoPKDD - An Overview 42

NetFlix Competition πρόβλεψη συµπεριφοράς χρηστών «µε βάσητιςπροτιµήσεις σε ταινίες ενός χρήστη, πρόβλεψε κατά πόσο θα του αρέσει µία νέα ταινία» Ειρήνη Ντούτση (ntoutsi@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς Ο διαγωνισµός NetFlix Οκτώβριος 2006 Οκτώβριος 2011 Χρηµατικό έπαθλο $1 εκατοµµύριο δολάρια για βελτίωση της απόδοσης του τρέχοντος NetFlix ταξινοµητή κατά 10% Στόχος είναι να δηµιουργηθεί ένας ταξινοµητής (classifier) που θα προβλέπει σε τι βαθµό θααρέσειµία ταινία σε ένα χρήστη. Ένα σύνολο δεδοµένων από προτιµήσεις χρηστών (training set) δίνεται από τους διοργανωτές και µε βάσηαυτόθαπρέπεινα χτιστεί ένα µοντέλο πρόβλεψης, το οποίο στη συνέχεια θα πρέπει να αξιολογηθεί µε βάσηένασύνολοδεδοµένων ελέγχου (test set) που επίσης δίνεται από τους διοργανωτές.

ιαθέσιµα δεδοµένα εδοµένα εκπαίδευσης (training set): ένα σύνολο από χρήστες και οι βαθµολογίες (1,2,3,4,5 αστέρια) που έδωσαν αυτοί στις ταινίες. > 100.000.000 βαθµολογίες από 480.000 τυχαία επιλεγµένους χρήστες για περίπου 18.000 ταινίες εδοµένα ελέγχου (test set): ένα σύνολο της µορφής (χρήστης, ταινία) µεβάσητα οποία θα αξιολογηθεί η ποιότητα του ταξινοµητή. >2.8 εκατοµµύρια ζεύγη της µορφής (πελάτης, ταινία) χωρίς όµως τη βαθµολογία του πελάτη για την εν λόγω ταινία. 45 Γιατί χρειάζεται ένας ταξινοµητής Παροχή πιο «εξατοµικευµένων» υπηρεσιών στους χρήστες, π.χ. αν κάποιον δεν αρέσουν τα θρίλερ µην κάνεις τον κόπο να του προτείνεις κάποια ταινία αυτού του είδους Στοχευόµενη διαφήµιση 46

Οσκοπόςµας Να αναπτύξουµεένακαλόµοντέλο πρόβλεψης για τις προτιµήσεις των χρηστών Περιγραφή του Έργου Αν και περιβάλλον ανάπτυξης θα το αποφασίσουµεαπόκοινού, υπάρχουν κάποιες σκέψεις: Java oriented: Weka για την ανάλυση δεδοµένων www.cs.waikato.ac.nz/ml/weka/ Java για development Microsoft oriented: Μicrosoft SQL Server BI Suite για την ανάλυση δεδοµένων http://www.microsoft.com/sql/solutions/bi/default.mspx.net για development 48

Επιµέρους εργασίες / tasks Task 1 Κατανόηση προβλήµατος Ποιο είναι το πρόβληµα Γνωριµία µε ταδεδοµένα που έχουµε στηδιάθεσήµας Τι έχει γίνει από άλλες οµάδες Task 2 ηµιουργία µοντέλου πρόβλεψης έντρα απόφασης (Decision trees) Ensembles of decision trees Νευρωνικά δίκτυα (Neural Networks) Συστάδες (Clustering) άλλες τεχνικές Task 3 - Αξιολόγηση αποτελεσµάτων ανάλυσης Τα tasks 1,3 είναι κοινά για όλες τις οµάδες, ενώ για το task 2 κάθε οµάδα µπορεί να επιλέξει διαφορετικό µοντέλο πρόβλεψης 49 Εξόρυξη γνώσης από κείµενα εφαρµογή τεχνικών εξόρυξης γνώσης σε δεδοµένα κειµένου Ειρήνη Ντούτση (ntoutsi@unipi.gr) Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς

Εισαγωγή & Κίνητρο H πλειοψηφία των δεδοµένων σήµερα (περίπου το 80% του όγκου των δεδοµένων) διατίθενται µε τηµορφή µη δοµηµένων κειµένων Emails, Websites, Blogs, Chats Επιστηµονικές εργασίες, ηλεκτρονικά βιβλία Εταιρικά έγγραφα το ποσοστό αυτό αναµένεται να αυξάνεται συνεχώς λόγω της εξάπλωσης της χρήσης του διαδικτύου και της ηλεκτρονικής επικοινωνίας. Συνεπώς, υπάρχει ανάγκη για εξόρυξη γνώσης από τον τεράστιο όγκο δεδοµένων σε µορφή κειµένου και ο στόχος αυτής της εργασίας είναι η εξοικείωση µε τέτοιες τεχνικές Επιµέρους εργασίες / tasks - 1 Task 1 Αξιολόγηση άρθρων Αναφέρεται ένα άρθρο µε θετικό ή αρνητικό τρόπο σε ένα θέµα; Εφαρµογή 1: σχόλια σε ταινίες (π.χ. athinorama) Ποια σχόλια αναφέρονται θετικά/ αρνητικά σε µία ταινία Εφαρµογή 2: ειδήσεις π.χ. αθλητικά Ποια άρθρα αναφέρονται µε θετικότρόποστοθέµα π.χ. «προπονητής ολυµπιακού» Task 2 Περίληψη άρθρου (document summarization) Εξαγωγή µίας σύνοψης/ περίληψης από ένα άρθρο ή από µία οµάδα άρθρων Στόχος είναι η µείωση του όγκου ενός άρθρου, χωρίς ωστόσο να χαθεί σηµαντική πληροφορία Εφαρµογή: δεδοµένα ειδήσεων, επιστηµονικά άρθρα

Επιµέρους εργασίες / tasks Task 3 Κατηγοριοποίηση κειµένου (document categorization) οθέντος ενός συνόλου από προκαθορισµένες κατηγορίες ανέθεσε νέα άρθρα σε κάποια από τις κατηγορίες αυτές Εφαρµογή: δεδοµένα ειδήσεων, επιστηµονικά άρθρα Task 4 Οµαδοποίηση κειµένων (document clustering) Οµαδοποίησε ένα σύνολο άρθρων σε οµάδες µεβάσητηνοµοιότητά τους. Εφαρµογή: δεδοµένα ειδήσεων, επιστηµονικά άρθρα