EmoTube: Ένα Ενοποιημένο Περιβάλλον Συναισθηματικής Ανάλυσης για Περιεχόμενο Κοινωνικού Ιστού



Σχετικά έγγραφα
ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Υπηρεσίες Ιστού (Web Services) ΜΙΧΑΛΗΣ ΜΑΛΙΑΠΠΗΣ

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Η χρήση των wikis στις βιβλιοθήκες: δημιουργία "διαδραστικών" συλλογώναποθετηρίων. Το wiki της Βιβλιοθήκης του Μουσείου Μπενάκη.

Σχεδίαση και Ανάπτυξη Ιστότοπων

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Ανάπτυξη πλήρους διαδικτυακής e-commerce εφαρμογής με χρήση του CMS WordPress

Ηλεκτρονικό Επιχειρείν & Νέες Τεχνολογίες για Επιχειρηματικότητα ΔΕΟ45

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Πληροφοριακά Συστήματα Διοίκησης

Ανάκτηση Πληροφορίας

"Αθηνά" - Ερευνητικό Κέντρο Καινοτομίας στις Τεχνολογίες της Πληροφορίας, των Επικοινωνιών και της Γνώσης

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

Ανοιχτά Λογισμικά Βιβλιοθηκών & Web 2.0 Το παράδειγμα του Koha

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Πληροφοριακά Συστήματα Διοίκησης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία. AtYourService CY : Create a REST API. Δημήτρης Χριστοδούλου

Αξιοποίηση κοινωνικών δικτύων στην εκπαίδευση Αλέξης Χαραλαμπίδης Γραφικές Τέχνες / Πολυμέσα Ενότητα Ιανουαρίου 2015

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΤΕΧΝΟΛΟΓΙΩΝ ΔΙΑΔΙΚΤΥΑΚΩΝ ΥΠΗΡΕΣΙΩΝ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ REST ΠΛΑΣΤΑΡΑΣ ΕΥΡΙΠΙΔΗΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΚΑΤΑΛΟΓΟΣ ΕΚΠΑΙΔΕΥΣΗΣ

Ηλεκτρονικά Μαθήματα και Χώροι Συνεργασίας

Εισαγωγη στα SOCIal MEDIA

Κοινωνικά Δίκτυα & Καλές Περιβαλλοντικές Πρακτικές

ΕΡΕΥΝΗΤΙΚΗ ΕΡΓΑΣΙΑ Α_ΤΕΤΡΑΜ_ ΕΣΠΕΡΙΝΟ ΛΥΚΕΙΟ ΛΑΡΙΣΑΣ. ΘΕΜΑ: E-LEARNING Αντζελα Πιετρη-Αριστελα Γκιονι ESPERINO LYKEIO LARISAS

ΨΗΦΙΑΚΉ ΠΛΑΤΦΌΡΜΑ ΧΩΡΙΚΏΝ ΔΕΔΟΜΈΝΩΝ ΓΙΑ ΤΗΝ ΤΟΠΙΚΉ ΑΥΤΟΔΙΟΊΚΗΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Ανίχνευση απαιτήσεων χρηστών για υπηρεσίες ψηφιακών βιβλιοθηκών μέσα από ποιοτικές μεθοδολογικές προσεγγίσεις

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Eρευνητική εργασία Β Λυκείου με θέμα: Κοινωνικά δίκτυα στην εκπαίδευση, νέα εργαλεία, νέες προοπτικές, νέες προκλήσεις

Ως Διαδίκτυο (Internet) ορίζεται το παγκόσμιο (διεθνές) δίκτυο ηλεκτρονικών υπολογιστών (international network).

ΤΕΧΝΟΛΟΓΙΕΣ ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ

3 ο ΓΕΛ Τρικάλων ΟΔΥΣΣΕΑΣ ΕΛΥΤΗΣ. Ιστολόγια και κοινότητες

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Εξέλιξη των Τεχνολογιών και Υπηρεσιών του Παγκόσμιου Ιστού και Εφαρμογές στην Εκπαίδευση. Oμάδα Ά

Liveschool Marketing Services

Νεογεωγραφία και Χαρτογραφική Διαδικτυακή Απεικόνιση. Η χρήση Ελεύθερων Γεωγραφικών Δεδομένων και Λογισμικού Ανοιχτού Κώδικα σε Φορητές Συσκευές.

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

Πρότυπα και Τεχνολογίες Semantic Web και Web 2.0 και η εφαρμογή τους στην Ηλεκτρονική Διακυβέρνηση

Οι διαδικασίες ενος CMS είναι σχεδιασμένες για να:

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

Οδηγός Ηλεκτρονικού Επιχειρείν

Speed-0 WMP: Web and Mobile Platform Software Requirements Specification

8ο Πανελλήνιο Συμποσιο Ωκεανογραφίας & Αλιείας 637

ΠΛΑΤΩΝΑΣ Έργο ΓΓΕΤ 1SME2009

ΜΕΛΕΤΗ ΣΧΕΔΙΑΣΗ ΕΦΑΡΜΟΓΗΣ ΣΕ ΥΠΟΛΟΓΙΣΤΙΚΟ ΝΕΦΟΣ (CLOUD COMPUTING) ΜΕ ΕΜΦΑΣΗ ΣΤΗΝ ΚΑΤΑΣΚΕΥΗ ΔΕΝΤΡΩΝ.

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Δυναμική προσωποποιημένη ενημέρωση προσφορών Super Markets στη Θεσσαλονίκη

Θέματα Ατομικής Διπλωματικής Εργασίας - DRAFT Ακαδημαϊκό Έτος 2015/2016. Γεωργία Καπιτσάκη (Λέκτορας)

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) στις Μικρομεσαίες Επιχειρήσεις (ΜΜΕ)

ΔΙΑΣΥΝΔΕΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΙΣΤΟΣΕΛΙΔΩΝ ΣΕ ΕΝΙΑΙΟ ΠΕΡΙΒΑΛΛΟΝ: ΕΦΑΡΜΟΓΗ ΣΤΟΝ ΙΣΤΟΤΟΠΟ ΤΗΣ ΣΧΟΛΗΣ ΧΗΜΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΕΜΠ

Ανοικτά Δεδομένα. Η εμπειρία του OpenDataCloud

Εργαλεία αλεία & Τεχ Τε νολο γίες ίε ς του Συμμετοχικού Συμμετοχικού Διαδικτύου (Web 2.0) για για την Προώθηση ροώθηση του Ο Οίνου ίνου &

Γεω-χωρικές υπηρεσίες και τεχνολογίες WEB. Βασίλειος Βεσκούκης Μηχανικός ΗΥ, Επ.Καθ. ΕΜΠ

Τι διαφορά έχει μια ιστοσελίδα του Διαδραστικού Ιστού web 2.0 από εκείνη του Στατικού Ιστού web 1.0;

Καινοτόμες Διαδυκτιακές Εφαρμογές και Απασχόληση. Ανδρουλακάκης Νικόλαος Αντιπεριφερειάρχης Αττικής Σε θέματα Ηλεκτρονικής Διακυβέρνησης & Διαφάνειας

Eκπαίδευση Εκπαιδευτών Ενηλίκων & Δία Βίου Μάθηση

Web 1.0, Web 2.0, Σύγχρονη Μάθηση από Απόσταση

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Don t hire us if you want average. We only do exceptional.

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING

Διερεύνηση της αλληλεπίδρασης των συμμετεχόντων στα Εθνικά Θεματικά Δίκτυα Ερωτηματολόγιο Υπεύθυνων Συντονιστών

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Η Διαλειτουργικότητα στην Υπηρεσία του Πολίτη

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

Ονομάζομαι Βασιλάκος Γιάννης και είμαι Αντιπρόεδρος και Διευθύνων. Σύμβουλος της Κωτσόβολος, εταιρίας του Ομίλου Dixons Carphone με

Η Veritas ανακοινώνει λύσεις Enterprise Data Management μέσω του NetBackup 8.0

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

φιλοξενία & διαχείριση ιστοσελίδων

4/2014 ΣΥΝΟΠΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΥΔΡΟΛΗΨΙΕΣ ΑΤΤΙΚΗΣ ΑΠΟΚΕΝΤΡΩΜΕΝΗ ΔΙΟΙΚΗΣΗ ΑΤΤΙΚΗΣ ΔΙΕΥΘΥΝΣΗ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΧΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Crowdsourcing, Eφαρμογές για τον εμπλουτισμό δημόσιου περιεχομένου Ανοιχτά δεδομένα - Η διάσταση της ανάπτυξης μέσα από ψηφιακή καινοτομία

Διπλωματικές των κ. Ι. Βλαχάβα και Ν. Βασιλειάδη

A J A X AJAX Γιάννης Αρβανιτάκης

Social Media. Chapter 2 Social Media Marketing

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΡΟΓΡΑΜΜΑΤΑ «ΑΝΤΑΓΩΝΙΣΤΙΚΟΤΗΤΑ & ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ» ΚΑΙ ΠΕΡΙΦΕΡΕΙΩΝ ΣΕ ΜΕΤΑΒΑΣΗ ΕΘΝΙΚΟ ΣΤΡΑΤΗΓΙΚΟ ΠΛΑΙΣΙΟ ΑΝΑΦΟΡΑΣ ΕΣΠΑ

Τεχνολογίες Πληροφορίας και Επικοινωνίας στον Τουρισμό (Γ εξάμηνο)

DeSqual Ενότητες κατάρτισης 1. Ενδυνάμωση των εξυπηρετούμενων

ποτελεσματικότητα διαδικασίες sms ταχύτητα οργανόγραμμα ανάθεσηαρχειοθέτηση υτοματοποιημένη εκτέλεση ψηφιακή υπογραφή ISO ενημερώσεις διαγράμματα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Λιόλιου Γεωργία. ιατµηµατικό Πρόγραµµα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήµατα

Συστήματα Πολυμέσων. Ανάπτυξη Πολυμεσικών Εφαρμογών Ι

Σχεδιαστικά Προγράμματα Επίπλου

ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΕΠΙΧΕΙΡΗΣΙΑΚΩΝ ΠΟΡΩΝ

WHEN INFORMATION IS YOUR MOST IMPORTANT ASSET. Ολοκληρωμένες και ειδικά σχεδιασμένες λύσεις διαχείρισης και διανομής περιεχομένου

Επικοινωνία Ανθρώπου- Υπολογιστή Σχεδίαση Αλληλεπίδρασης

BetaCMS. Επισκόπηση. BetaCONCEPT

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Χρήσιμα web 2.0 tools. Εκπαιδευτική αξιοποίηση

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ web εφαρµογής - ηλεκτρονικού κατατήµατος για έξυπνα κινητά

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» ΤΜΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ EmoTube: Ένα Ενοποιημένο Περιβάλλον Συναισθηματικής Ανάλυσης για Περιεχόμενο Κοινωνικού Ιστού Διπλωματική Εργασία της Πολύμερου Ευαγγελίας (ΑΕΜ: 380) Εξεταστική Επιτροπή Επιβλέπων: Βακάλη Αθηνά Μέλη: Πετρίδου Ευγενία Σταμέλος Ιωάννης ΘΕΣΣΑΛΟΝΙΚΗ ΜΑΡΤΙΟΣ 2013

-ii-

Πρόλογος Η παρούσα διπλωματική εργασία εκπονήθηκε στο πλαίσιο του Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών «Πληροφορική και Διοίκηση» των Τμημάτων Πληροφορικής και Οικονομικών Επιστημών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Αντικείμενο της εργασίας είναι η μελέτη, ο σχεδιασμός και η ανάπτυξη μίας web mashup εφαρμογής η οποία θα προκύπτει από τον συνδυασμό των πληροφοριών που παρέχουν το κοινωνικό δίκτυο YouTube, το Google Maps και το λεξικό SentiWordNet. Η σύνθεση των τριών πηγών άντλησης δεδομένων έχει ως στόχο την αποτύπωση της συναισθηματικής κατάστασης των χρηστών του YouTube πάνω σε χάρτη. Στο σημείο αυτό θα ήθελα να ευχαριστήσω θερμά την επιβλέπουσα καθηγήτρια της διπλωματικής εργασίας, κα Αθηνά Βακάλη, Αναπληρώτρια Καθηγήτρια του Τμήματος Πληροφορικής, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, για τη καθοδήγησή της κατά τη διάρκεια της έρευνας και υλοποίησης της εργασίας και τη συμβουλευτική της υποστήριξη σε όλη την περίοδο της φοίτησής μου στο Μεταπτυχιακό Πρόγραμμα Σπουδών. Επιπλέον, θα ήθελα να εκφράσω τις ευχαριστίες μου στην υποψήφια Διδάκτωρ κα Δέσποινα Χατζάκου, μέλος της ερευνητικής ομάδας του τμήματος, για την εποικοδομητική συνεργασία και την πολύτιμη συνεισφορά της στη διεκπεραίωση της διπλωματικής εργασίας. Τέλος, νιώθω την ανάγκη να ευχαριστήσω την οικογένειά μου και τους φίλους μου που με στήριξαν καθ όλη τη διάρκεια των σπουδών μου. Πολύμερου Ευαγγελία Μάρτιος 2013 -i-

-ii-

Περίληψη Η εμφάνιση του Διαδικτύου (Internet) έχει αλλάξει σημαντικά τον τρόπο με τον οποίο οι σύγχρονοι άνθρωποι επικοινωνούν μεταξύ τους και εκφράζουν τις προσωπικές τους απόψεις. Η διαδραστική συμπεριφορά των χρηστών του Διαδικτύου δημιουργεί νέες και μετρήσιμες πηγές γνώσης και πληροφόρησης οι οποίες είναι υπεύθυνες για τη σύνθεση ποικίλων, χρήσιμων και καινοτόμων εφαρμογών τόσο για το κοινό όσο και για τις επιχειρήσεις. Η συνεχής εξέλιξη του Παγκόσμιου Ιστού (World Wide Web) έφερε στο προσκήνιο μία μεγάλη πληθώρα web υπηρεσιών, εφαρμογών και τεχνολογιών, όπως ιστολόγια, κοινωνικά δίκτυα και διαμοίραση πολυμεσικού περιεχομένου που επιτρέπουν την αλληλεπίδραση μεταξύ των χρηστών. Ιδίως, οι υπηρεσίες που προσφέρουν τα mashups αποτελούν ένα προσοδοφόρο πεδίο για έρευνα, ανάπτυξη και καινοτομία. Έχοντας ως σημείο αναφοράς τη διαλειτουργικότητα και τη δυναμικότητα του περιεχομένου όροι που βρίσκονται κάτω από την ομπρέλα του Web 2.0 τα mashups συνδυάζουν διαφορετικούς τύπους δεδομένων, συμβατές τεχνολογίες και web υπηρεσίες. Επιπρόσθετα, αυτές οι ενοποιημένες πλατφόρμες εκδηλώνονται με τη συμβολή νέων επιχειρηματικών μοντέλων, νέων τεχνολογικών εργαλείων και έξυπνων μεθόδων επεξεργασίας, διαμοίρασης και διαδικτυακής παρουσίασης των πληροφοριών. Σκοπός της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη της «EmoTube» mashup πλατφόρμας σύμφωνα με τις θεωρητικές προσεγγίσεις των mashups και της Συναισθηματικής Ανάλυσης, τα Web 2.0 πρότυπα και τις mashup τεχνολογικές προδιαγραφές σύγκλισης πηγών γνώσης που απαιτούνται. Πιο συγκεκριμένα, αυτή η εργασία παρουσιάζει ένα ενοποιημένο διαδικτυακό περιβάλλον τοποκεντρικής αποτύπωσης των συναισθημάτων των χρηστών του κοινωνικού δικτύου YouTube που εκφράζουν στα σχόλιά τους. Η υλοποίηση αυτής της διαδικτυακής εφαρμογής έχει ως κύριο στόχο να παρουσιάσει με δυναμικό τρόπο εξατομικευμένες πληροφορίες σε εξειδικευμένους χρήστες προσφέροντάς τους άμεση και γρήγορη ενημέρωση μέσα από τη συναισθηματική καταγραφή του πολυμεσικού περιεχομένου του Κοινωνικού Ιστού. Λέξεις-κλειδιά: Web 2.0, Mashups, Κοινωνικά Δίκτυα, YouTube, Google Maps, Συναισθηματική Ανάλυση, APIs, User-Generated Content. -iii-

Abstract The emergence of Internet has considerably changed the way contemporary people communicate with each other and express their personal opinions. The Internet users interactive behavior generates new and measurable sources of knowledge and information which are liable to compose a variety of useful and innovative applications for both the public and businesses. The continuous evolution of the World Wide Web brought to the forefront a plethora of web services, applications, and technologies such as blogs, social networks, and sharing of multimedia content which enable interaction among users. Particularly, services offered by mashups comprise a prosperous field for research, development, and innovation. Interoperability and dynamic display of the content being the starting point terms under the umbrella of Web 2.0 by means of which mashups combine disparate types of data, compatible technologies, and web services. Furthermore, these integrated platforms occur with the contribution of new business models, new technological tools, and smart processing, sharing, and online presenting information techniques. The purpose of this thesis is to develop the «EmoTube» mashup platform according to the theoretical background of mashups and Sentiment Analysis, Web 2.0 standards, and mashup technological specifications for the convergence of required knowledge resources. More precisely, this work presents an integrated web environment which captures locally the emotions of the social network YouTube users expressed in their comments. The main goal of the implementation of this web application is to present dynamically personalized information to specialized users by providing them prompt and rapid information through the sentiment recording of Social Web multimedia content. Keywords: Web 2.0, Mashups, Social Networks, YouTube, Google Maps, Sentiment Analysis, APIs, User-Generated Content. -iv-

Περιεχόμενα ΠΡΟΛΟΓΟΣ... I ΠΕΡΙΛΗΨΗ... III ABSTRACT... IV ΠΕΡΙΕΧΟΜΕΝΑ... V 1 ΕΙΣΑΓΩΓΗ... 1 2 ΕΠΙΣΚΟΠΗΣΗ ΒΙΒΛΙΟΓΡΑΦΙΑΣ... 5 2.1 ΔΙΕΡΕΥΝΗΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ... 5 2.1.1 Σφαιρική Προσέγγιση... 5 2.1.2 Προσέγγιση Εμπνευσμένη από τη Θεμελιώδη Θεωρία... 8 2.1.3 Θεματο-κεντρική Προσέγγιση... 9 2.1.4 Προσέγγιση Ανάλυσης Πολλαπλών Γλωσσών... 11 2.1.5 Προσέγγιση Αλλαγών σε Επίπεδο Διάθεσης... 12 2.1.6 Προσέγγιση Προβλέψεων σε Επίπεδο Διάθεσης... 13 2.1.7 Προσέγγιση Προσανατολισμένη στο Χρήστη... 14 2.1.8 Προσέγγιση Προσανατολισμένη στο Στοιχείο... 16 2.1.9 Προσέγγιση Προσανατολισμένη στο Λεξικό... 18 2.2 WEB 2.0... 20 2.2.1 Ορισμός... 21 2.2.2 Χαρακτηριστικά του Web 2.0... 23 3 ΕΝΟΠΟΙΗΜΕΝΕΣ ΕΦΑΡΜΟΓΕΣ ΑΠΟ ΠΗΓΕΣ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ... 25 3.1 MASHUPS ΚΑΙ WEB 2.0... 25 3.2 ΟΡΙΣΜΟΣ... 26 3.3 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΚΑΙ ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΤΩΝ MASHUPS... 26 3.3.1 Πλεονεκτήματα... 27 3.3.2 Μειονεκτήματα... 28 3.4 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΩΝ MASHUPS... 28 3.4.1 Επίπεδα Αρχιτεκτονικής... 29 -v-

3.5 ΜΟΡΦΕΣ ΤΩΝ MASHUPS... 37 3.5.1 Web-based Mashups... 37 3.5.2 Server-based Mashups... 37 3.6 ΤΥΠΟΙ ΔΕΔΟΜΕΝΩΝ... 38 3.7 ΤΥΠΟΙ ΤΩΝ MASHUPS... 38 3.7.1 Πελατοκεντρικά Mashups... 38 3.7.2 Επιχειρηματικά Mashups... 39 3.7.3 Mashups Δεδομένων... 40 3.7.4 Άλλοι Τύποι Mashups... 40 3.8 ΤΑΣΕΙΣ ΤΩΝ MASHUPS... 41 3.8.1 Κορυφαία Mashups... 42 4 ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ... 45 4.1 ΣΥΝΑΙΣΘΗΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ WEB 2.0... 46 4.2 ΟΡΙΣΜΟΣ... 47 4.3 ΜΕΘΟΔΟΛΟΓΙΕΣ ΤΗΣ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ... 48 4.3.1 Μέθοδοι Δημιουργίας Λεξικών... 48 4.3.2 Μέθοδοι Μηχανικής Μάθησης... 50 4.3.3 Σύγκριση Μεθόδων... 51 4.4 ΟΦΕΛΗ ΚΑΙ ΔΥΣΚΟΛΙΕΣ ΤΗΣ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ... 52 4.4.1 Πλεονεκτήματα... 52 4.4.2 Ανοιχτά Προβλήματα... 53 4.5 ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΗΣ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ... 54 4.5.1 Συναισθηματική Ταξινόμηση... 54 5 ΑΠΟΤΥΠΩΣΗ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΚΛΙΜΑΚΑΣ ΣΕ ΠΟΛΥΜΕΣΙΚΟ ΠΕΡΙΕΧΟΜΕΝΟ ΙΣΤΟΥ... 59 5.1 ΠΟΛΥΜΕΣΙΚΟ ΠΕΡΙΕΧΟΜΕΝΟ ΙΣΤΟΥ... 59 5.1.1 YouTube... 60 5.2 ΓΕΩΓΡΑΦΙΚΗ ΟΡΙΟΘΕΤΗΣΗ WEB 2.0 ΠΕΡΙΕΧΟΜΕΝΟΥ... 63 5.2.1 Google Maps... 64 5.3 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΣΥΝΑΙΣΘΗΜΑΤΩΝ ΣΤΟΝ ΚΟΙΝΩΝΙΚΟ ΙΣΤΟ... 65 5.3.1 Συναισθήματα... 65 5.4 ΠΛΑΙΣΙΟ ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΚΑΤΑΓΡΑΦΗΣ... 67 -vi-

6 EMOTUBE: ΣΧΕΔΙΑΣΗ ΚΑΙ ΥΛΟΠΟΙΗΣΗ MASHUP ΣΥΝΑΙΣΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ ΓΙΑ YOUTUBE... 69 6.1 ΑΡΧΕΣ ΣΧΕΔΙΑΣΗΣ EMOTUBE... 69 6.2 ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΗΝ ΥΛΟΠΟΙΗΣΗ EMOTUBE... 74 6.2.1 YouTube API... 74 6.2.2 Google Maps API... 75 6.2.3 SentiWordNet Lexicon... 76 7 ΤΟ ΠΕΡΙΒΑΛΛΟΝ EMOTUBE ΣΤΗΝ ΠΡΑΞΗ... 79 7.1 ΣΕΝΑΡΙΑ ΧΡΗΣΗΣ... 82 7.1.1 Πρώτο Σενάριο... 82 7.1.2 Δεύτερο Σενάριο... 84 8 ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ... 87 ΒΙΒΛΙΟΓΡΑΦΙΑ... 89 -vii-

-viii-

1 Εισαγωγή Η σύγχρονη πραγματικότητα υποδηλώνει εμφανώς την πανταχού παρουσία του Διαδικτύου (Internet) στις ζωές των ανθρώπων. Μέσα από το ευρύ φάσμα πόρων και υπηρεσιών πληροφόρησης που παρέχουν τα διασυνδεδεμένα έγγραφα υπερκειμένου του Παγκόσμιου Ιστού (World Wide Web) οι χρήστες του Διαδικτύου έχουν τη δυνατότητα να αναζητούν πληροφορίες που τους ενδιαφέρουν και να ανταλλάσουν απόψεις με τη συμμετοχή τους σε κοινωνικά δίκτυα (π.χ. Facebook 1 και Twitter 2 ), ιστολόγια και άλλα μέσα κοινωνικής δικτύωσης σε πραγματικό χρόνο και από οποιαδήποτε μέρος του πλανήτη. Επιπλέον, οι web χρήστες μπορούν να έχουν πρόσβαση σε μεγάλο όγκο δεδομένων και να ενημερώνονται ανά πάσα στιγμή για ότι συμβαίνει γύρω τους. Πέρα από αυτό, όμως, το Διαδίκτυο θεωρείται ένα ζωτικής σημασίας μέσο για τις επιχειρήσεις, καθώς οι ίδιες έχουν την ευκαιρία να προωθούν τα προϊόντα και τις υπηρεσίες τους χωρίς ιδιαίτερο κόστος και χάσιμο χρόνου σε παγκόσμιο επίπεδο. Ταυτόχρονα, μπορούν να παρέχουν χρήσιμες πληροφορίες για τα προϊόντα και τις υπηρεσίες που προσφέρουν, προσωπικές απόψεις, κριτικούς σχολιασμούς και εμπειρίες πελατών από την αγορά τους. Μία από τις κατηγορίες υπηρεσιών που παρουσιάζει μεγάλη ανάπτυξη στο χώρο του Διαδικτύου είναι η διαμοίραση πολυμεσικού περιεχομένου. Οι πιο γνωστές web υπηρεσίες αυτού του είδους είναι το YouTube 3 με το διαμοιρασμό videos και το Flickr 4 με τη διαμοίραση φωτογραφιών οι οποίες στηρίζονται στη βασική ιδέα του Παγκόσμιου Ιστού. Αυτό σημαίνει πως οι χρήστες δεν είναι πλέον παθητικοί αποδέκτες-καταναλωτές υπηρεσιών, αλλά συνεισφέρουν ενεργά στη παραγωγή του web περιεχομένου. Η ανάπτυξη των υπηρεσιών αυτών οφείλεται κατά κύριο λόγο στην υιοθέτηση υψηλής ποιότητας και χαμηλού κόστους ψηφιακών τεχνολογικών συσκευών, όπως βιντεοκάμερες. 1 http://www.facebook.com/ 2 https://twitter.com/ 3 http://www.youtube.com/ 4 http://www.flickr.com/ -1-

Μία εξίσου ενδιαφέρουσα και συνεχώς εξελισσόμενη κατηγορία web υπηρεσιών είναι τα mashups και οι διάφοροι τύποι αυτών (π.χ. data mashups). Ο τεράστιος όγκος διαθέσιμου περιεχομένου στο χώρο του Διαδικτύου και η συνεπακόλουθη δυσκολία αναζήτησης και εύρεσης δεδομένης πληροφόρησης χωρίς χάσιμο πολύτιμου χρόνου από τη μεριά των χρηστών έφεραν στο προσκήνιο αυτά τα νέα τεχνολογικά εργαλεία. Η κύρια λειτουργία των ενοποιημένων εφαρμογών είναι ο συνδυασμός δεδομένων από διαφορετικές πηγές και η δημιουργία νέων υπηρεσιών. Χάρις την ελκυστική και καλά οργανωμένη παρουσίαση των πληροφοριών τα mashups προσπαθούν να ικανοποιήσουν τις ολοένα και αυξανόμενες ανάγκες των web χρηστών. [28] Ένα από τα κυριότερα προβλήματα που αντιμετωπίζουν τα τελευταία χρόνια οι συνεχώς εξελισσόμενες εφαρμογές είναι η αύξηση του επιπέδου πολυπλοκότητας, καθώς προσπαθούν να συνδυάσουν ετερογενείς πηγές δεδομένων μεταξύ τους. Η έλλειψη, ακόμη, προτύπων καθιστά δύσκολη τη σχεδίαση και την υλοποίηση μίας mashup πλατφόρμας δημιουργώντας ζητήματα διασφάλισης προσωπικών και εταιρικών δεδομένων. [5] Παράλληλα με τα mashups, έχουν αναπτυχθεί μηχανισμοί Συναισθηματικής Ανάλυσης (Sentiment Analysis), όπως η δημιουργία συναισθηματικών λεξικών με σκοπό τον εντοπισμό, τη καταγραφή και τη κατανόηση των καταγεγραμμένων υποκειμενικών απόψεων και των συναισθημάτων των χρηστών. Καθώς, τόσο οι άνθρωποι όσο και οι επιχειρήσεις παρουσιάζουν ιδιαίτερο ενδιαφέρον για τις γνώμες των χρηστών-πελατών σε ιστοχώρους και μέσα κοινωνικής δικτύωσης αφού επηρεάζονται από αυτές σε μεγάλο βαθμό. Ωστόσο, ο τομέας της Συναισθηματικής Ανάλυσης συναντά μερικές σημασιολογικές δυσκολίες. Εξαιτίας της δύσκολης προσέγγισης του τρόπου έκφρασης των ανθρώπινων συναισθημάτων στο γραπτό λόγο, οι μεθοδολογίες της Ανάλυσης Συναισθημάτων αντιμετωπίζουν το πρόβλημα της αμφισημίας των λέξεων και των φράσεων. Αυτό υποδηλώνει ότι μία λέξη μπορεί να προσδιορίζεται ταυτόχρονα ως θετική και ως αρνητική μέσα σε μία πρόταση. [20] Στην παρούσα διπλωματική εργασία παρουσιάζεται το ενοποιημένο περιβάλλον EmoTube με σκοπό τη χαρτογραφική αποτύπωση των αποτελεσμάτων της Συναισθηματικής Ανάλυσης των προσωπικών σχολιασμών των χρηστών του κοινωνικού δικτύου YouTube. -2-

Η συνεισφορά της εργασίας συνοψίζεται ως ακολούθως: Προτείνει ένα πλαίσιο συναισθηματικής καταγραφής των σχολιασμών των web χρηστών μέσα από την υλοποίηση μίας ενοποιημένης πλατφόρμας η οποία στηρίζεται στον καινοτόμο συνδυασμό τριών τεχνολογιών Web 2.0 πολυμεσικό περιεχόμενο, Web 2.0 γεωγραφική οριοθέτηση περιεχομένου και Συναισθηματική Ανάλυση του εν λόγω περιεχομένου του Κοινωνικού Ιστού (Social Web). Το προτεινόμενο πλαίσιο της web mashup εφαρμογής στοχεύει στην έγκυρη και έγκαιρη ενημέρωση εξατομικευμένων χρηστών (άτομα και επιχειρήσεις), καθώς παρουσιάζει διαγραμματικά τη συναισθηματική κατάσταση των YouTube χρηστών αποτυπώνοντας τις υποκειμενικές τους απόψεις. Με τη χρήση αυτού του εργαλείου εταιρείες marketing και διαφήμισης θα έχουν τη δυνατότητα να εξετάζουν τα προσωπικά σχόλια των χρηστών σε συγκεκριμένες θεματικές ενότητες ανά δεδομένη χρονική περίοδο και γεωγραφική τοποθεσία γρήγορα και άμεσα με απώτερο στόχο την παρακολούθηση των προβαλλόμενων προϊόντων και υπηρεσιών για τυχόν βελτιώσεις στον τομέα της προώθησης. Η διαρθρωτική δομή της διπλωματικής εργασίας παρουσιάζεται παρακάτω: Στο πρώτο κεφάλαιο γίνεται μία σύντομη αναφορά στο σύγχρονο περιβάλλον του Διαδικτύου, παρουσιάζονται οι κυριότερες web υπηρεσίες, τα ανοιχτά ζητήματα που αντιμετωπίζουν οι ενοποιημένες εφαρμογές και η Συναισθηματική Ανάλυση του web περιεχομένου και τονίζεται η συνεισφορά της διπλωματικής εργασίας. Το δεύτερο κεφάλαιο αναφέρεται στο θεωρητικό υπόβαθρο που μελετήθηκε στα πλαίσια αυτής της διπλωματικής. Πιο ειδικά, αναπτύσσονται τα εξής: οι πιο σημαντικές βιβλιογραφικές μελέτες που προσεγγίζουν τις mashup εφαρμογές συναρτήσει με τις μεθόδους του τομέα της Συναισθηματικής Ανάλυσης και η έννοια του Web 2.0 Social Web, τα ποικίλα μέσα κοινωνικής δικτύωσης, όπως blogs, reviews, forums και η σχέση του με τα mashups και τη Συναισθηματική Ανάλυση. Το τρίτο κεφάλαιο ενσωματώνει το θεωρητικό και τεχνολογικό υπόβαθρο των mashups τα συνεχώς εξελισσόμενα συνδυαστικά τεχνολογικά εργαλεία τα είδη τους καθώς και την αρχιτεκτονική με την οποία δομούνται. -3-

Στο τέταρτο κεφάλαιο αναπτύσσεται η Συναισθηματική Ανάλυση και οι τεχνικές που καθορίζουν αν ένα έγγραφο κειμένου ή μέρος αυτού ενέχει τις υποκειμενικές απόψεις των χρηστών και αν ναι τότε τις κατατάσσουν σε θετικές και αρνητικές προσδίδοντας βαθμούς υποκειμενικότητας ανάλογα με την οντότητα στην οποία αναφέρονται (π.χ. άτομο, προϊόν, θεματική ενότητα, video κ.α.). Το πέμπτο κεφάλαιο αναφέρεται στην ανάλυση και το σχεδιασμό του συστήματος. Πιο συγκεκριμένα, αναπτύσσεται σε θεωρητικό επίπεδο το προτεινόμενο πλαίσιο καταγραφής των συναισθημάτων των YouTube χρηστών που θα βοηθήσει τον αναγνώστη να κατανοήσει την υλοποίηση της mashup εφαρμογής. Το έκτο κεφάλαιο περιλαμβάνει τα στάδια ανάπτυξης της εφαρμογής και τα τεχνολογικά εργαλεία YouTube API, Google Maps API και SentiWordNet Lexicon που απαιτούνται για την υλοποίηση της σύγκλισης των πηγών άντλησης των δεδομένων καθώς και την ενιαία δομή της mashup πλατφόρμας. Το έβδομο κεφάλαιο παρουσιάζει το ενοποιημένο περιβάλλον της web mashup πλατφόρμας στην τελική του μορφή, τις βασικές του λειτουργίες καθώς και μερικά σενάρια χρήσης του εργαλείου με τις αντίστοιχες διαπιστώσεις από τα πειραματικά αποτελέσματα που προκύπτουν. Τέλος, στο όγδοο κεφάλαιο παρατίθενται συνοπτικά ορισμένα συμπεράσματα και οι μελλοντικές εξελίξεις που αφορούν την εφαρμογή που αναπτύξαμε. -4-

2 Επισκόπηση Βιβλιογραφίας Στο παρόν κεφάλαιο αναπτύσσονται οι επιστημονικές μελέτες, τα θεωρητικά μοντέλα και χρήσιμοι ορισμοί που απαιτούνται για την κατασκευή μίας mashup εφαρμογής σε συνδυασμό με μεθόδους της Συναισθηματικής Ανάλυσης. 2.1 Διερευνητικές Προσεγγίσεις Σε θεωρητικό επίπεδο παρουσιάζονται οι διερευνητικές προσεγγίσεις που έχουν γίνει στον τομέα της ανάλυσης δεδομένων με βάση mashup και Συναισθηματικής Ανάλυσης τεχνολογίες. [Εικόνα 1] Συμπεριλαμβάνονται οι μέθοδοι που εφαρμόζουν οι εν λόγω προσεγγίσεις. Επιπλέον, παρουσιάζονται οι τύποι των δεδομένων που αντλούν πληροφορίες, τα εργαλεία και οι τεχνολογίες που εφαρμόζουν τα μοντέλα προς υλοποίηση καθώς και ενδεικτικά παραδείγματα αντίστοιχων εφαρμογών για την καλύτερη κατανόηση αυτών. Εικόνα 1: Θεωρητικές Προσεγγίσεις 2.1.1 Σφαιρική Προσέγγιση Σύμφωνα με τον Loukides M. et al. [35] η αποτελεσματική χρήση των δεδομένων αποτελεί μείζον ζήτημα για τις επιχειρήσεις και προϋποθέτει διαφορετικές μεθόδους από αυτές των παραδοσιακών στατιστικών αναλύσεων. Αυτό που διαφοροποιεί την Επιστήμη των Δεδομένων (Data Science) από τη Στατιστική είναι η σφαιρική -5-

προσέγγιση (holistic approach) η οποία περιλαμβάνει τη μέθοδο ανάλυσης δεδομένων Data Conditioning. Αφού δημιουργηθεί ένα HTML αρχείο αυτόματα από ένα υπολογιστικό φύλλο (Excel) παρουσιάζονται τα δεδομένα και στη συνέχεια ακολουθεί η ανάλυσή τους, δηλαδή το «καθάρισμα» του αρχείου με τη βοήθεια εργαλείων, όπως το Beautiful Soup, parsers για την επεξεργασία της φυσικής γλώσσας (π.χ. XML parsers), βιβλιοθήκες Μηχανικής Μάθησης (π.χ. PyBrain και WEKA) και γλώσσες σεναρίων (π.χ. Perl και Python). Μετά την ανάλυση λαμβάνεται υπόψη η ποιότητά των δεδομένων. Αν τα δεδομένα είναι ελλιπή ή ανάρμοστα θα πρέπει να αποφασίσουμε αν θα τα κρατήσουμε ή όχι. Ο καλύτερος τρόπος για καλύτερα δεδομένα είναι ο χειροκίνητος. Σε περίπτωση αμφισημίας των δεδομένων, χρησιμοποιούνται εργαλεία, όπως το Google Trends και η βιβλιοθήκη Natural Language Toolkit 5 (NLKT) η οποία είναι αρμόδια για την κατασκευή προγραμμάτων γραμμένα σε Python. Εάν η επεξεργασία της φυσικής γλώσσας αποτύχει, τότε η τεχνητή νοημοσύνη αντικαθίσταται από την ανθρώπινη. Κατάλληλη για τον έλεγχο της επεξεργασίας της φυσικής γλώσσας είναι η υπηρεσία Mechanical Turk που εφαρμόζεται σε σύνολα δεδομένων προς εκπαίδευση. Για μεγάλο όγκο δεδομένων κατασκευάζονται πλατφόρμες πληροφορίας, όπως το Hadoop project, η πιο γνωστή εφαρμογή ανοιχτού κώδικα της Google s MapReduce. Αυτές διαφέρουν από τις παραδοσιακές αποθήκες δεδομένων, καθώς εκθέτουν πλούσιες βιβλιοθήκες APIs (π.χ. Prediction API) που είναι σχεδιασμένες για έρευνα και κατανόηση των δεδομένων. Για την αξιοποίηση των δεδομένων χρησιμοποιούνται, ακόμη, στατιστικά πακέτα (π.χ. CRAN) και πακέτα οπτικοποίησης (π.χ. GNUPlot). [Πίνακας 1] 5 http://nltk.org/ -6-

Πίνακας 1: Σφαιρική Προσέγγιση 6 Data Conditioning Δεδομένα Τεχνολογίες Εφαρμογές Mashup data Search terms Voice samples Product reviews Foreclosure data HTML file Big data XML parser Machine Learning Libraries Prediction API in Google PyBrain in Python Elefant WEKA in Java Mahout OpenCV Scripting Languages Perl Python Markup Languages HTML XML Google Trends NLTK Mechanical Turk Statistical Models R language CRAN package Visualization Packages GNUPlot Processing IBM s Many Eyes Recommendation Engines Information Platform / Dataspace Hadoop project HDFS HBase Database Hive Pig Dataflow Language by Google s MapReduce 6 Loukides M., What is Data Science, O Reilly Media, Inc., Sebastopol, California, USA, April 2012. -7-

2.1.2 Προσέγγιση Εμπνευσμένη από τη Θεμελιώδη Θεωρία Η εμπνευσμένη από τη Θεμελιώδη Θεωρία προσέγγιση (Grounded-Theory inspired approach) [22] αναφέρεται στη δημοσιογραφική έρευνα μέσω των κοινωνικών δικτύων. Πρόκειται για μία επαναλαμβανόμενη κωδικοποίηση των εννοιών και των σχέσεων που τις συνδέουν στα πλαίσια ενός κειμένου με κύριο στόχο το σχηματισμό τυπολογιών και προτύπων αλληλεπίδρασης με βάση τις αποκρίσεις των online συμμετεχόντων χρηστών. Απαρτίζεται από τέσσερις τεχνικές αυτόματης ανάλυσης περιεχομένου οι οποίες είναι: Relevance: μείωση θορύβου, Uniqueness: μέτρο μοναδικότητας μηνυμάτων, Sentiment: κατανόηση απόψεων, αισθημάτων και υποκειμενικότητας κειμένου, και Keyword Extraction: εντοπισμός χρήσιμων λέξεων και εξαγωγή περιγραφικών λέξεων. Η συγκεκριμένη μεθοδολογία εφαρμόζεται για την ανάπτυξη του Vox Civitas 7, ενός διαδικτυακού συστήματος εικονικής ανάλυσης που εξυπηρετεί την εκμαίευση νέων ειδήσεων από τα κοινωνικά δίκτυα (π.χ. Twitter), παρακάμπτοντας τις αρχικές φάσεις, όπως τη συλλογή δεδομένων και τη δημιουργία σχήματος (schema). Η εφαρμογή λειτουργεί σε συνδυασμό με τεχνικές Συναισθηματικής Ανάλυσης (π.χ. προσδιορισμός πολικότητας και υποκειμενικότητας κειμένου) διαμέσου ενός λεξικού λέξεων και ενός αλγορίθμου εκμάθησης γλώσσας (Συναισθηματική Κατηγοριοποίηση). Ωστόσο, η αξιολόγηση της συναισθηματικής οπτικοποίησης των πληροφοριών με τη χρήση ομότιμων συστημάτων ανάλυσης θεωρείται μία από τις σημαντικότερες προκλήσεις αυτού του επιστημονικού πεδίου. [Πίνακας 2] 7 http://sm.rutgers.edu/vox/event/?e=3-8-

Πίνακας 2: Προσέγγιση εμπνευσμένη από τη Θεμελιώδη Θεωρία 8 Sentiment Analysis, Relevance, Uniqueness, Keyword Extraction Δεδομένα Τεχνολογίες Εφαρμογές Textual data Quotes Topics Issues Posts Demographic data Multimedia data Microblogs Mashup data Video content Posts APIs Twitter API Sentiment Analysis Lexicon Sentiment Classification Algorithm Visualization Social Media Visual Analytics System Vox Civitas Video Timeline Sentiment Timeline Topic Segmentation Timeline Volume Graph 2.1.3 Θεματο-κεντρική Προσέγγιση Η θεματο-κεντρική προσέγγιση (topic-centric approach) του Amer-Yahia S. et al. [1] αναφέρεται στα ειδησεογραφικά νέα στηριζόμενη στα σχόλια των χρηστών του Twitter. Αναπτύσσεται το MAQSA, ένα σύστημα ανάλυσης των κοινωνικών δικτύων με το συνδυασμό τριών διαστάσεων χρόνος, γεωγραφικός τόπος και θέμα άρθρου. Το MAQSA εξυπηρετεί τη συναισθηματική κατάσταση και εξέλιξη των χρηστών σε διάφορες θεματολογίες. Σε αυτό συμβάλλουν τρεις τεχνικές οι οποίες είναι οι εξής: Topic Extraction: ομαδοποίηση άρθρων με βάση τη θεματική ενότητα, Activity Frequency: διαδραστική θεματο-κεντρική εξερεύνηση ειδήσεων, και Sentiment Extraction: ομαδοποίηση άρθρων και σχολιασμών με βάση την άποψη των χρηστών. Η πρώτη μέθοδος χρησιμοποιεί το συνδυασμό τριών μηχανών αναζήτησης βασισμένες στο θέμα και στην οντότητα (Latent Dirichlet Allocation LDA, tf*idf και OpenCalais 9 ). Η δεύτερη τεχνική εφαρμόζει το Gelphi 10, μία πλατφόρμα εικονικής αλληλεπίδρασης ανοιχτού κώδικα για δυναμικά και ιεραρχικά γραφήματα, ενώ η τρίτη 8 Diakopoulos N., Naaman M. and Kivran-Swaine F., Diamonds in the rough: Social Media Visual Analitics for journalistic inquiry, 2010. 9 http://www.opencalais.com/ 10 http://gephi.org/ -9-

εξάγει συναισθήματα με τη χρήση των λεξικών Συναισθηματικής Ανάλυσης Sentistrength 11 και UPitt 12 για τον εντοπισμό του σθένους (θετικότητα, αρνητικότητα ή και ουδετερότητα) και της υποκειμενικότητας των κειμένων αντίστοιχα. Για διαδραστικούς χάρτες χρησιμοποιείται το πακέτο Google Chart Tools 13, για σύννεφα λέξεων το Wordle 14, ενώ για γεωγραφικούς χάρτες με θεματική ενότητα και δεδομένα με βάση την τοποθεσία το εργαλείο TagMaps 15. Παρόμοιες έρευνες εφαρμόζουν χρονοσειρές (π.χ. Statler) και εξάγουν ειδησεογραφικές θεματολογίες (π.χ. Eddi) από το Twitter. [Πίνακας 3] Πίνακας 3: Θεματο-κεντρική προσέγγιση 16 Topic, Entity Extraction, Activity Frequency Sentiment Extraction Δεδομένα Τεχνολογίες Εφαρμογές Textual data Articles Topics Comments Multimedia data Microblogs Topic-based Search Engines LDA tf*idf Eddi Entity-based Search Engines OpenCalais Web API TextMap Gelphi Adaptive Ranking Algorithm Sentiment Analysis Sentistrength Lexicon Upitt Lexicon Interactive Graphics Google Chart Tools Topic Map TagMap Twitter Timeline Social Media Analytics System MAQSA Sentiment Map Pie Chart Timeline 11 http://sentistrength.wlv.ac.uk/ 12 http://mpqa.cs.pitt.edu/lexicons/subj_lexicon/ 13 https://developers.google.com/chart/interactive/docs/gallery?hl=el-gr 14 http://www.wordle.net/ 15 http://tagmaps.research.yahoo.com/ 16 Amer-Yahia S., Anjum S., Ghenai A., Siddique A., Abbar S., Madden S. and Marcus. A., MAQSA: A System for Social Analytics on news, Doha, Qatar. -10-

Statler Clustering Algorithm Time-, topic-based article 2.1.4 Προσέγγιση Ανάλυσης Πολλαπλών Γλωσσών Η προσέγγιση ανάλυσης πολλαπλών γλωσσών (multi-language analysis approach) θεωρείται μία από τις πιο πολύπλοκες προσεγγίσεις, καθώς έχει να κάνει με τεχνολογίες μετάφρασης ηλεκτρονικών εφημερίδων (π.χ. IBM Web-Sphere Translation Server WTS) και Ανάλυσης Συναισθημάτων από ξένες γλώσσες στα αγγλικά. Στην παρούσα προσέγγιση απαιτούνται οι ακόλουθες τεχνικές: Cross-Language Sentiment Analysis: συγκρίσεις συναισθημάτων σε αδόμητα κείμενα μεταξύ των γλωσσών, Parallel Corpus Analysis: παράλληλη ανάλυση συναισθήματος συλλογών, Cross-Translator Analysis: η ποιότητα της Συναισθηματικής Ανάλυσης εξαρτάται από το λογισμικό μετάφρασης, και Cross-Cultural Comparisons: συγκρίσεις πολικότητας απόψεων μεταξύ των γλωσσών. Σύμφωνα με τον Bautin M. et al. [8] υπολογίζονται οι συσχετίσεις των βαθμολογιών της πολικότητας και της υποκειμενικότητας για κάθε οντότητα των JRC-Acquis corpus στην παράλληλη συναισθηματική ανάλυση. Η τελευταία μέθοδος Cross-Cultural Comparisons εξετάζει την καταλληλότητα των βαθμολογιών πολικότητας που έχουν υπολογιστεί σε προηγούμενο στάδιο μέσα από τη σύγκρισή τους μεταξύ των υπό εξέταση γλωσσών. Αντιπροσωπευτική πλατφόρμα Συναισθηματικής Ανάλυσης κειμένου σε διεθνές γλωσσικό επίπεδο είναι το Lydia. Το σύστημα αυτό αναγνωρίζει οντότητες με τη βοήθεια εργαλείων, όπως ειδικούς website scrapers οι οποίοι μετατρέπουν τα άρθρα ειδήσεων σε πρότυπη μορφή και τα αποθηκεύουν σε ένα αρχείο. Τα έγγραφα σε άλλες γλώσσες εκτός της αγγλικής μεταφράζονται, αρχικά, με τη χρήση του IBM WebSphere Translation Server. Στη συνέχεια, τα επεξεργασμένα έγγραφα τρέχουν σε καθημερινή βάση μέσω ενός pipeline το οποίο είναι υπεύθυνο για: τη σήμανση των μερών του λόγου (Part-of-Speech tagging), -11-

τον προσδιορισμό και τη κατηγοριοποίηση των οντοτήτων, τη γεωγραφική κανονικοποίηση, την εξαγωγή των περιγραφών και των συσχετίσεων μεταξύ των οντοτήτων, και τον υπολογισμό του επανεμφανιζόμενου σκορ συναισθήματος. Αφού ολοκληρωθούν οι παραπάνω διαδικασίες, οι οντότητες εισάγονται σε μία λεξιλογική βάση δεδομένων, όπως το WordNet λεξικό για ειδησεογραφικές πληροφορίες σε διαφορετικές γλώσσες. Εκεί υπολογίζονται οι βαθμοί αντιπαράθεσης των οντοτήτων και συναισθήματος για κάθε μία από αυτές. [Πίνακας 4] Πίνακας 4: Προσέγγιση ανάλυσης πολλαπλών γλωσσών 17 Cross-Language Sentiment Analysis, Parallel Corpus Analysis, Cross- Translator Analysis, Cross-Cultural Comparisons Δεδομένα Τεχνολογίες Εφαρμογές Textual data News Blog posts Product reviews Website Scraper Pipeline Sentiment Analysis Sentiment Lexicon Translators IBM WTS Translation Server by IBM Research Multilingual Parallel Corpus JRC-Acquis Sentiment / Text Analysis System Lydia International Sentiment Maps WordNet Lexicon 2.1.5 Προσέγγιση Αλλαγών σε Επίπεδο Διάθεσης Η προσέγγιση αλλαγών σε επίπεδο διάθεσης (mood level changes approach) [7] αφορά την ανακάλυψη και εξήγηση αλλαγών σε πρότυπα διάθεσης (mood patterns) που εμφανίζονται σε μεγάλα corpus από σχολιασμούς των bloggers σε ιστολόγια. Δύο είναι οι μεθοδολογίες της εν λόγω προσέγγισης και είναι οι εξής: Spike Detection: εντοπισμός των spikes στις διαθέσεις των bloggers και Peak Explanation: ανάλυση των peaks που έχουν εντοπιστεί. 17 Bautin M., Vijayarenu L. and Skiena S., International Sentiment Analysis for news and blogs. -12-

Η πρώτη μέθοδος αφορά τον καθορισμό των spikes σε πρότυπα διάθεσης των blog posts των χρηστών. Με την εξέταση της κυκλικής συμπεριφοράς των χρηστών σε καθημερινή ή εβδομαδιαία βάση εντοπίζονται αλλαγές σε παγκόσμια κλίμακα. Η μέθοδος Peak Explanation ασχολείται με την ερμηνεία των peaks που προσδιορίστηκαν προηγουμένως. Η ανάλυση πραγματοποιείται με τις εφαρμογές Moodgrapher και Moodsignals του εργαλείου MoodViews 18 για την ανάλυση διάθεσης σε ιστολόγια και την αποτύπωση των αποτελεσμάτων με διαγραμματική μορφή. Η πρώτη εφαρμογή παρακολουθεί τα παγκόσμια επίπεδα διάθεσης, ενώ η δεύτερη αντιλαμβάνεται και αιτιολογεί τις αλλαγές στη διάθεση των χρηστών. [Πίνακας 5] Πίνακας 5: Προσέγγιση αλλαγών σε επίπεδο διάθεσης 19 Spike Detection, Peak Explanation Δεδομένα Τεχνολογίες Εφαρμογές Textual data Blog posts Log-likelihood Statistical Test Blog Mood Analysis Tool Big data Natural Language Processing Machine Learning Library Moodgrapher & Moodsignals Graph by MoodViews 2.1.6 Προσέγγιση Προβλέψεων σε Επίπεδο Διάθεσης Η προσέγγιση προβλέψεων σε επίπεδο διάθεσης (mood level prediction approach) [41], [42] προχωράει ένα βήμα παραπέρα σε σχέση με τη προηγούμενη προσέγγιση. Αξιολογεί τα γραπτά κείμενα των bloggers με τη δημιουργία μοντέλων πρόβλεψης των επιπέδων διάθεσης των χρηστών ανάλογα με τη γλώσσα στην οποία είναι γραμμένα. Η τεχνική που εφαρμόζεται στην παρούσα προσέγγιση είναι η εξής: Mood Tracking: παρακολούθηση και ανακάλυψη χρήσιμων στοιχειών για πρόβλεψη των επιπέδων διάθεσης των χρηστών. Η μέθοδος Mood Tracking αποτελείται από δύο φάσεις: 18 http://staff.science.uva.nl/~mdr/publications/files/aaai2006-mooddemo.pdf 19 Balog K., Mishne G. and Maarten de Rijke, Why are they excited. Identifying and explaining spikes in blog mood levels, Amsterdam, the Netherlands, April 2006. -13-

την αυτόματη αναγνώριση των στοιχείων κειμένου που θεωρούνται κατάλληλα προς αξιολόγηση της επικρατούσας διάθεσης και την εκμάθηση μοντέλων πρόβλεψης της έντασης της διάθεσης σε δεδομένη χρονική στιγμή χρησιμοποιώντας τα στοιχεία που αξιολογήθηκαν στη προηγούμενη φάση. Σύμφωνα με τον Mishne G. et al. [42] η συγκεκριμένη μεθοδολογία αφορά τον αυτόματο καθορισμό των επιπέδων διάθεσης των bloggers με γραμμικά μοντέλα παλινδρόμησης (π.χ. Pace Regression του WEKA) και είναι διαθέσιμη στην εφαρμογή Moodteller του εργαλείου MoodViews [Πίνακας 6] Πίνακας 6: Προσέγγιση προβλέψεων σε επίπεδο διάθεσης 20 Mood Tracking Δεδομένα Τεχνολογίες Εφαρμογές Textual data Βlog posts Log-likelihood Statistical Test Blog Mood Analysis Tool Big data Search Engine BlogPulse Linear Regression Model Pace Regression Machine Learning Library WEKA Moodteller Graph by MoodViews 2.1.7 Προσέγγιση Προσανατολισμένη στο Χρήστη Σύμφωνα με την προσανατολισμένη στο χρήστη προσέγγιση (user-driven approach) [29] στη διαδικασία σχεδιασμού των web mashups συμμετέχουν οι χρήστες. Το μοντέλο είναι κυκλικό και έρχεται σε αντίθεση με τα παραδοσιακά μοντέλα (όπως το μοντέλο καταρράκτη). Αφετηρία του μοντέλου αυτού είναι οι ίδιοι χρήστες οι οποίοι μέσα από την καθημερινότητά τους αντιμετωπίζουν προβλήματα σχετικά με τις υπάρχουσες τεχνολογίες. Σε αυτό το κρίσιμο σημείο έρχονται τα mashups να επιλύσουν τα διάφορα προβλήματα. Εφόσον το σύστημα έχει προσαρμοστεί στο νέο σχεδιασμό, 20 Mishne G. and M. de Rijke, Capturing Global Mood Levels using blog posts, Amsterdam, the Netherlands, pp. 145-152, March 2006. -14-

εισέρχεται στις ζωές των ανθρώπων και στη συνέχεια ξεκινάει γρήγορα ένας νέος κύκλος. [Εικόνα 2] Εικόνα 2: Απεικόνιση user-driven μοντέλου 21 Τα web mashups εξαρτώνται από διάφορα APIs, η φύση των οποίων στηρίζεται στην ενσωμάτωση των διαθέσιμων βιβλιοθηκών στον κώδικά τους. Αυτό σημαίνει πως οι προγραμματιστές των ενοποιημένων εφαρμογών έχουν πρόσβαση σε μεγάλο όγκο δεδομένων, υπηρεσίες και στοιχεία διεπαφής. Επιπλέον, βασίζονται στο μοντέλο των web υπηρεσιών. Αντιπροσωπευτικό παράδειγμα web mashup εφαρμογής είναι το Wasabe (Wikipedia Amazon Search And Browse Environment) το οποίο ξεχωρίζει για: [Πίνακας 7] την υπολογιστική ισχύ των διαδικτυακών υπηρεσιών που προσφέρει, την πρόσβαση σε μεγάλο όγκο περιεχομένου, και την ταχύτητα δημιουργίας του με ελάχιστη προσπάθεια. 21 Ingbert R. Floyd, M. Cameron Jones, Dinesh Rathi and Michael B. Twidale, Web Mashups and Patchwork Prototyping: User-driven technological innovation with Web 2.0 and open source software, IEEE, Chicago, USA, 2007. -15-

Πίνακας 7: Προσέγγιση προσανατολισμένη στο χρήστη 22 Circle Model Δεδομένα Τεχνολογίες Εφαρμογές Textual data Βlog posts Articles Recommendations Big data APIs Amazon Ecommerce Google SOAP Search Scripting Languages PHP JavaScript Markup Languages HTML XML Stylesheets CSS AJAX Technology Web Mashup Wasabe 2.1.8 Προσέγγιση Προσανατολισμένη στο Στοιχείο Η ερευνητική ομάδα του Lopez J. et al. [34] αναπτύσσει μία enterprise mashup εφαρμογή για την εύρεση νέων πελατών στηριζόμενη στη προσέγγιση με βάση τα στοιχεία (component-based approach). Η συγκεκριμένη προσέγγιση βασίζεται στην επαναχρησιμοποίηση των στοιχείων. Τα στοιχεία (components) είναι enterprise-oriented εργαλεία, λόγου χάρη, βάσεις δεδομένων και πρωτόκολλα δικτύου SOAP και REST τα οποία χρησιμοποιούν απλές HTTP εντολές (π.χ. get, post και put) για την ανάκτηση δεδομένων από τους εξυπηρετητές. [25] και διακρίνονται σε: Data Mashup Components: στοιχεία που επιτρέπουν την πρόσβαση σε δεδομένα από ετερογενείς πηγές, Source Adaptors: στοιχεία που προσαρμόζουν και συνδυάζουν τα διάφορα δεδομένα, και GUI Widgets: στοιχεία που χτίζουν τη γραφική διεπαφή (graphical interface). 22 Ingbert R. Floyd, M. Cameron Jones, Dinesh Rathi and Michael B. Twidale, Web Mashups and Patchwork Prototyping: User-driven technological innovation with Web 2.0 and open source software, IEEE, Chicago, USA, 2007. -16-

Η συγκεκριμένη προσέγγιση υποστηρίζει την ακόλουθη αρχιτεκτονική δομή: Source Access Layer: πρόσβαση των υψηλότερου επιπέδου στρωμάτων σε ετερογενείς πηγές δεδομένων με τη χρήση κοινής διεπαφής, Data Mashup Layer: προσδιορισμός των views για το συνδυασμό των πηγών, Widget Layer: παροχή των widgets, και Widget Assembly Layer: σύνδεση των widgets. Το Source Access Layer εφαρμόζει τη RESTful διεπαφή και παρέχει προσαρμογείς πηγών που επιτρέπουν την είσοδο σε πόρους δεδομένων, όπως REST / SOAP web υπηρεσίες, σχεσιακές βάσεις δεδομένων και HTML ιστοσελίδες. Σε υψηλότερο επίπεδο βρίσκεται το Data Mashup Layer το οποίο παρέχει το στοιχείο data mashup για να συνδεθεί με τους προσαρμογείς πηγών που χρειάζεται. Το Widget Layer περιλαμβάνει στοιχεία αποτύπωσης χάρτη, διαγράμματος κ.α. To Widget Assembly Layer αναλαμβάνει τη συγκέντρωση των widgets με σκοπό τη δημιουργία μίας ενιαίας γραφικής διεπαφής. Για την εξυπηρέτηση των επιμέρους στρωμάτων υπάρχουν υπηρεσίες μητρώου, συνεργασίας και ασφάλειας. Η προσέγγιση αυτή θεωρείται δηλωτική, αφού ακολουθεί το Data Federation / Mediation Pattern για τη σύνθεση των δεδομένων. Σύμφωνα με το Pipe and Filter Pattern υπολογίζονται τα εκτελέσιμα πλάνα αυτόματα και επιλέγεται ένα από αυτά. Τα συστατικά πρόσβασης σε δεδομένα αντλούμενα από διαφορετικές πηγές και τα στοιχεία-προσαρμογείς πηγών έχουν κοινή RESTful διεπαφή. Ακολουθεί η συναρμολόγηση των παραπάνω στοιχείων με τα widgets και των υπηρεσιών εγγραφής, συνεργασίας και ασφάλειας. Χρησιμοποιείται, ακόμη, η γλώσσα WADL για την περιγραφή και τη σύνδεση των πηγών από τη RESTful διαδικτυακή υπηρεσία, τις HTTP μεθόδους για την ανάκτηση των δεδομένων και τις παραμέτρους που υποστηρίζει η κάθε πηγή, ενώ η Java για τη διαμόρφωση του γραφικού περιβάλλοντος της εφαρμογής. Χαρακτηριστική επιχειρηματική ενοποιημένη πλατφόρμα είναι το mashup της Acme το οποίο για το σχεδιασμό του θεωρήθηκε απαραίτητη η πρόσβαση σε εφαρμογές με διαφορετικές πηγές δεδομένων και πολύπλοκες διεπαφές χρηστών (π.χ. Yahoo! Finance 23 και Google Maps 24 ). Για το λόγο αυτό, χρησιμοποιεί προσαρμογείς 23 http://finance.yahoo.com/ 24 http://maps.google.com/ -17-

πηγών για την εκμαίευση προσωπικών και εταιρικών πληροφοριών με στόχο την εύρεση πελατών με βάση κάποια κριτήρια (π.χ. τη γεωγραφική τοποθεσία, το όνομα εταιρικής επαφής και το επίπεδο ικανοποίησης) από το κοινωνικό δίκτυο επαγγελματικού προσανατολισμού Linkedin 25 και την ιστοσελίδα salesforce.com 26. [Πίνακας 8] Πίνακας 8: Προσέγγιση προσανατολισμένη στο στοιχείο 27 Source Access Layer, Data Mashup Layer, Widget Layer, Widget Assembly Layer Δεδομένα Τεχνολογίες Εφαρμογές Mashup data RSS / Atom feeds Data Federation / Mediation Pattern Engineering Enterprise Mashup Pipe, Filter Model REST / SOAP Web services Languages HTML WADL Java Enterprise Mashup Application of Acme Widgets Query Pie Chart Map Web Clipping APIs Google Maps API HTML Web Adaptor Web Wrapper 2.1.9 Προσέγγιση Προσανατολισμένη στο Λεξικό Η προσέγγιση που στηρίζεται στη δημιουργία λεξικού (lexicon-based approach) περιλαμβάνει μεθόδους Συναισθηματικής Ανάλυσης σε βάθος ενσωματώνοντας τον Σημασιολογικό Προσανατολισμό (Semantic Orientation SO), δηλαδή την πολικότητα (contextual polarity) και το σθένος (strength / potency) λέξεων καθώς και μετατροπείς κειμένου (valence shifters). 25 http://www.linkedin.com/ 26 http://www.salesforce.com/eu/?ir=1 27 Lopez J., Bellas F., Pan A. and Montoto P., A component-based approach for engineering enterprise mashups, A Coruna, Spain. -18-

Στη μελέτη του Taboada Μ. et al. [59] αναπτύσσεται η εφαρμογή Semantic Orientation CALculator SO-CAL με τη χρήση χειροκίνητων, ημι-αυτόνομων ή αυτόνομων λεξικών. Το εργαλείο αυτό συμβάλλει στην εξαγωγή «sentiment-bearing» λέξεων επίθετα, επιρρήματα, ρήματα και ουσιαστικά για τον υπολογισμό της υποκειμενικότητας ενός κειμένου. [Πίνακας 9] Η εξαγωγή των εξεταζόμενων λέξεων γίνεται με την κατηγοριοποίησή τους είτε σε θετικές είτε σε αρνητικές με τη βοήθεια χρήσιμων μετατροπών σθένους οι οποίοι διαχωρίζονται στις εξής κατηγορίες: Intensifiers: ανάλογα με την πολικότητα χωρίζονται σε δύο κατηγορίες: o Amplifiers: για αύξηση της σημασιολογικής έντασης ενός γειτονικού λεξιλογικού αντικειμένου και o Downtoners: για μείωση της σημασιολογικής έντασης, Negators: για αντιστροφή ή αλλαγή πολικότητας (π.χ. η λέξη «good» με θετική πολικότητα γίνεται «not good» με αρνητική), και Irrealis Markers: για μη αξιόπιστες λέξεις (π.χ. η υποτακτική στην αγγλική γλώσσα δε χρησιμοποιείται στη Συναισθηματική Ανάλυση). Πίνακας 9: Προσέγγιση προσανατολισμένη στο λεξικό 28 Sentiment-bearing Words Extraction Δεδομένα Τεχνολογίες Εφαρμογές Seed words Adjectives Adverbs Verbs Nouns Sentiment Analysis Semantic Orientation Adjective Dictionary Adverb Dictionary Search Engine Google Search Engine Languages XML Information Platform / Dataspace SO-CAL General Inquirer WordNet SentiWordNet Ανάλογα με τον τρόπο που δημιουργείται ένα λεξικό επηρεάζει τη συνολική ακρίβεια των αποτελεσμάτων. Έτσι, τα λεξικά κατασκευάζονται με τρεις τρόπους: Χειροκίνητα: με τη βοήθεια έτοιμων λεξικών, όπως το General Inquirer. 28 Taboada M., Brooke J., Tofiloski M., Voll K. and Stede M., Lexicon-based methods for Sentiment Analysis, Canada, Vol. 37, No. 2, pp. 268-307, September 17, 2010. -19-

Ημι-αυτόνομα: με τη χρήση λεξικών, όπως το WordNet (όπου είναι απαραίτητη η χρήση μηχανών αναζήτησης π.χ. Google Search Engine). Χαρακτηριστικό παράδειγμα εφαρμογής του WordNet είναι η δημιουργία του λεξικού SentiWordNet για το οποίο θα μιλήσουμε αναλυτικά στην ενότητα 6.1.4, καθώς αποτελεί ένα από τα τεχνολογικά εργαλεία υλοποίησης της mashup πλατφόρμας. Αυτόνομα: με τη χρήση λέξεων-σπόρων (seed words), δηλαδή συνόλων λέξεων με ισχυρούς θετικούς ή αρνητικούς συσχετισμούς. 2.2 Web 2.0 To Web 2.0 29 σηματοδοτεί τη μετάβαση σε ένα πιο κοινωνικό, πιο συνεργατικό και γεμάτο αλληλεπίδραση Παγκόσμιο Ιστό. Πρόκειται για μία αλλαγή στη φιλοσοφία των web εταιρειών και προγραμματιστών και γενικότερα στο σύνολο της κοινωνίας. Εξάλλου, είναι γεγονός πως τα τελευταία χρόνια παράλληλα με την αυξημένη χρήση του Διαδικτύου εμφανίζονται διάφορες Web 2.0 τεχνολογίες με ταχύτατους ρυθμούς ανάπτυξης, μεταξύ αυτών είναι: [Εικόνα 3] Εικόνα 3: Web 2.0 τεχνολογίες 29 http://webtrends.about.com/od/web20/a/what-is-web20.htm -20-

Όλες οι παραπάνω τεχνολογικές επιτεύξεις έχουν δημιουργήσει μία νέα πραγματικότητα, τα Κοινωνικά Μέσα 30 (Social Media), δηλαδή περιβάλλοντα σχεδιασμένα για να διασπείρουν την πληροφορία διαμέσου της ενσωμάτωσης της κοινωνικής αλληλεπίδρασης μέσα από τον Παγκόσμιο Ιστό. 2.2.1 Ορισμός Ο όρος Web 2.0 χρησιμοποιήθηκε για πρώτη φορά το 2004 από τον Dale Dougherty στα πλαίσια ενός συνεδρίου που εκπονήθηκε εκ μέρους του εκδοτικού οίκου O Reilly και MediaLive International με σκοπό την αναβάθμιση των προσεγγίσεων του Παγκόσμιου Ιστού. [44] Ο Κοινωνικός Ιστός 2.0 (Social Web 2.0) αποτελεί τη νέα γενιά του Παγκόσμιου Ιστού, αφού βασίζεται στην ολοένα και μεγαλύτερη δυνατότητα των συνδεδεμένων χρηστών να αλληλεπιδρούν, να μοιράζονται πληροφορίες και να συνεργάζονται διαδικτυακά. Σημερινές τάσεις στην ανάπτυξη των εφαρμογών αποτελούν οι Web 2.0 τεχνολογίες μέσω των οποίων αναδείχθηκαν νέες δυναμικές πλατφόρμες στο χώρο του Διαδικτύου, όπως το YouTube, το Facebook και το Twitter. [43] Τα νέα εργαλεία συνέβαλλαν σημαντικά στο πέρασμα από τις στατικές ιστοσελίδες του Web 1.0 σε ιστοσελίδες με δυναμικό και συνεχώς εξελισσόμενο περιεχόμενο προσφέροντας πολλές δυνατότητες στη διαδικτυακή κοινωνία των χρηστών. Οι κυριότερες δυνατότητες που προσφέρει το Web 2.0 είναι: [Εικόνα 4] η δυνατότητα ψηφιακής έκφρασης σε δυναμικό διαδικτυακό περιβάλλον, όπως με τη συμμετοχή σε κοινωνικά δίκτυα (π.χ. Linkedin), η εμφάνιση μεγάλης ποικιλίας web εφαρμογών, όπως τα RSS feeds σε online ενημερωτικές ιστοσελίδες (π.χ. in.gr 31 ) και εφημερίδες (π.χ. kathimerini.gr 32 ) και τεχνολογιών, όπως το πρότυπο XML 33, η διαμόρφωση περιεχομένου (read write web) διαμέσου της αλληλεπίδρασης των χρηστών, όπως τα wikis (π.χ. Wikipedia 34 ), και 30 http://en.wikipedia.org/wiki/social_media 31 http://rss.in.gr/ 32 http://portal.kathimerini.gr/rss 33 http://www.w3.org/xml/ 34 http://www.wikipedia.org/ -21-

η διαμοίραση περιεχομένου μεταξύ των χρηστών εστιάζοντας στο κοινωνικό σύνολο, όπως ο διαμοιρασμός videos (π.χ. Vine 35 σε κινητές συσκευές διαμέσου των κοινωνικών δικτύων Twitter και Facebook). Εικόνα 4: Δυνατότητες του Web 2.0 Στο επίκεντρο του Ιστού Δεύτερης Γενιάς βρίσκεται ο τεχνολογικός συνδυασμός AJAX της ασύγχρονης ανταλλαγής δεδομένων (XML), των browser-side σεναρίων (JavaScript), της μορφής και της παρουσίασης (XHTML και CSS) και του Document Object Model (DOM) API, [39] μετατρέποντας τον Παγκόσμιο Ιστό σε μία ενιαία πλατφόρμα όπου μπορούν να τρέχουν ελαφριές και δυναμικές εφαρμογές. [44] Οι τεχνολογικοί παράγοντες που συνεισέφεραν στην εξάπλωση του νέου μοντέλου του Web είναι: οι ελάχιστες γνώσεις προγραμματισμού, οι οικονομικές και ευρυζωνικές συνδέσεις, και η γρήγορη εξέλιξη των φορητών συσκευών ασύρματης πρόσβασης στο Διαδίκτυο. Αξιοσημείωτο είναι ότι η διαθεσιμότητα των πόρων προς την παραγωγή περιεχομένου αυξάνεται με την άνοδο του αριθμού των χρηστών που συμμετέχουν και 35 http://vine.co/ -22-

συνεργάζονται στο Διαδίκτυο. [2] Η δυνατότητα χρήσης διαδραστικών λειτουργιών γίνεται μέσα από δυναμικές ιστοσελίδες που προσφέρουν τα μέσα κοινωνικής δικτύωσης, όπως κοινωνικά δίκτυα, ιστολόγια, διαμοίραση πολυμέσων (multimedia sharing) και εφαρμογές που παρέχουν υπηρεσίες χαρτογράφησης. 2.2.2 Χαρακτηριστικά του Web 2.0 Όπως ειπώθηκε προηγουμένως τα Web 2.0 εργαλεία προσφέρουν πολλές δυνατότητες στους χρήστες του Διαδικτύου. Αυτές είναι: [2], [44] Η προτυποποίηση των διαδικασιών (standardization): Η χρήση κοινών προτύπων διευκολύνει τις διαδικασίες διαμοίρασης της πληροφορίας και σχεδίασης των ιστοσελίδων και καθιστά δυνατή τη συνεργασία μεταξύ των χρηστών στον Παγκόσμιο Ιστό. Το πνεύμα συμμετοχικότητας των χρηστών (user participation): Η ενεργή συμμετοχή των χρηστών σε διαδικτυακές εφαρμογές έκανε τις Web 2.0 τεχνολογίες δημοφιλής. Η κλιμάκωση (scalability): Ζητήματα, όπως η αυξημένη κίνηση του Διαδικτύου, ο τεράστιος όγκος των δεδομένων και η συντήρηση των συστημάτων επιλύονται με τη βοήθεια διαφόρων τεχνικών. o Χαρακτηριστική μέθοδος επίλυσης της κλιμάκωσης αφορά την κίνηση των flash crowds. Σύμφωνα με τον Chen X. et al. [13] τα flash crowds τυγχάνει να εμφανίζονται όταν ένας μεγάλος αριθμός τελικών χρηστών αποστέλλουν ταυτόχρονα έναν τεράστιο όγκο αιτημάτων σε μία web ιστοσελίδα υπερφορτώνοντας κατ αυτόν τον τρόπο τον web server και τα δίκτυα. Η κίνηση των flash crowds οφείλεται, συνήθως σε γεγονότα (events) που προσελκύουν το ενδιαφέρον του κοινού μαζικά, όπως για παράδειγμα μία φυσική καταστροφή. Η πλούσια εμπειρία των χρηστών (rich user experience): Η εμπειρία των χρηστών βελτιώνεται με την ύπαρξη ενός πλούσιου περιβάλλοντος. Σε ιστοθέσεις, όπως το Facebook ο χρόνος απόκρισης και το φιλικό περιβάλλον (με γραφικά, videos κ.α.) παίζουν μεγάλο ρόλο στην παραγωγικότητα του χρήστη. Το δυναμικό περιεχόμενο (dynamic content): Οι γρήγορες αλλαγές και οι συχνές ανανεώσεις του περιεχομένου των Web 2.0 εφαρμογών (π.χ. YouTube και Twitter) προσαρμόζονται διαρκώς στις ανάγκες των χρηστών. -23-

Η ανοιχτότητα (openness): Στις εφαρμογές ανοιχτού κώδικα έχουν πρόσβαση όλοι. Λόγω του δημοκρατικού χαρακτήρα του Διαδικτύου επικρατεί η λογική της συνεργατικότητας. -24-

3 Ενοποιημένες Εφαρμογές από Πηγές Παγκόσμιου Ιστού Με την ανάπτυξη του Παγκόσμιου Ιστού, τα mashups έκαναν ιδιαίτερα αισθητή την παρουσία τους τα τελευταία χρόνια, έχοντας ως κύριο στόχο να καταστήσουν τα ήδη υπάρχοντα δεδομένα υπηρεσιών χρήσιμα και αξιοποιήσιμα τόσο για προσωπική όσο και για επαγγελματική χρήση. Τρεις είναι οι λέξεις που χαρακτηρίζουν τις ενοποιημένες εφαρμογές: «σύνθεση», «οπτικοποίηση» και «συνάθροιση» των δεδομένων. Στην εικόνα που ακολουθεί απεικονίζεται ένα σύννεφο με λέξεις-έννοιες που έχουν άμεση αλληλεξάρτηση με τα mashups και θα αναλυθούν παρακάτω. [Εικόνα 5] Εικόνα 5: Σύννεφο λέξεων για mashups 3.1 Mashups και Web 2.0 Η ταυτόχρονη ανάπτυξη του Σημασιολογικού Ιστού (Semantic Web), των διαδικτυακών υπηρεσιών, των Web 2.0 τεχνολογιών και γενικά της συμμετοχικής αντίληψης έφερε στο προσκήνιο νέες υπηρεσίες, νέες ιστοσελίδες, καινούριες τεχνολογίες και πρωτόκολλα. Οι προσεγγίσεις που αναδείχθηκαν περιέχουν δύο βασικά συστατικά: την ανταλλαγή και τη διαμοίραση γνώσης, πηγών, υπηρεσιών και προϊόντων. Σήμερα, το περιεχόμενο του Παγκόσμιου Ιστού, η Κοινωνική Πληροφορία, προσφέρεται για κατανάλωση (τόσο από ανθρώπους όσο και από μηχανές), επιτρέποντας το συνδυασμό δεδομένων και υπηρεσιών γραμμένων σε διαφορετικές γλώσσες από δύο ή περισσότερες διαφορετικές πηγές, ιστοσελίδες ή βάσεις δεδομένων -25-

σε μία κοινή εφαρμογή Mashup που στοχεύει στην κάλυψη των αναγκών των χρηστών για πληροφόρηση. [29] 3.2 Ορισμός Στην ανάπτυξη του Παγκόσμιου Ιστού, τεχνολογία mashup 36 μπορεί να θεωρηθεί οποιαδήποτε ιστοσελίδα ή διαδικτυακή εφαρμογή η οποία χρησιμοποιεί και συνδυάζει κατάλληλα τα δεδομένα, την παρουσίαση ή τη λειτουργικότητα από δύο ή περισσότερες πηγές προκειμένου να δημιουργηθούν νέες καινοτόμες υπηρεσίες. Ως διαδραστικές εφαρμογές, τα mashups χρησιμοποιούν διαφορετικές Web 2.0 τεχνολογίες με σκοπό την άμεση πρόσβαση σε δεδομένα, υπηρεσίες, πηγές και στοιχεία διεπαφών καθώς και τη συγκέντρωση διαφόρων ειδών πληροφορίας. Ομαδοποιούν το περιεχόμενο διαφορετικών πηγών. Για παράδειγμα, ένα τραγούδι, μία εικόνα, ένα video, ένας χάρτης ή ένα κείμενο σε ψηφιοποιημένη μορφή μπορεί να αναμειχθεί με ένα άλλο ψηφιακό αντικείμενο. Εν συνεχεία, συνθέτουν τη νέα πληροφορία συνδυάζοντας πολύπλοκα, ακόμη και ασύνδετα μεταξύ τους δεδομένα και την παρουσιάζουν με ιδιαίτερα ενδιαφέρον τρόπο, ώστε να καλύπτουν τις ανάγκες του εκάστοτε χρήστη (είτε για προσωπική είτε για επαγγελματική χρήση). [28] Τα κύρια χαρακτηριστικά των υβριδικών αυτών εφαρμογών Διαδικτύου είναι: ο συνδυασμός διαφορετικών εφαρμογών, η ενίσχυση του υπάρχοντος κώδικα, η βελτίωση της χρηστικότητας, και η δημιουργία δυναμικών και ελκυστικών ιστοσελίδων. 3.3 Πλεονεκτήματα και Μειονεκτήματα των Mashups Οι διαδικτυακές εφαρμογές έχουν μεγάλη χρησιμότητα στην καθημερινή ζωή των ανθρώπων. Καθώς, αναπτύσσονται με το πέρασμα του χρόνου γίνονται περισσότερο πολύπλοκες. Μπορούν να συνδυάζουν πληροφορίες με πολλούς διαφορετικούς τρόπους μέσω της διαλειτουργικότητας. Εκτός από τις αδυναμίες και τις δυσκολίες που παρουσιάζουν λόγω της ραγδαίας ανάπτυξής τους, αποφέρουν σημαντικά οφέλη τόσο 36 http://en.wikipedia.org/wiki/mashup_%28web_application_hybrid%29-26-

σε επίπεδο χρηστών και κοινωνικού συνόλου όσο και σε επίπεδο επιχειρήσεων (π.χ. marketing). [Πίνακας 10] Πίνακας 10: Πλεονεκτήματα Μειονεκτήματα των mashups 37 Mashups Πλεονεκτήματα Μειονεκτήματα Λιγότερος χρόνος και κόπος από Αδυναμία ελέγχου υπηρεσιών, την πλευρά του χρήστη ποιότητας και περιεχομένου Λιγότερος κόστος ανάπτυξης Αυξανόμενη κλιμάκωση εφαρμογών Πληρέστερη και εξειδικευμένη ενημέρωση (value-added content) Ραγδαία ανάπτυξη εφαρμογών Επαναχρησιμοποίηση υπαρχόντων δεδομένων και υπηρεσιών Ελάχιστη προγραμματιστική εμπειρία Ανομοιογενής μορφοποίηση και εμφάνιση πληροφοριών Πρόβλημα υπερφόρτωσης πληροφοριών Δυσκολία άντλησης δεδομένων και έλλειψη SOA αρχιτεκτονικής Αδυναμία ενσωμάτωσης υπαρχόντων εφαρμογών από Η/Υ Έλλειψη μηχανισμού ασφαλείας (ευάλωτα σε επιθέσεις από ιούς) Μη ύπαρξη προτύπων 3.3.1 Πλεονεκτήματα Ενεργό ρόλο στην πρόοδο και εξέλιξη του social software και των Web 2.0 τεχνολογιών παίζουν τα mashups. Οι τελικοί χρήστες έχουν τη δυνατότητα να συνεισφέρουν, συμβάλλοντας σε μια νέα θεώρηση του Παγκόσμιου Ιστού με τη χρήση αυτών των συνθετικών εργαλείων, χωρίς να ξοδεύουν πολύτιμο χρόνο και να καταβάλλουν μεγάλη προσπάθεια. Αυτό συμβαίνει διότι τα mashups συνδυάζουν δεδομένα πολλαπλών πηγών σε ένα ενιαίο ολοκληρωμένο εργαλείο παρέχοντας πληρέστερη ενημέρωση στους χρήστες. Επιπλέον, η ύπαρξη μεγάλου αριθμού ελεύθερα διαθέσιμων APIs καθιστά τα mashups ως μία αρκετά φθηνή και γρήγορη λύση. Τέλος, δεν απαιτούνται ιδιαίτερες γνώσεις προγραμματισμού για την κατασκευή τους. [5] 37 Baden S., Lefebvre D., Dar J., Langner M. and Min-Tse Yu., Mashup: Web application hybric, Bedrina T., Parodi A., Quarati A. and Clematis A., ICT approaches to integrating institutional and noninstitutional data services for better understanding of hybro-meteorological phenomena, Savona, Genoa, Italy, June 2012, Palfrey J. and Gasser U., Mashups Interoperability and einnovation, Berkman Publication Series, November 2007, Stone A., Pros and cons of outsourcing your apps to APIs, October 2010, http://en.citizendium.org/wiki/mashup#pros_and_con -27-