Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Σχετικά έγγραφα
Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Αναγνώριση Προτύπων Ι

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

710 -Μάθηση - Απόδοση

710 -Μάθηση - Απόδοση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

SGA Διαχείριση Πρωτόκολλου

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Οριστική Δήλωση και Βεβαιώσεις Αμοιβών Επαγγελματιών

Εκπαιδευτικό Εργαλείο Κανονικοποίησης

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τεχνικές Προβλέψεων. Προβλέψεις

Στο grid διαχείρισης φακέλων εμφανίζονται οι εξής πληροφορίες:

Δημιουργία Οριστικής Δήλωσης Φ.Μ.Υ.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Πληροφοριακά Συστήματα Διοίκησης

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας Office Management (Ημερολόγιο Λογιστή). Παρακάτω προτείνεται

Τελικός Κύκλος Διαγωνισμάτων Γ ΛΥΚΕΙΟΥ Κυριακή 17 Απριλίου 2016 Μάθημα: Α.Ε.Π.Π. KTIΡΙΟ ΤΜΗΜΑΤΑ ΚΑΛΟΚΑΙΡΙΝΑ ΑΡΓΥΡΟΥΠΟΛΗΣ - ΗΛΙΟΥΠΟΛΗΣ - ΓΛΥΦΑΔΑΣ

Τίτλος Πακέτου Certified Computer Expert-ACTA

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

3 ο ΓΕΛ Τρικάλων ΟΔΥΣΣΕΑΣ ΕΛΥΤΗΣ. Ιστολόγια και κοινότητες

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Στόχος της ψυχολογικής έρευνας:

25SMEs2009 ΠΑΡΑΔΟΤΕΑ ΕΝΟΤΗΤΑΣ ΕΡΓΑΣΙΩΝ 5: ΟΛΟΚΛΗΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ. 5.1 Ολοκλήρωση Υποσυστημάτων Πλατφόρμας Διαχείρισης Αισθητήρων

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

710 -Μάθηση - Απόδοση

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Ανάπτυξη ιστολογίου. Γνωστικό αντικείμενο: Ερευνητική Εργασία - Project. Δημιουργός: ΦΩΤΙΟΣ ΛΑΖΑΡΙΝΗΣ

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Σχεδιασμός Ερωτηματολογίου

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

Βετεράνοι αθλητές. Απόδοση & Ηλικία. Βασικά στοιχεία. Αθλητισμός Επιδόσεων στη 2η και 3η Ηλικία. Γενικευμένη θεωρία για τη

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

Δημιουργία Οριστικής Δήλωσης Φ.Μ.Υ.

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

SGA Διαχείριση Ηλεκτρονικού Πρωτόκολλου

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Προγραμματισμός Η/Υ. Αναζήτηση & Ταξινόμηση. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Συστήματα μνήμης και υποστήριξη μεταφραστή για MPSoC

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Λειτουργικά Συστήματα 7ο εξάμηνο, Ακαδημαϊκή περίοδος

Διαχείριση Ημερολογίου

Πληροφορική 2. Δομές δεδομένων και αρχείων

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Σχεδιασμός εκτυπώσεων ERG

ΕΠΙΚΟΙΝΩΝΙΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΕΣ INTERNET

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Η Διαδικασία Σχεδιασμού Συστημάτων

Κωδικοποίηση και Έλεγχος Ορθότητας

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι ΔΙΑΧΕΙΡΙΣΗ ΜΝΗΜΗΣ. Διδάσκοντες: Καθ. Κ. Λαμπρινουδάκης Δρ. Α. Γαλάνη Λειτουργικά Συστήματα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Σχεδιασμός εκτυπώσεων ERG

Α2. Να γράψετε στο τετράδιο απαντήσεών σας το κατάλληλο τμήμα κώδικα, κάνοντας τις απαραίτητες αλλαγές σύμφωνα με την εκάστοτε εκφώνηση:

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Σχεδίαση και ανάπτυξη ιστοχώρου του εργαστηρίου Μηχανικής Λογισμικού. Παληόπουλος Αποστόλης-Παπαναγιώτου Παναγιώτης

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΜΟΝΑΔΑ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ. Ηλεκτρονική Έρευνα Ικανοποίησης Χρηστών στη Βιβλιοθήκη της ΑΣΠΑΙΤΕ

Αλληλεπίδραση Ανθρώπου- Υπολογιστή & Ευχρηστία

Δημιουργία. Ιστολογίου (blog) 7/5/2015. Χρυσάνθη Γιομέλου ΚΔΒΜ ΝΙΚΑΙΑΣ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΗΥ240: οµές εδοµένων Χειµερινό Εξάµηνο Ακαδηµαϊκό Έτος Παναγιώτα Φατούρου. Προγραµµατιστική Εργασία 3 ο Μέρος

Εικονικό Εργαστήριο Χωρικής Ανάλυσης. Εγχειρίδιο Χρήστη ΤΕΙ ΑΘΗΝΑΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΝΤΙΚΕΙΜΕΝΟ Ι. ΓΙΑΝΝΑΤΣΗΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Τελικό επαναληπτικό διαγώνισμα Επιμέλεια: Δρεμούσης Παντελής

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Οδηγός Εγκατάστασης και Χρήσης του Arebas Easy

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

ΚΟΙΝΩΝΙΚΑ ΔΙΚΤΥΑ: Ο ΡΟΛΟΣΤΟΥΣ ΣΤΗΝ ΚΟΙΝΩΝΙΚΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΗ ΖΩΗ. A Τετράμηνο

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Transcript:

Αναστασιάδης Αντώνιος

Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης Συμπεράσματα Σχόλια Περιεχόμενα

Σκοπός της εργασίας Σκοπός της εργασίας είναι η αποδοτική ανάλυση των ιστολόγιων και εξαγωγή των καταχωρήσεών τους, και κατόπιν η ταξινόμηση κάποιου συνόλου καταχωρήσεων με κριτικές ταινιών ως προς την άποψη που εκφράζουν.

Τί είναι τα ιστολόγια Iστοσελίδες σε μορφή προσωπικού ημερολογίου. Συνήθως δημιουργούνται απο απλούς ανθρώπους που θέλουν να μοιραστούν την γνώμη τους και τις εμπειρίες τους με άλλους χρήστες του διαδικτύου. Η χρήση τους είναι πολύ διαδεδομένη: Περισσότερο απο 70 εκατομμύρια ιστολόγια παγκοσμίως. Eκθετική αύξηση απο το 2003 έως σήμερα.

Ρυθμός αύξησης των ιστολόγιων

Τί περιέχουν; Οι δημιουργοί των ιστολόγιων παρουσιάζουν μεγάλη ποκιλία ως προς τις ενασχολήσεις και τα ενδιαφέροντά τους. Yπάρχουν κοινότητες απο ιστολόγια, π.χ. Φοιτητές, ερευνητές και ακαδημαϊκοί, Χρήστες και προγραμματιστές υπολογιστών, Αθλητές και φίλαθλοι, Δημοσιογράφοι, κ.ο.κ.

Τα συμπεράσματα που μπορούν να προκύψουν από τις καταχωρήσεις των ιστολόγιων μπορούν να χρησιμοποιηθούν για: Ανάλυση της γνώμης των ανθρώπων για κάποιο προϊόν. Εξαγωγή της σημασίας και της διάδοσης κάποιου γεγονότος. Στατιστικές αναλύσεις. Marketing και διαφήμιση....και άλλα πολλά. Διπλωματική Εργασία Χρησιμότητα των πληροφοριών που περιέχουν

Μέθοδοι εξαγωγής των καταχωρήσεων Mε χρήση των feeds που προσφέρουν οι ιστοσελίδες. Με χρήση των αναγνωριστικών (tags) που παραθέτουν στον HTML κώδικα τα συστήματα δημιουργίας ιστολόγιων. Με χρήση των ημερομηνιών που παρεμβάλλονται ανάμεσα στις καταχωρήσεις.

Εξαγωγή με βάση τα feeds Tα feeds χρησιμοποιούνται για εύκολη ανάγνωση της πληροφορίας δίχως να επισκευθούμε την ιστοσελίδα. Δυστυχώς, πολλά δεν προσφέρουν ολόκληρες τις καταχωρήσεις παρά μόνο μέρος αυτών. Λύση: Εφόσον εχουμε μέρος της καταχώρησης, εξάγουμε το πλήρες κείμενο από την αρχική ιστοσελίδα: Εντοπίζουμε τον κόμβο HTML που περιέχει το κείμενο με βάση το ημιτελές που έχουμε. Εξάγουμε όλα τα περιεχόμενα του κόμβου τα οποία και θα αποτελούν το πλήρες κείμενο της καταχώρησης.

Στην πράξη, εάν υπάρχει feed η μέθοδος βρίσκει το σωστό και αναλύει σωστά όλες τις περιπτώσεις ιστολόγιων που συναντήσαμε. Διπλωματική Εργασία Εξαγωγή με βάση τα feeds Πλεονεκτήματα της μεθόδου: Ποσοστό επιτυχίας 100%. Δέν χρειάζεται να προσπελάσουμε την ιστοσελίδα εαν επιτύχει. Μειονεκτήματα: Οδηγούμαστε σε λάθος αποτελέσματα εάν επιλέξουμε λανθασμένο feed Λύση: Για την επιλογή του σωστού feed αναπτύχθηκαν ευριστικές μέθοδοι με τα εξής κριτήρια: Απόρριψη όσων feeds είναι αποθηκευμένα σε άλλους ιστοχώρους Το URL του feed θα πρέπει να είναι αποθηκεύεται στον ίδιο κατάλογο του εξυπηρετητή με την ιστοσελίδα Το URL του feed θα πρέπει να εμπεριέχεται στο ίδιο domain

Εξαγωγή με βάση τα αναγνωριστικά Εκμεταλλευόμαστε το οτι τα περισσότερα ιστολόγια κατασκευάζονται από συστήματα ειδικά για αυτό το σκοπό. Ενδεικτικά εργαλεία: Blogger Wordpress Livejournal Typepad Tα εργαλεία αυτά τοποθετούν αναγνωριστικά (tags) τα οποία περιγράφουν τον HTML κώδικα και χρησιμεύουν στο να χαρακτηρίζουν τις δομές του.

Εξαγωγή με βάση τις ημερομηνίες (1/5) Εκμεταλλευόμαστε το ότι για κάθε καταχώρηση θα υπάρχει ένα πεδίο με την ημερομηνία δημιουργίας της. Ουσιαστικά, οι ημερομηνίες παρεμβάλλονται μεταξύ των καταχωρήσεων. Η παραπάνω υπόθεση ισχύει στην πλειοψηφία των ιστολόγιων, ιδιαίτερα σε αυτά που δημιουργούνται μέσω έτοιμων συστημάτων. Στόχος: Εύρεση των κόμβων των ημερομηνιών που παρεμβάλλονται μεταξύ των καταχωρήσεων, και κατόπιν εξαγωγή των ενδιάμεσων δεδομένων.

Προβλήματα της μεθόδου: Διπλωματική Εργασία Εξαγωγή με βάση τις ημερομηνίες (2/5) Το ιστολόγιο και κατ'επέκταση οι ημερομηνίες ενδέχεται να είναι σε διάφορες γλώσσες Εύκολα αντιμετωπίζεται με την εισαγωγή επιπλέον κανονικών εκφράσεων στην αντίστοιχη γλώσσα. Στην παρούσα εργασία: Αγγλικές, Ισπανικές, Ελληνικές κανονικές εκφράσεις. Συνήθως υπάρχουν ημερομηνίες παντού στην ιστοσελίδα όπως ημερολόγια, ευρετήρια κλπ. Πώς θα ξεχωρίσουμε μόνο τις ημερομηνίες που αντιστοιχούν στις καταχωρήσεις;

Εξαγωγή με βάση τις ημερομηνίες (3/5) Αλγόριθμος: Εξάγουμε τις ημερομηνίες με χρήση κανονικών εκφράσεων. Τις ταξινομούμε σε σύνολα με βάση το βάθος των κόμβων τους στο DOM Tree της ιστοσελίδας. Επιλέγουμε το σύνολο που ενδιάμεσα περιέχει το μεγαλύτερο μέγεθος δεδομένων. Εξάγουμε τα δεδομένα ανάμεσα στις ημερομηνίες του συνόλου, τα οποία και θα είναι οι καταχωρήσεις.

Εξαγωγή με βάση τις ημερομηνίες (4/5) Παράδειγμα: ROOT Ευρετήριο DOM Tree ιστολόγιου με ευρετήριο. 2 Σύνολα ημερομηνιών (πράσινα). Τελικά θα επιλεχθεί το Σύνολο 2 λόγω μεγαλύτερου μεγέθους των ενδιάμεσων κόμβων (πορτοκαλί).... Ημ/νια... Ημ/νια... Σύνολο 1 Δηλαδή στο ίδιο επίπεδο με τις ημ/νίες και ανάμεσά τους είναι οι καταχωρήσεις. Καταχωρήσεις Ημ/νια...... Ημ/νια... Σύνολο 2

Εξαγωγή με βάση τις ημερομηνίες (5/5) Ποιά η αξιοπιστία της κατάτμησης με βάση τις ημερομηνίες; Χειροκίνητος έλεγχος σε σύνολο 90 σελίδων το οποίο αναλύθηκε μόνο με την παρούσα μέθοδο. Οι 86 (95,5%) αναλύθηκαν σωστά. Σωστά Λάθος Σε τρείς περιπτώσεις επιλέχτηκε λανθασμένο σύνολο ημερομηνιών, και τα αποτελέσματα δεν περιείχαν τις καταχωρήσεις. Σε μία περίπτωση δεν διαχωρίστηκαν σωστά τα δεδομένα ενδιάμεσα των ημερομηνιών.

Συνολική διαδικασία εφαρμογής των μεθόδων Επιλογή των ιστολόγιων προς κατάτμηση Επιλογή επόμενου ιστολόγιου Το ιστολόγιο περιέχει feed? Όχι Έχει δημιουργηθεί απο γνωστό εργαλείο; Όχι Ναι Όχι Όχι Ναι Επιτυχής η ανάλυση του feed; Επιτυχής η ανάλυση με βάση τις ετικέτες του εργαλείου; Ναι Ναι Περιέχει ημερομηνίες; Όχι Όχι Ναι Επιτυχής η ανάλυση με βάση τις ημερομηνίες; Ναι Καταγραφή της αποτυχίας της κατάτμησης του ιστολογίου Υπάρχουν άλλα ιστολόγια; Ναι Όχι Καταγραφή της επιτυχίας της κατάτμησης του ιστολογίου Εκτύπωση αποτελεσμάτων

Εύρεση ιστολόγιων προς κατάτμηση H εταιρεία Ιntelliseek προσφέρει ελεύθερη πρόσβαση σε δεδομένα απο εκατομμύρια ιστολόγια τα οποία αναλύθηκαν παλαιότερα. Απο αυτά τα δεδομένα, επιλέχθησαν 10.000 διευθύνσεις ιστολόγιων στο διαδίκτυο. Καθώς τα δεδομένα χρονολογούνται απο το 2006, αρκετές διευθύνσεις είτε δεν υπήρχαν πια είτε δεν οδηγούσαν σε ιστολόγια. Με χρήση προγραμμάτων απορρίψαμε τα ανύπαρκτα, καθώς και όσα είχαν πολύ μικρό μέγεθος (< 2 Κb). Τελικά παρέμειναν 7.857 ιστολόγια προς ανάλυση.

Αξιολόγηση της απόδοσης της κατάτμησης των ιστολόγιων Ιστολόγια προς ανάλυση: 7857 Αποτυχία ανάλυσης: 788 (10%) Επιτυχία με χρήση feeds: 4614 (65,3%) Επιτυχία με χρήση αναγνωριστικών: 1123 (15,9%) Αποτυχία Feeds Αναγνωριστικά Ημερομηνίες Επιτυχία με χρήση ημερομηνιών: 1332 (18,8%) Συνολικό ποσοστό επιτυχίας: 90%

Αλγόριθμος ταξινόμησης SVM SVM: Μηχανή Διανυσμάτων Υποστήριξης (Support Vector Machine) Διανυσματική αναπαράσταση του χώρου του προβλήματος Επιλογή των διανυσμάτων υποστήριξης που συνορεύουν με στιγμιότυπα άλλων κλάσεων. Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός. Aπό τις δημοφιλέστερες προσεγγίσεις στο χώρο της κατηγοριοποίησης κειμένου λόγω της αποτελεσματικότητας και της ταχύτητας του. Ο αλγόριθμος έχει την δυνατότητα να εκπαιδευτεί σε ένα σύνολο στιγμιοτύπων με γνωστές κλάσεις (σύνολο εκπαίδευσης), ώστε να δημιουργηθεί ο χώρος στιγμιοτύπων του προβλήματος, και έπειτα να εφαρμοστεί σε ένα διαφορετικό σύνολο προς ταξινόμηση (σύνολο δοκιμών).

Στην εργασία μας θεωρήσαμε δύο πιθανές κατηγορίες για κάθε στιγμιότυπο: Θετική/Αρνητική άποψη. Διπλωματική Εργασία Kατηγοριοποίηση με βάση την άποψη Στόχος: Ο διαχωρισμός κάποιου συνόλου κειμένων με βάση την άποψη που αναπαριστούν για κάποιο θέμα. Η άποψη κάποιου κειμένου είναι δύσκολο να οριστεί μεθοδολογικά, π.χ. άμεση/έμμεση, εξαιρετική/θετική/αδιάφορη/αρνητική... Δύσκολη η αξιόπιστη εξαγωγή της από το κείμενο λόγω πολυπλοκότητας της ανθρώπινης γλώσσας. Η Ειρήνη Καλδέλη σε σχετική διπλωματική της πραγματοποίησε πολλά πειράματα σε αυτόν τον τομέα: Χρήση όρων άρνησης (no, not κλπ), και προσδιορισμός της εμβέλειάς τους στις επόμενες λέξεις. Χρήση λεξικών υποκειμενικότητας & απόδοση μεγαλύτερου βάρους στις αντίστοιχες λέξεις. Χρήσιμο συμπέρασμα (στο οποίο στηριχτήκαμε): Συνήθως οι προσπάθειες γλωσσολογικής ανάλυσης οδηγούν σε μείωση της απόδοσης του ταξινομητή.

Kατηγοριοποίηση με βάση την άποψη Θέμα: Κριτικές ταινιών Πρόσφορο θέμα για κατηγοριοποίηση, έχουν γίνει πολλές προσπάθειες. Υπάρχουν ήδη σύνολα με κατηγοριοποιημένα κείμενα, όπως η συλλογή των Pang et al. (1000 θετικές και 1000 αρνητικές κριτικές) την οποία και χρησιμοποιήσαμε. Είναι εύκολο να συλλέξουμε αυτόματα μεγάλο αριθμό κριτικών με γνωστό αποτέλεσμα, καθώς συνήθως συνοδεύονται απο μια βαθμολογία. Εύκολο να συλλεχθούν σχετικά ιστολόγια.

Ταξινόμηση των καταχωρήσεων Συλλέχθησαν 70 ιστολόγια Τα οποία έδωσαν 235 καταχωρήσεις με κριτικές ταινιών. Για εκπαίδευση χρησιμοποιήθηκαν: Η συλλογή των Pang et al. (2000 κριτικές). 200 κριτικές απο την σελίδα http:///www.rottentomatoes.com τις οποίες πήραμε αυτόματα καθώς η κάθε μία είχε θετική ή αρνητική βαθμολογία. Πραγματοποιήθηκαν δύο είδη πειραμάτων: Ταξινόμηση με δεκαπλή σταυρωτή επικύρωση στο σύνολο των κειμένων των καταχωρήσεων, των Pang et all και του rotten tomatoes. Χρήσιμο για να έχουμε μια εικόνα της γενικής απόδοσης του ταξινομητή Εκμάθηση του ταξινομητή με το σύνολο των Pang et al. καθώς και του Rotten tomatoes, και κατόπιν ταξινόμηση των καταχωρήσεων. Χρήσιμο όταν θέλουμε να ταξινομήσουμε νέα, άγνωστα κείμενα με όσο το δυνατόν πιο καλά εκπαιδευμένο ταξινομητή.

Ταξινόμηση των καταχωρήσεων Πειράματα με δύο είδη αναπαραστάσεων των χαρακτηριστικών στα στιγμιότυπα προς ταξινόμηση: Απλές συχνότητες εμφάνισης των χαρακτηριστικών. Τιμές TF/IDF. Oι τιμές TF/IDF προσπαθούν να περιγράψουν ένα μέτρο της σημαντικότητας του εκάστοτε χαρακτηριστικού στο κάθε στιγμιότυπο. Θεωρητικώς οι τιμές TF/IDF προσφέρουν μεγαλύτερη απόδοση. Τα δεδομένα κανονικοποιήθηκαν στο [-1,1] ώστε να αποφύγουμε προβλήματα με υπερβολικά μεγάλες τιμές. Ζητούμενο στα πειράματα: Η ακρίβεια ταξινόμησης του αλγορίθμου. Ακρίβεια = (αριθμός σωστά ταξινομημένων στιγμιότυπων) / (σύνολο στιγμιότυπων)

Ταξινόμηση των καταχωρήσεων 1η σειρά πειραμάτων (αξιολόγηση του ταξινομητή) 2.435 κριτικές ταινιών (Καταχωρήσεις, Pang et al., rotten tomatoes). 10-πλή σταυρωτή επικύρωση. Πραγματοποιήθηκαν πολλά διαδοχικά πειράματα για την εύρεση της βέλτιστης συνάρτησης πυρήνα καθώς και της παραμέτρου σφάλματος του SVM. Μέγιστη ακρίβεια: 85% (2066 σωστές κριτικές) με χρήση τιμών TF-IDF. Αναμενόμενο και από την θεωρία για τις τιμές TF-IDF. Συμβαδίζει με αποτελέσματα από προηγούμενες εργασίες.

Ταξινόμηση των καταχωρήσεων 2η σειρά πειραμάτων (ταξινόμηση των καταχωρήσεων) 235 καταχωρήσεις με κριτικές ταινιών από ιστολόγια. Εκπαίδευση του ταξινομητή σε 2.200 κριτικές (Pang et al., rotten tomatoes). Χρήση των προηγούμενων βέλτιστων παραμέτρων για τον αλγόριθμο SVM. Μέγιστη ακρίβεια: 60% (139 σωστές καταχωρήσεις). Σύνολο εκμάθησης τελείως διαχωρισμένο από το σύνολο ταξινόμησης. Αναμενόμενη η μικρότερη απόδοση από πριν.

Ταξινόμηση των καταχωρήσεων Συμπεράσματα Ο αλγόριθμος SVM μας έδωσε ανάμικτα αποτελέσματα στο πεδίο της ταξινόμησης με βάση την άποψη. Με χρήση σταυρωτής επικύρωσης, τα αποτελέσματα ήταν σχετικά καλά. Οταν χρησιμοποιήσαμε ξεχωριστά σώματα εκπαίδευσης και ταξινόμησης, τα αποτελέσματα ήταν αρκετά πιο χαμηλά. Η απόδοση βελτιώνεται με χρήση μεγαλύτερου όγκου σώματος εκπαίδευσης. Επίσης, και η χαμηλή απόδοση μπορεί να οδηγήσει σε συμπεράσματα λόγω του τεράστιου δυνατού όγκου δεδομένων που μπορούμε να έχουμε.

Σύνοψη Στην εργασία αυτή μελετήθηκαν δύο θέματα. Στο πρώτο σκέλος, υλοποιήθηκαν μέθοδοι με τις οποίες μπορούμε να επεξεργαστούμε τα ιστολόγια και να τα χωρίσουμε στις καταχωρίσεις που περιέχουν. Οι τρείς αυτές μέθοδοι δουλεύουν συμπληρωματικά, καθώς ένα ιστολόγιο θα αναλυθεί κατα σειρά με καθεμία απο αυτές εως ότου διαχωριστεί επιτυχώς. Κατόπιν, αξιοποιώντας τα δεδομένα που προέκυψαν επιδείξαμε την χρησιμότητα της διαδικασίας σε μια συγκεκριμένη εφαρμογή η οποία είναι η ταξινόμηση κριτικών για ταινίες με βάση την άποψη που εκφράζουν. Η μέθοδος αυτή είναι ενδιαφέρουσα καθώς ένας καλύτερα εκπαιδευμένος ταξινομητής θα μπορούσε να χρησιμοποιηθεί για την συνεχή ταξινόμηση νέων καταχωρήσεων. Με την εφαρμογή κατάτμησης των ιστολόγιων που υλοποιήσαμε προκύπτει ένα βασικό σύστημα αυτόματης κατάτμησης και κατηγοριοποίησης των νέων ή ανανεωμένων ιστολογίων.

Ανοιχτά θέματα Βελτίωση της αυτόματης ανάλυσης των ιστολογίων: Βελτίωση της μεθόδου ανάλυσης των ημερομηνιών ίσως με: Κανονικοποίηση ημ/ών (σίγουρος εντοπισμός τους). Αυτόματη προσαρμογή των κανονικών εκφράσεων. Συνδυασμοί μεθόδων και βελτίωσή τους μέσω μηχανικής μάθησης. Βελτίωση της απόδοσης της ταξινόμησης με βάση την άποψη: Με χρήση εξελιγμένης γλωσσολογικής ανάλυσης και άλλων μεθόδων. Αξιολόγηση κάποιων άλλων αλγορίθμων εκπαίδευσης και ταξινόμησης.

Επίλογος Το βασικό συμπέρασμα αυτής της εργασίας είναι οτι ο πλούτος της πληροφορίας που υπάρχει σε εκατομμύρια ιστοσελίδες είναι δυνατόν να αξιοποιηθεί και να μας δώσει πολύ ενδιαφέρουσες πληροφορίες, και η εργασία προσφέρει μια βάση για περαιτέρω έρευνα με στόχο την ανάπτυξη μιας εύρωστης μεθόδου ανάλυσης του αστρονομικού μεγέθους των δεδομένων που μπορεί να προκύψουν απο τα ιστολόγια.

Xρήσιμο πιθανό παράδειγμα Σύστημα με χρήση πολλαπλών εφαρμογών: Crawler που ανακαλύπτει και κατεβάζει ιστολόγια. Απευθείας ανάλυσή τους απο την εφαρμογή. Κατηγοριοποίησή τους με βάση το θέμα. Κατηγοριοποίησή τους με βάση την άποψη. Συμπεράσματα Πχ: Βγήκε νέα γεύση coca-cola-2. Τί γνώμη έχει ο κόσμος για το προϊόν μας; Βγήκε νέο λειτουργικό Windows. Έχει μεγάλη ανταπόκριση;... Kάτι ανάλογο: google trends