Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη # 09 Ομαδοποίηση και Ταξινόμηση Κειμένων Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1
Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 3
Ομαδοποίηση Κειμένων (text clustering) Βελτιώνει την ανάκληση της αναζήτησης Επιταχύνει την ανάκτηση στο διανυσματικό (vector space) μοντέλο Προσφέρει ανάλυση συλλογών κειμένων και πλοήγηση σε αυτά Αποσαφήνιση εννοιών σε αποτελέσματα αναζήτησης 2
Βελτίωση Ανάκλησης Υπόθεση Έγγραφα με παρόμοιο κείμενο σχετίζονται Για να βελτιώσεις την ανάκληση: Ομαδοποίησε από πριν τα έγγραφα μιας συλλογής Όταν ένα query ταιριάζει με ένα έγγραφο D, επέστρεψε επίσης τα άλλα έγγραφα που ανήκουν στην ίδια ομάδα με το D Προσδοκία: Τα έγγραφα που περιέχουν τον όρο automobile θα επιστραφούν σε ένα query με τον όρο car επειδή Η ομαδοποίηση τα έβαλε στην ίδια ομάδα 3 Επιτάχυνση Ανάκτησης Στο διανυσματικό μοντέλο ανάκτησης, πρέπει να βρούμε τα κοντινότερα έγγραφα στο διάνυσμα του query Αυτό σημαίνει ότι πρέπει να υπολογίσουμε την ομοιότητα του query με κάθε έγγραφο πολύ αργό! Με την ομαδοποίηση από πριν των εγγράφων μιας συλλογής Βρίσκουμε τα κοντινότερα στο query έγγραφα 4 των ομάδων
Ανάλυση/Πλοήγηση Συλλογών Χώρισμα μιας συλλογής εγγράφων σε ομάδες με σχετιζόμενα κείμενα Μπορεί να παρέχει ένα δέντρο από θέματα Επιτρέπει στο χρήστη να περιηγηθεί εύκολα στη συλλογή Κρίσιμη ανάγκη: Ετικέτες που να χαρακτηρίζουν τα θέματα των ομάδων 5 Πλοήγηση σε Συλλογές Εγγράφων Η standard IR είναι όπως το ευρετήριο ενός βιβλίου Η ομαδοποίηση δημιουργεί κάτι σαν τον πίνακα περιεχομένων Table of Contents Index Aardvark, 15 Blueberry, 200 Capricorn, 1, 45-55 Dog, 79-99 Egypt, 65 Falafel, 78-90 Giraffes, 45-59 1. Science of Cognition a. Motivations i. Intellectual Curiosity ii. Practical Applications b. History of Cognitive Psychology 2. The Neural Basis of Cognition a. The Nervous System b. Organization of the Brain c. The Visual System 3. Perception and Attention a. Sensory Memory b. Attention and Sensory Information Processing
Οπτικοποίηση Θεμάτων Συλλογής Wise et al, Visualizing the non-visual PNNL ThemeScapes, Cartia [Mountain height = cluster size] Πλοήγηση σε Αποτελέσματα Αναζήτησης Χώρισμα των αποτελεσμάτων μιας αναζήτησης σε ομάδες σχετιζόμενων κειμένων Αποσαφήνιση έννοιας 8
Παράδειγμα Θεματική ομαδοποίηση αποτελεσμάτων αναζήτησης clusty.com Παράδειγμα Ομαδοποίησης Αποτελεσμάτων Αναζήτησης Cluster 1: Jaguar Motor Cars home page Mike s XJS resource page Vermont Jaguar owners club Cluster 2: Big cats My summer safari trip Pictures of jaguars, leopards and lions Query: jaguar Cluster 3: Jacksonville Jaguars Home Page AFC East Football Teams 10
Πλοήγηση σε Αποτελέσματα Αναζήτησης Kartoo.com Πώς σχετίζονται τα κείμενα; Ιδανικό: σημασιολογική ομοιότητα Στην πράξη: στατιστική ομοιότητα Τα έγγραφα αναπαριστάνονται ως διανύσματα Υπολογίζεται η απόσταση μεταξύ των διανυσμάτων 12
ιανυσματική Αναπαράσταση Κάθε έγγραφο j είναι ένα διάνυσμα τιμών tf idf, μία διάσταση ανά όρο Κανονικοποίηση τιμών Στο διανυσματικό χώρο: Οι όροι είναι οι άξονες Τα έγγραφα είναι διανύσματα Ακόμα και μετά από stemming, μπορεί να έχουμε 10000+ διαστάσεις Χρειαζόμαστε όντως τόσο πολλούς όρους; 13 Παράδειγμα D3 t 3 x D 2 D1 y t 1 t 2 D4 Αξίωμα: τα έγγραφα που βρίσκονται κοντά στο διανυσματικό χώρο μιλάνε για τα ίδια θέματα 14
ύο Τύποι Ομαδοποίησης εδομένων n εγγράφων και ενός θετικού ακεραίου k, χώρισε τα έγγραφα σε k (μηεπικαλυπτόμενα) υποσύνολα εδομένων n εγγράφων, χώρισέ τα σε ένα κατάλληλο αριθμό υποσυνόλων π.χ., για αποτελέσματα αναζήτησης η ιδανική τιμή του k δεν είναι γνωστή από πριν αν και το UI μπορεί να θέτει κάποια όρια Ένας αλγόριθμος του ενός τύπου μπορεί να μετατραπεί στον άλλο τύπο 15 Κέντρο Ομάδας Συνήθως οι αλγόριθμοι ομαδοποίησης θεωρούν ένα αντιπροσωπευτικό σημείο της κάθε ομάδας, π.χ. Το σημείο που απέχει λιγότερο από τα έγγραφα της ομάδας Το σημείο του μέσου όρου των εγγράφων της ομάδας Το σημείο δεν είναι απαραίτητο να αντιστοιχεί σε κάποιο έγγραφο 16
Συσσωρευτική Ομαδοποίηση (agglomerative clustering) εδομένου του αριθμού των ομάδων k Αρχικά, κάθε έγγραφο θεωρείται ως μία ομάδα Εκκίνηση με n ομάδες; Επανάληψη: όσο υπάρχουν > k ομάδες, βρες το κοντινότερο ζευγάρι και ενοποίησε τις ομάδες 17 Παράδειγμα: n=6, k=3 d6 d4 d5 d3 Centroid after second step. d1 d2 Centroid after first step. 18
Ιεραρχική Ομαδοποίηση (Hierarchical clustering) Καθώς συσσωρεύονται οι ομάδες, τα έγγραφα είναι πιθανό να εμπίπτουν σε μία ιεραρχία θεμάτων ή εννοιών d1 d3 d4 d5 d3,d4,d5 d2 d1,d2 d4,d5 d3 19 εντρόγραμμα Dendrogram: Αποσυνθέτει τα έγγραφα σε διάφορα επίπεδα ομαδοποίησης Η ομαδοποίηση παρέχεται από το κόψιμο του δεντρογράμματος στο επιθυμητό επίπεδο, και μετά κάθε συνδεδεμένο συστατικό αποτελεί μία ομάδα
ιαιρετική Ομαδοποίηση Η συσωρευτική ομαδοποίηση είναι bottom-up: Αρχικά κάθε έγγραφο είναι μία ομάδα Τελικά όλα τα έγγραφα ανήκουν στην ίδια ομάδα Η διαιρετική (divisive) ομαδοποίηση είναι top-down: Αρχικά όλα τα έγγραφα ανήκουν στην ίδια ομάδα Τελικά κάθε έγγραφο ανήκει στη δική του ομάδα Κοντινότερο Ζευγάρι Ομάδων Υπάρχουν πολλές παραλλαγές Κέντρο βάρους Οι ομάδες που τα κέντρα τους είναι τα περισσότερο όμοια Average-link Μέσος όρος απόστασης μεταξύ των στοιχείων των ζευγαριών Single-link Η ομοιότητα του πιο κοντινού ζευγαριού στοιχείων Complete-link Η ομοιότητα του πιο μακρινού ζευγαριού στοιζείων
k-means εδομένου του αριθμού των επιθυμητών ομάδων k ημιούργησε τυχαία τα αρχικά κέντρα των ομάδων Επανέλαβε Κάθε έγγραφο ανατίθεται στο κοντινότερο κέντρο ομάδας Ο μέσος όρος όλων των κειμένων που ανήκουν στην ίδια ομάδα δημιουργεί το νέο κέντρο της ομάδας Μέχρι να ικανοποιηθεί μια τερματική συνθήκη 25 Παράδειγμα Επανάληψης Docs Current centroids 26
Παράδειγμα Επανάληψης Docs New centroids 27 Τερματική Συνθήκη Συγκεκριμένος αριθμός επαναλήψεων Ο διαχωρισμός των εγγράφων δεν αλλάζει Τα κέντρα των ομάδων δεν αλλάζουν Αυτό σημαίνει ότι δεν αλλάζουν τα έγγραφα μιας ομάδας; 28
Όταν το k δεν καθορίζεται εξαρχής Π.χ. Στα αποτελέσματα μιας αναζήτησης Επίλυση ενός προβλήματος βελτιστοποίσης: δημιουργία ποινής σε μεγάλο αριθμό ομάδων Εξαρτάται από την εφαρμογή Πολλές ομάδες προσφέρουν καλύτερη εστίαση 29 Κέρδος Ομαδοποίησης Για μία ομαδοποίηση, καθόρισε το Κέρδος για ένα έγγραφο ως την απόστασή του από το κέντρο της ομάδας Καθόρισε το Συνολικό Κέρδος ως το άθροισμα των κερδών των εγγράφων 38
Κόστος και Τιμή Ομαδοποίησης Για κάθε ομάδα έχουμε ένα Κόστος C Άρα, για μία ομαδοποίηση με k ομάδες, το Συνολικό Κόστος είναι kc Καθόρισε την Τιμή μιας ομαδοποίησης ως το Συνολικό Κέρδος Συνολικό Κόστος Βρες την ομαδοποίηση με την μεγαλύτερη Τιμή για όλες τις επιλογές του k 31 Ετικέτες Ομάδας Μετά την εύρεση των ομάδων, πώς μπορούμε να τις κάνουμε χρήσιμες στον χρήστη; Χρειαζόμαστε μια χαρακτηριστική ετικέτα για την κάθε ομάδα Σε αποτελέσματα αναζήτησης, για το παράδειγμα του jaguar, οι ομάδες θα μπορούσαν να ονομαστούν Football ή Car 32
Εύρεση Ετικετών είξε τίτλους τυπικών εγγράφων Οι τίτλοι βρίσκονται εύκολα Μπορείς να δείξεις μόνο λίγους τίτλους που πιθανόν να μην αναπαριστούν επαρκώς την ομάδα είξε λέξεις/φράσεις που είναι αξιοπρόσεκτες στην ομάδα Πιο πιθανό να αναπαριστούν επαρκώς την ομάδα Πιο δύσκολο να βρεθούν 33 Εύρεση Ετικετών Heuristics Βρες τους 5-10 πιο συχνούς όρους στο διάνυσμα του κέντρου ομάδας Εξαίρεσε τα stop-words. Κάνε stemming ιαφορική ετικετοποίηση με συχνές λέξεις Μέσα στη ομάδα Computers, όλες οι θυγατρικές ομάδες έχουν τον όρο computer στους συχνούς όρους 34
Παράδειγμα Ας υποθέσουμε ότι ομαδοποιούμε έγγραφα μιας συλλογής πληροφορικής Τι περιμένουμε να δούμε; 35 Παράδειγμα Ας υποθέσουμε ότι ομαδοποιούμε έγγραφα μιας συλλογής πληροφορικής Τι περιμένουμε να δούμε; Graphics Arch. NLP AI Theory 36
Όρια Απόφασης Μπορούμε να χρησιμοποιήσουμε αυτές τις ομάδες για να εκτιμήσουμε που ανήκει ένα νέο έγγραφο; Graphics Arch. NLP AI Theory 37 Απόφαση για Νέο Κείμενο Έλεγξε σε ποια περιοχή βρίσκεται το νέο έγγραφο υνατές και λιγότερο σαφείς αποφάσεις Graphics Arch. NLP AI Theory = AI 38
Setup Με βάση κάποια έγγραφα εκπαίδευσης για την κάθε κατηγορία Theory, AI, NLP, etc. ημιούργησε ένα χώρο απόφασης Γενικά, ένας διανυσματικός χώρος ημιούργησε ένα ταξινομητή που θα ταξινομεί νέα κείμενα Ουσιαστικά, χώρισε τον χώρο απόφασης Για ένα νέο έγγραφο, βρες σε ποιο χώρο ανήκει 39 Μάθηση με επίβλεψη Αυτό το setup καλείται μάθηση με επίβλεψη στην ορολογία της μηχανικής μάθησης Αντίθετα, το προηγούμενο setup για την ομαδοποίηση καλείται μάθηση χωρίς επίβλεψη εν προϋποθέτει την ύπαρξη εγγράφων εκπαίδευσης Οι ομάδες που δημιουργούνται μπορεί να μην είναι ομογενείς 40
Τι είναι Καλύτερο; Εξαρτάται Από το τι διαθέτουμε Από την εφαρμογή Μπορούν να χρησιμοποιηθούν συνδυαστικά Ανάλυση μιας συλλογής με ομαδοποίηση ιόρθωση και ονομασία των ομάδων Χρήση των ομάδων ως σύνολο εκπαίδευσης ενός ταξινομητή Υπολογιστικά, διαφορετικές μέθοδοι 41