Ο Παγκόσμιος Ιστός
O Παγκόσμιος Ιστός Χαρακτηριστικά Μία συλλογή πληροφοριών: Τεράστια Κατανεμημένη Ανομοιογενής Δυναμικά εξελισσόμενη Με περιορισμένους τρόπους προσπέλασης: Πλοήγηση μέσω συνδέσμων
O Παγκόσμιος Ιστός Μορφή πληροφορίας HTML σελίδες περιεχόμενο HTML συντακτικό Σύνδεσμοι
O Παγκόσμιος Ιστός Αναζήτηση πληροφορίας στο Web Διασύνδεση με χρήση ερωτήσεων Διασύνδεση με χρήση ερωτήσεων WWW Βάση Δεδομένων
Υπάρχουν αμφιλεγόμενες απόψεις για την σχέση Βάσεων Δεδομένων και Web Τεχνολογίας (E.Neuhold και K.Aberer) Στο μέλλον το Web θα στηρίζεται κυρίως σε βάσεις δεδομένων. ΗοργάνωσηστοWeb είναι τόσο χαοτική που η τεχνολογία των βάσεων δεδομένων δεν μπορεί να βοηθήσει. Τελικά και στο Web τα αρχεία παίζουν κεντρικό ρόλο. Το Web είναι μια μεγάλη κατανεμημένη βάση δεδομένων. Οι άνθρωποι των βάσεων δεδομένων είναι οι μόνοι που λόγω εμπειρίας μπορούν να βάλουν τάξη στο χάος του Web. Μόλις χρησιμοποιηθεί η τεχνολογία των βάσεων δεδομένων (όπως οι σχεσιακές και οι αντικειμενοστρεφείς) εφαρμοσθούν στο Web θα εξαφανισθεί το χάος. Ο κόσμος του διαδικτύου θα βρει λύσεις σε παλαιά προβλήματα τωνβάσεωνδεδομένων.
Το Web θα συμβάλλει στην ανάπτυξη των σχεσιοαντικειμενοστρεφών συστημάτων βάσεων δεδομένων. Οι άνθρωποι των βάσεων δεδομένων δεν καταλαβαίνουν τι είναι το Web γιατί είναι στενά δεμένοι με τις παραδοσιακές έννοιες των βάσεων δεδομένων (κλειστότητα και ακριβή αποτελέσματα).
Η τεχνολογία των βάσεων δεδομένων δεν θα λύσει όλα τα προβλήματα διαχείρισης πληροφοριών στο WEB. Ανάκτηση Πληροφοριών Τεχνητή Νοημοσύνη Τεχνολογίες Hypertext/Hypermedia
O Παγκόσμιος Ιστός Αναζήτηση πληροφορίας στο Web Ερωτήσεις με βάση: Διασύνδεση με χρήση ερωτήσεων Το περιεχόμενο των σελίδων Το συντακτικό(δομή δομή) των σελίδων Τη δομή(σύνδεσμοι σύνδεσμοι) του Web WWW Παραδείγματα
Μπορούμε να θεωρήσουμε το Web σαν ένα κατευθυνόμενο γράφο του οποίου οι κόμβοι είναι σελίδες και οι πλευρές είναι συνδέσεις μεταξύ των σελίδων. Στην περίπτωση αυτή μπορούμε να δούμε πως μπορούν να σχηματισθούν επερωτήσεις για την ανάκτηση σελίδων. Οι επερωτήσεις μπορούν να βασίζονται στο περιεχόμενο των σελίδων και στην συνδεδεμένη δομή των σελίδων. Απλή περίπτωση οι browsers που εντοπίζουν σελίδες με βάση λέξεις που περιέχουν. Η πιο πολύπλοκα κατηγορήματα: βρες τις σελίδες που περιέχουν την λέξη Bush δίπλα σε μια φωτογραφία
Θεωρούμε τους κόμβους του Web σε χαμηλότερο επίπεδο λεπτότητας από αυτό της σελίδας, δηλαδή σαν να περιέχουν δομημένα δεδομένα (σύνολα από πλειάδες ή σύνολα από αντικείμενα). Διακρίνουμε δύο εργασίες: 1.Εξαγωγή δομημένης αναπαράστασης δεδομένων από HTML σελίδες (αυτό επιτυγχάνεται με χρήση wrappers). 2.Αφού θεωρήσουμε αυτούς τους κόμβους σαν ετερογενείς βάσεις δεδομένων πρέπει να θέσομε επερωτήσεις για ενοποίηση των δεδομένων (mediator systems).
Κατασκευή και Αναδόμηση Web Κόμβων Οι μεθοδολογίες της τεχνολογίας των βάσεων δεδομένων μπορούν να χρησιμοποιηθούν είτε για την αρχική κατασκευή Web κόμβων είτε για την αναδόμηση τους. Μπορούν να χρησιμοποιηθούν μέθοδοι για την μοντελοποίηση της δομής του Web και γλώσσες για την αναδόμηση των δεδομένων.
Δομημένη Ανάκτηση Πληροφοριών Οι πρώτες μηχανές αναζήτησης βασίζονται στην αναζήτηση ευρετηρίων λέξεων και φράσεων που εμφανίζονται σε έγγραφα και ανακαλύπτονται από Web crawlers. Έχουν γίνει προσπάθειες να ξεπερασθεί αυτός ο περιορισμός με χρήση της δομής των συνδέσμων σε επερωτήσεις. Έχει προταθεί να χρησιμοποιείται η δομή του web για την ανάλυση των κόμβων που επιστρέφει μια μηχανή αναζήτησης ώστε να εξάγονται οι πιο έγκυρες στο θέμα. Το Google κάνει χρήση της δομής του Web για βελτίωση της απόδοσης τόσο των ευρετηρίων όσο και των crawlers.
Αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό Προσέγγιση από τον χώρο Ανάκτησης Πληροφορίας (Information Retrieval) Μηχανή αναζήτησης WWW crawlers Ευρετήριο Διασύνδεση Λέξεις Διατεταγμένη Λίστα διευθύνσεων Βαθμός διάταξης σελίδας R: R=IR(περιεχόμενα, HTML συντακτικό)+cr(σύνδεσμοι ΑΠΟ, σύνδεσμοι ΠΡΟΣ)
Αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό Προσέγγιση από τον χώρο των Βάσεων Δεδομένων Μοντέλο Ιστού Γλώσσα επερωτήσεων & χειρισμού WWW Εξαγωγή δεδομένων Repository
Μοντελοποίηση του Web Γραφικά Μοντέλα: Οι εφαρμογές απαιτούν την μοντελοποίηση συνόλων web σελίδων και των συνδέσμων μεταξύ τους. Οι σελίδες μπορεί να βρίσκονται στον ίδιο ή διαφορετικούς κόμβους. Τα γραφικά μοντέλα αποτελούν ένα φυσικό τρόπο μοντελοποίησης του web. Οι κόμβοι παριστάνουν web σελίδεςκαιοιπλευρέςσυνδέσμους μεταξύ των σελίδων. Οι ετικέτες στις πλευρές μπορεί να θεωρηθούν σαν ονόματα γνωρισμάτων. Με βάση αυτούς τους γράφους έχουν αναπτυχθεί διάφορες γλώσσες. Χαρακτηριστικό των γλωσσών αυτών είναι η δυνατότητα δημιουργίας επερωτήσεων στο γράφο (regular path expression queries)
Μοντέλα Ημιδομημένων Δεδομένων Σε πολλές περιπτώσεις η δομή των δεδομένων δεν είναι κανονική.τα βασικά χαρακτηριστικά των ημιδομημένων δεδομένων είναι: το σχήμα δεν είναι γνωστό και μπορεί να εμφανίζεται έμμεσα στα δεδομένα. το σχήμα είναι σχετικά μεγάλο και μπορεί να αλλάζει συχνά. το σχήμα είναι πιο πολύ περιγραφικό παρά ρυθμιστικό (ανοχή σε παραβιάσεις) μη ισχυροί τύποι δεδομένων.
Άλλα χαρακτηριστικά των μοντέλων δεδομένων του Web και διαφορές με τις βάσεις δεδομένων Δομές χαρακτηριστικές του Web Διαχωρισμός συνδέσμων μέσα σε ένα κόμβο και εξωτερικών συνδέσμων. Δυνατότητα μοντελοποίησης διάταξης των στοιχείων Μοντελοποίηση εμφωλευμένων δομών Υποστήριξη συλλογικών δομών (σύνολα, πίνακες)
Συστήματα αναζήτησης στο web Σύστημα Μοντέλο Τύπος Γλώσσας Path Expressions WebSQL σχεσιακό SQL Y N W3QS Γράφος SQL Y N WebLog Σχεσιακό Datalog N N Lorel Γράφος OQL Y N WebOQL Δενδρικό OQL Y Y UnQL Γραφος Δομ. αναδρομή STRUDEL Γράφος Datalog Y Y ARANEUS Σελίδες SQL Y Y FLORID F-logic Datalog Y N Y Δημ. Γράφου Y
Επερωτήσεις στο Web Αν θεωρήσουμε το Web σαν μια μεγάλη βάση δεδομένων με δομή γράφου, είναι φυσικό να θέτουμε επερωτήσεις πιο πολύπλοκες από τον βασικό τύπο ανάκτησης πληροφοριών που υποστηρίζεται από τις σημερινές μηχανές αναζήτησης. Θα πρέπει να ληφθεί υπόψη η δομή: τόσο η εσωτερική δομή των Web σελίδων όσο και οι εξωτερικοί σύνδεσμοι. Η αναζήτηση περιεχομένου αγνοεί την δομή των υπερμέσων. Σε αντίθεση, η δομημένη αναζήτηση εξετάζει την δομή των υπερμέσων για υποδίκτυα που ταιριάζουν στα κριτίρια αναζήτησης.
Αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό Προσέγγιση από τον χώρο των Βάσεων Δεδομένων Γενικές γλώσσες επερωτήσεων Ερωτήσεις με βάση το περιεχόμενο των σελίδων (IR προσέγγιση) Πχ: WebSQL, Squeal τη δομή του Web τη δομή των σελίδων
Αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό Προσέγγιση από τον χώρο των Βάσεων Δεδομένων Γενικές γλώσσες επερωτήσεων Web Management Συστήματα Βλέπουν ένα προκαθορισμένο κομμάτι του Web Βασίζονται σε ένα μοντέλο για την αναγνώριση σχήματος Χειρίζονται ημι-δομημένες σελίδες Χρησιμοποιούν wrappers για εξαγωγή δεδομένων από μία σελίδα Πχ: Araneus
Γλώσσες προ Web πουμπορείναείναιχρήσιμεςσεweb εφαρμογές Hypertext γλώσσες επερωτήσεων. Γραφικές γλώσσες επερωτήσεων (G, G+, GraphLog) Γλώσσες Επερωτήσεων Ημιδομημένων δεδομένων (Lorel, UnQL, STRUQL)
Πρώτη γενιά γλωσσών επερωτήσεων του Web Οι γλώσσες αυτές στοχεύουν στο να συνδυάσουν τις επερωτήσεις περιεχομένου των μηχανών αναζήτησης με τις δομημένες επερωτήσεις. W3QL WebSQL WebLog
WebSQL Η WebSQL μοντελοποιεί το Web σαν σχεσιακή βάση δεδομένων που αποτελείται από δύο σχέσεις: Document και Anchor. Ησχέση Document έχει μια πλειάδα για κάθε έγγραφο στο Web και η σχέση Anchor για κάθε σύνδεσμο σε κάθε έγγραφο του Web.
Παράδειγμα SELECT d.url, e.url, a.label FROM Document d SUCH THAT www.mysite.start * d, Document e SUCH THAT d e, Anchor a SUCH THAT a.base = d.url WHERE a.href = e.urrl
SELECT d.url, e.url, a.label FROM Document d SUCH THAT www.mysite.start * d, MENTIONS database Document e SUCH THAT d e, Anchor a SUCH THAT a.base = d.url WHERE a.href = e.urrl
W3QL Μοιάζει με την WebSQL με την διαφορά ότι χρησιμοποιεί εξωτερικά προγράμματα (παρόμοια με τις οριζόμενες από τον χρήστη συναρτήσεις στις αντικειμενοστρεφείς γλώσσες) για τον προσδιορισμό συνθηκών σε αρχεία και έχει μηχανισμούς διαχείρισης φορμών που εμφανίζονται κατά την πλοήγηση.
WebLog: Αντι για την σύνταξη της SQL χρησιμοποιεί επαγωγικούς κανόνες. Αναπτύχθηκε για το σύστημα FLORID WQL: Υποστηρίζει μεγαλύτερη λειτουργικότητα από την SQL όσο αφορά τις συναθροίσεις και την ομαδοποίηση και υποστηρίζει περιορισμένη δυνατότητα επερωτήσεων εντός των εγγράφων.
Δεύτερη Γενιά Γλωσσών Διαχείρισης Web Δεδομένων Οι γλώσσες αυτές διαφέρουν από τις γλώσσες πρώτης γενιάς: Παρέχουν προσπέλαση στην εσωτερική δομή των Web αντικειμένων που διαχειρίζονται. Μοντελοποιούν και την εσωτερική δομή των Web εγγράφων καθώς και τους εξωτερικούς συνδέσμους που τα συνδέουν. Δίνουν την δυνατότητα δημιουργίας νέων σύνθετων δομών από τα αποτελέσματα επερωτήσεων. (WebOQL, STRUCQL, FLORID)
WebOQL Υπάρχει μια βασική δομή το Hypertree, (είναι ένα κατευθυνόμενο δένδρο με labels στα βέλη, και δύο ειδών βέλη εσωτερικά και εξωτερικά). Τέτοια δένδρα μπορούν εύκολα πχ. από ένα HTML αρχείο με χρήση κάποιου wrapper. Σύνολα από hyper trees αποτελούν webs. Το αποτέλσαμ μιας επερώτησης με χρήση της WebOQL προέρχεται από διαχείριση webs και hypertrees. Η WebOQL είναι συναρτησιακή γλώσσα αν και οι επερωτήσεις έχουν μια SQL μορφή.
StrucQL Είναι η γλώσσα επερωτήσεων του STRUDELWeb κόμβου. Είναι γενικού σκοπού γλώσσα επερωτήσεων που βασίζεται σε μοντέλο δεδομένων labeled κατευθυνόμενου γράφου. Το αποτέλεσμα μιας επερώτησης είναι ένας γράφος στο ίδιο μοντέλο. Η γλώσσα έχει χρησιμοποιηθεί για την επερώτηση ετερογενών πηγών για ενοποίηση σε ένα γράφο δεδομένων.
Florid Είναι ένα πρότυπο που βασίζεται στην F-logic που υλοποιεί τον επαγωγικό και αντικειμενοστρεφή φορμαλισμό. Οι υπολογισμοί εκφράζονται σαν σύνολα επαγωγικών κανόνων.
Ulixes και Penelope Χρησιμοποιούνται στο ARANEUS. ULIXES:γλώσσα ορισμού όψεων στο web. Οι όψεις αυτές μπορούν να ενοποιηθούν και να αναλυθούν με τεχνικές βάσεων δεδομένων. Εξάγει σχεσιακά δεδομένα από στιγμιότυπα σχημάτων σελίδων που ορίζονται στο ADM μοντέλο. PENELOPE: Δημιουργεί hypertextual όψεις των δεδομένων.
Τι πολυπλοκότητα έχουν οι επερωτήσεις στο Web Υπάρχουν ερωτηματικά όσο αφορά την υπολογισιμότητα των επερωτήσεων. Υπάρχουν προτάσεις για ένα τυπικό τρόπο κατηγοροποίησης των Web επερωτήσεων αν μπορούν να υπολογισθούν ή όχι. Βελτιστοποίηση επερωτήσεων σε path traversal queries
Ενοποίηση Πληροφοριών Ο στόχος του συστήματος ενοποίησης πληροφοριών του web είναι να απαντά επερωτήσεις που μπορεί να χρειασθούν εξαγωγή και συνδυασμό δεδομένων από διαφορετικές πηγές. Στην ανάπτυξη αυτών των συστημάτων τα προβλήματα είναι όμοια με αυτά των ετερογενών βάσεων δεδομένων. Μεγάλος και αυξανόμενος αριθμός Web κόμβων Περιορισμένα Μεταδεδομένα για τα χαρακτηριστικά των πηγών Μεγάλο βαθμός αυτονομίας των πηγών
Δύο προσεγγίσεις στην ενοποίηση Warehouse προσέγγιση: Τα δεδομένα από τις διαφορετικές πηγές φορτώνονται σε μια αποθήκη και όλες οι επερωτήσεις εφαρμόζονται στην αποθήκη. Virtual προσέγγιση: Τα δεδομένα παραμένουν στις πηγές τους και οι επερωτήσεις διασπώνται, κατά την εκτέλεση, σε επερωτήσεις στις πηγές. Η προσέγγιση αυτή είναι καταλληλότερη όταν το πλήθος των πηγών είναι μεγάλο.
Άποψη του κόσμου Διεπαφή Χρήστη (βασίζεται στο Web) Περιγραφή Των πηγών Δημιουργία Σχεδίου εκτέλεσης Σχέδιο Εκτέλεσης Μηχανή Εκτέλεσης Διεπαφή Διεπαφή Διεπαφή INTERNET Δομημένα Αρχεία Διεπαφές Με φόρμες Σχεσιακές Βάσεις Αντικειμενοστρεφείς Βάσεις
Κόμβος με δυνατότητες browsing Γραφική Αναπαράσταση HTML δημιουργός Δηλωτικός προσδιορισμός της δομής του Web κόμβου Μεσολαβητής Λογική Αναπαράσταση του Web κόμβου Ενιαία όψη των δεδομένων WRAPPERS ΒΔ HTML σελίδες Δομημένα Αρχεία
Ορισμός του σχήματος διαμεσολάβησης Είναι το σύνολο των συλλογών και ονομάτων γνωρισμάτων που χρησιμοποιούνται για τον σχηματισμό επερωτήσεων. Για αποτίμηση μιας επερώτησης το σύστημα πρέπει να την μεταφράσει την επερώτηση στο σχήμα διαμεσολάβησης σε επερωτήσεις στις πηγές. Για τοσ κοπό αυτό χρειάζεται περιγραφές των πηγών. Ένα πρόβλημα είναι οι πληροφορίες για πληρότητα των πηγών στο διαδίκτυο.
Διαφορετικές δυνατότητες επεξεργασίας επερωτήσεων Οι διαφορετικές πηγές φαίνεται να έχουν και διαφορετικές δυνατότητες επεξεργασίας. Αυτές οι δυνατότητες πρέπει να περιγραφούν ρητά στο σύστημα και να χρησιμοποιηθούν για βελτίωση της απόδοσης. Ιδιαίτερα πρέπει να ληφθούν υπόψη τα αρνητικά και τα θετικά.
Βελτιστοποίηση Επερωτήσεων Ένας από τους στόχους είναι η επιλογή ενός ελάχιστου συνόλου από web πηγές και ο προσδιορισμός της ελάχιστης επερώτησης που θα σταλεί σε κάθε κόμβο. Το πρόβλημα όμως της βέλτιστης εκτέλεσης παραμένει ανοικτό ερευνητικά. Σε αντίθεση με τις βάσεις δεδομένων οι στατιστικές πληροφορίες που έχουμε είναι πολύ λίγες και επομένως δύσκολο να εκτιμηθεί το κόστος μιας επερώτησης. Έχει γίνει αρκετή μελέτη για ειδικές περιπτώσεις επερωτήσεων.
Μηχανές Εκτέλεσης Επερωτήσεων Η ανάπτυξη τέτοιων μηχανών παρουσιάζει ενδιαφέρον λόγω της αυτονομίας των πληροφοριακών πηγών αλλά και της απρόβλεπτης απόδοσης του δικτύου.
Κατασκευή wrappers Το πρόβλημα με την κατασκευή των wrappers είναι ότι πρέπει να εξάγουν πλειάδες από HTML σελίδες. Όμως οι HTML σελίδες έχουν σχεδιασθεί για να παρουσιάζουν δεδομένα σε ανθρώπινα όντα και όχι σε προγράμματα. Έχουν αναπτυχθεί εργαλεία για γρήγορη δημιουργία wrappers.
Αντιστοιχία Αντικειμένων Ένα από τα δύσκολα προβλήματα όταν έχουμε δεδομένα από πολλές πηγές είναι αν δύο αντικείμενα που αναφέρονται σε δύο διαφορετικές πηγές αφορούν την ίδια οντότητα στον κόσμο.
Εργασίες για την ανάπτυξη ενός Web κόμβου Επιλογή και προσπέλαση στα δεδομένα που θα παρουσιασθούν από τον κόμβο Ανάπτυξη της δομής του κόμβου δηλαδή προσδιορισμός των δεδομένων κάθε σελίδας και των συνδέσμων μεταξύ των σελίδων. Σχεδιασμός της γραφικής αναπαράστασης των σελίδων.
Οι δομές των web κόμβων μπορεί να δίνονται δηλωτικά. Η δομή του web κόμβου δίνεται σαν view πάνω σε υπάρχοντα δεδομένα. Όμως το αποτέλεσμα δεν είναι απλοί πίνακες αλλά γράφοι από web σελίδες. Τα διάφορα συστήματα διαφέρουν όσο αφορά το μοντέλο και την γλώσσα που χρησιμοποιούν. Ο δηλωτικός τρόπος μοιάζει πολύ με τις βάσεις δεδομένων.
Προβλήματα στην υποβολή ερωτήσεων στο διαδίκτυο Εύρεση και υποβολή ερωτήσεων στις πληροφοριακές πηγές Διαφορετικός τύπος πληροφοριών Σύντηξη των αποτελεσμάτων, αποβολή των επαναλήψεων, ταξινόμηση των αποτελεσμάτων
Γιαναλύσουναυτάταπροβλήματαοιχρήστεςμπορούν να καταφύγουν σε υπηρεσίες διαμεσολαβητών (mediators) και metasearchers. Οι υπηρεσίες αυτές παρέχουν στον χρήστη μια εικονική ενοποιημένη όψη των ετερογενών πηγών.
Αρχιτεκτονική Metasearchers και Mediators Εφαρμογή Ενοποιημένη όψη Mediator/ Metasearcher wrapper wrapper wrapper ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ ΔΕΔΟΜΕΝΑ
Οι wrappers εξάγουν από κάθε πηγή δεδομένων ένα κοινό μοντέλο δεδομένων. Επίσης υποστηρίζουν μια κοινή διεπαφή ερωτήσεων. Μια ερώτηση χρήστη μετασχηματίζεται από τον wrapper σε ερώτηση στη σχετική πηγή. Στη συνέχεια ο wrapper μετασχηματίζει τα αποτελέσματα σε τύπο όπως το κοινό μοντέλο δεδομένων.
Λειτουργικότητα Mediator/Metasearcher Επιλογή των βάσεων δεδομένων που είναι σχετικές με την ερώτηση του χρήστη Μετάφραση της ερώτησης. Εύρεση του τμήματος της ερώτησης που πρέπει να εκτελεσθεί σε κάθε βάση δεδομένων που έχει επιλεγεί. Τα τμήματα αυτά εκτελούνται στις αντίστοιχες βάσεις δεδομένων. Ενοποίηση των αποτελεσμάτων. Τα αποτελέσματα από τις βάσεις δεδομένων συνδυάζονται για την τελική απάντηση.
Η έρευνα διαφοροποιείται στην ανάπτυξη των δύο υπηρεσιών Οι metasearchers παρουσιάζουν στο χρήστη μια όψη που κατά κάποιο τρόπο είναι μια μορφή ένωσης των βάσεων δεδομένων. Οι mediators ενοποιούν πολλαπλές σχέσεις ή αντικείμενα. Η διεπαφή του χρήστη με τον mediator είναι όπως με τις σχεσιακές βάσεις δεδομένων, ο χρήστης δίνει μια επερώτηση και ο mediator επιστρέφει πλήρη απάντηση. Οι metasearchers δουλεύουν με μη δομημένα δεδομένα κειμένου και επιστρέφουν βαθμολογημένα με σπουδαιότητα κείμενα (η βαθμολογία με κάποιο αλγόριθμο).
Meta-searchers Τα WEB ευρετήρια είναι κεντρικά και κειμένου (alta vista). Δεν δίνουν πάντα επιτυχημένες απαντήσεις Ηδημιουργίαmetasearchers στο Internet είναι δύσκολη λόγω του πλήθους των πηγών. Ηδημιουργίαmetasearchers στο Internet είναι δύσκολη λόγω ασυμαβτότητας των πηγών.
Meta searchers-επιλογή της βάσης δεδομένων Τεράστιο πλήθος πηγών Για χαρακτηρισμό των πηγών θα πρέπει να γραφούν περιγραφές του περιεχομένου τους. Αυτόματη εξαγωγή περίληψης περιγραφής των πηγών (για την αυτόματη εξαγωγή χρειάζεται συνεργασία από την πηγή),
Μετάφραση της Επερώτησης Μοντέλο επερωτήσεων. Μερικές μηχανές αναζήτησης υποστηρίζουν μόνο το Boolean μοντέλο ανάκτησης. Vector space retrieval model. Σύμφωνα με αυτό μια ερώτηση είναι μια λίστα από όρους και τα έγγραφα βαθμολογούνται ανάλογα με την ομοιότητά τους προς την ερώτηση. Προβλήματα με ετερογενείς βάσεις. Πρέπει ο metasearcher να μεταφράζει την αρχική ερώτηση ώστε να προσαρμόζεται στη σύνταξη της πηγής.
Ενοποίηση Αποτελεσμάτων Οι αλγόριθμοι βαθμολόγησης συνήθως δεν είναι ανοικτοί Η ενοποίηση αποτελεσμάτων από πηγές που χρησιμοποιούν διαφορετικούς αλγόριθμους βαθμολόγησης είναι δύσκολο πρόβλημα. Είναι δύσκολο ακόμη και αν ξέρουμε τον αλγόριθμο. Στο χώρο της ενοποίησης εγγράφων το πρόβλημα είναι γνωστό σαν σύντηξη συλλογών (collection fusion).
Διαμεσολαβητές (mediators) Παρέχουν στον χρήστη μια ενοποιημένη όψη πολλαπλών ετερογενών πληροφοριακών πηγών. Οι πηγές μπορεί να περιέχουν ημιδομημένα δεδομένα. Μπορεί οι πηγές να υποστηρίζουν διαφορετική και περιορισμέμη διεπαφή στα δεδομένα.
Διαμεσολαβητές-Επιλογή Βάσεων Δεδομένων Εκτελούν διάσπαση της ερώτησης, αποφασίζουν τις πηγέ ςπου είναι σχετικές με την ερώτηση και για τα δεδομένα που θέλουν από κάθε πηγή. View definition approach- περιγράφει τις ενοποιημένες συλλογές σαν όψεις των πηγών. Προσέγγιση που ταιριάζει στην κοινότητα τωνβάσεωνδεδομένων Source definition approach- υποθέτει την ύπαρξη καθολικών κατηγορημάτων και ορίζει τα περιεχόμενα των πηγών σε σχέση με τα καθολικά κατηγορήματα. Προσέγγιση από τον χώρο της τεχνητής νοημοσύνης.
Διαμεσολαβητές-Μετάφραση Επερωτήσεων Ο βελτιστοποιητής αναπτύσσει ένα πλάνο εκτέλεσης της επερώτησης (ποια επερώτηση θα σταλεί που, και πως τα αποτελέσματα θα συνδυασθούν). Η συνηθισμένη τακτική algebraically optimal plans. Εστιάζοντας σε SPJ επερωτήσεις: ένα πλάνο P είναι algebraically optimal αν δεν υπάρχει άλλο πλάνο P έτσι που για κάθε επερώτηση w που στέλνεται στον wrapper από το P υπάρχει μια αντίστοιχη επερώτηση w του P τέτοια που τα σύνολα των σχέσεων και των συνθηκών του w είναι υπερσύνολο των αντίστοιχων του w και το σύνολο των γνωρισμάτων του w που εξάγονται είναι υπερσύνολο του συνόλου των γνωρισμάτων που εξάγει η w