Μηχανές Αναζήτησης από τη σκοπιά των Βάσεων Δεδοµένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μηχανές Αναζήτησης από τη σκοπιά των Βάσεων Δεδοµένων"

Transcript

1 Μηχανές Αναζήτησης από τη σκοπιά των Βάσεων Δεδοµένων 1

2 2 Αναζήτηση Πληροφοριών Information Retrieval: κλάδος της βιβλιοθηκονοµίας και της Πληροφορικής. Στόχος: ανεύρεση πληροφορίων µέσα σε συλλογές (βιβλίων, άρθρων, βιβλιοθηκών). Προσεγγίσεις (αλγόριθµοι και τεχνικές IR): Ταξινόµηση και Καταλογογράφηση. Ενδείκτες. Αναζητήσεις µε λέξεις κλειδιά. Δυνατότητα Επερωτήσεων.

3 3 Ανάγνωσµα Searching the web. A. Arasu, J. Cho, H. Garcia-Molina, and S. Raghavan. ACM Transactions on Internet Technologies, 1(1), June 2001.

4 4 Συνθήκες Αναζήτησης Πληροφοριών στον Ιστό Οι κλασσικές τεχνικές IR αφορούν κυρίως µικρές, κλειστές και συνεκτικές (coherent) συλλογές περιεχοµένου. Ο Ιστός: Ενσωµατώνει τεράστιο όγκο πληροφοριών. Ελάχιστα συνεκτικός. Ανοικτός. Αλλάζει συνεχώς και µε γρήγορους ρυθµούς. Είναι γεωγραφικά κατανεµηµένος. Έχει κάποια δοµή. Εποµένως, χρειαζόµαστε νέες τεχνικές (µεταβίβαση υποδείγµατος;) για: Συλλογή πληροφοριών. Δηµιουργία και Διαχείριση Κλιµακώσιµων Ενδεικτών. Αξιοποίηση της δοµής του Ιστού (υπερσύνδεσµοι) για ανίχνευση σχέσεων ανάµεσα σε πληροφορίες.

5 Πληθώρα των πληροφοριών στον Ιστό Πέραν του 1 δις ιστοσελίδων στον Ιστό (στοιχεία 2000). Θεωρείται ότι το µέγεθος του Ιστού διπλασιάζεται σε λιγότερο από δύο χρόνια. Υπάρχει η εκτίµηση ότι η τάση αυτή θα συνεχιστεί για τα επόµενα δύο χρόνια. Εκτός από τις νέες ιστοσελίδες που προστίθενται, οι παλαιές αλλάζουν µε σχετικά υψηλή συχνότητα: Μελέτη έχει δείξει ότι γύρω στο 23% των ιστοσελίδων αλλάζουν καθηµερινά. Το ποσοστό αυτό ανέρχεται στο 40% των ιστοσελίδων του πεδίου.com Στο πεδίο.com, σε 10 ηµέρες περίπου οι µισές από τις ιστοσελίδες εξαφανίζονται. Η διαδικασία αλλαγών των ιστοσελίδων µοντελοποιείται ικανοποιητικά από διεργασία Poisson. 5

6 Δοµή του Ιστού A. Broder paper (9th WWW Conference, 2000) Graph Structure in the Web. 6

7 Αναζήτηση Πληροφοριών στον Ιστό Crawler Based Search Engines (Google, AltaVista) Χρησιµοποιούν «αράχνη» (crawler) για τις αναζητήσεις τους Αυτόµατη ανάκτηση σελιδών από τον Iστό Οι αλλαγές σε µια ιστοσελίδα ανευρίσκονται αυτόµατα Human Powered Directories (Yahoo, MSN Search) Ιστοσελίδες προστίθενται στη γνωσιακή βάση του συστήµατος χειρονακτικά. Οι διαχειριστές των διάφορων ιστιακών κόµβων υποβάλλουν µια περιγραφή του κόµβου στο directory. H αναζήτηση µιας ιστοσελίδας βασίζεται στα δεδοµένα και στην περιγραφή η οποία έχει υποβληθεί στο σύστηµα Το σύστηµα δεν ενηµερώνεται αυτόµατα για οποιεσδήποτε αλλαγές σε µια ιστοσελίδα ( πλην εξαιρέσεων ) Hybrid Search Engines (HotBot, Go/Infoseeκ) Συνδυάζουν χαρακτηριστικά των δύο προηγούµενων τύπων µηχανών αναζήτησης Συνήθως ένα τέτοιο είδος µηχανής τείνει να χρησιµοποιεί περισσότερο τον ένα εκ των δυο τρόπων αναζήτησης 7

8 Δοµή Μηχανών Αναζήτησης (crawlerbased) Μ. Δικαιάκος,

9 9 Δοµή Μηχανών Αναζήτησης (crawler-based) Crawler (ιχνηλάτες): προγράµµα ανάκτησης πόρων από τον Ιστό. Crawler control: δέχεται νέα URL από τους ιχνηλάτες και αποφασίζει ποιοι πόροι θα ανακτηθούν στη συνέχεια. Page Repository: αποθηκεύει τους πόρους που ανακτώνται, για περαιτέρω επεξεργασία. Indexer Module (µονάδα ενδείκτη): εξαγάγει λέξεις από κάθε ιστοσελίδα και καταγράφει το URL στο οποίο υπάρχει µια λέξη. Δηµιουργεί ένα µεγάλο πίνακα αναζήτησης (lookup table), τον Text Index. Collection Analysis Module: δηµιουργεί µη-συµβατικούς ενδείκτες. Π.χ. τον ενδείκτη δοµής (structure index) και τον ενδείκτη ωφέλειας (utility index).

10 10 Δοµή Μηχανών Αναζήτησης (crawler-based) Κρύπτη ιστιακών πόρων (cache). Query Engine (µηχανή επερωτήσεων): υπεύθυνη για την παραλαβή και εκτέλεση επερωτήσεων χρηστών. Προς τούτο χρησιµοποιεί τους ενδείκτες και ορισµένες φορές και την αποθήκη ιστοσελίδων. Ranking Module (µονάδα ιεράρχισης): ασχολείται µε την ιεράρχηση των (συνήθως πολλών) απαντήσεων που δίνει η µηχανή επερωτήσεων, ώστε οι πιό σηµαντικέςσχετικές απαντήσεις να εµφανίζονται πρώτες.

11 11 Λειτουργία Ιχνηλατών Ένας crawler αποτελεί ένα µικρό πρόγραµµα στο οποίο δίνεται ένα αρχικό σύνολο από URLs τα οποία τοποθετεί σε µια ουρά. Ακολούθως βάσει κριτηρίων ο crawler επιλέγει ένα URL από την ουρά αυτή και ανακτά την αντίστοιχη ιστοσελίδα. Ο ιχνηλάτης αναλύει την ιστοσελίδα και εξάγει τα URL που αυτή περιέχει, τοποθετώντας τα στην ουρά. Η διαδικασία επαναλαµβάνεται µέχρι τη στιγµή που ο ιχνηλάτης αποφασίζει να σταµατήσει.

12 12 Λειτουργία Ιχνηλατών Θέµατα που πρέπει να αντιµετωπίσουµε: Ποιες σελίδες θα κατεβάσει ο ιχνηλάτης (συνήθως µικρό υποσύνολο των διαθέσιµων ιστοσελίδων) ανάγκη για ιεράρχηση προτεραιοτήτων. Στρατηγική επανάληψης επισκέψεων ιχνηλάτη πως λαµβάνουµε υπόψη τον ρυθµό αλλαγής περιεχοµένου ιστοσελίδων. Πως ελαχιστοποιούµε την ενόχληση των ιστιακών εξυπηρετητών που επισκέπτεται ένας ιχνηλάτης; Πως µπορούµε να εκτελέσουµε παράλληλα την ιχνηλασία;

13 13 Βαθµός Σηµαντικότητας Ιστοσελίδων Θέλουµε να επισκεπτόµαστε τις σηµαντικές ιστοσελίδες πριν από τις λιγότερο σηµαντικές ιστοσελίδες, για κάποιο µέτρο σηµαντικότητας. Μοντέλα καθορισµού σηµαντικότητας: Ελκόµενα από το Ενδιαφέρον (interest driven): µε βάση τα «ενδιαφέροντα» των χρηστών. Ελκόµενα από την Δηµοτικότητα (popularity driven): µε βάση τη δηµοτικότητα ιστοσελίδων. Ελκόµενα από την Τοποθεσία (Location driven): µε βάση το πεδίο στο οποίο βρίσκονται τοποθετηµένες οι ιστοσελίδες. Με συνδυασµό των παραπάνω µοντέλων.

14 Σηµαντικότητα Ιστοσελίδων µε βάση το Ενδιαφέρον Επερώτηση Οδηγός (driving query): χρησιµοποιείται για να καθορίσει ποιες σελίδες είναι «ενδιαφέρουσες». Δεδοµένης µιας επερώτησης-οδηγού Q, ο «βαθµός σηµαντικότητας» IS(P) µιας ιστοσελίδας P κρίνεται από την κειµενική οµοιότητα (textual similarity) µεταξύ P και Q. Υπολογίζουµε την κειµενική οµοιότητα µοντελοποιώντας τα P και Q σαν v-διάστατα διανύσµατα <w1, w2,, wν> όπου τα wi αναπαριστούν τις λέξεις ενός λεξιλογίου και αποτυπώνουν τη σηµαντικότητα της µέσα σε ένα έγγραφο. Το w i ισούται µε τον αριθµό των εµφανίσεων µιας λέξης σε ένα έγγραφο, επί το inverse document frequency (idf), δηλαδή την αντίστροφη συχνότητα εµφάνισης της λέξης στο σώµα των εγγράφων του Ιστού (πως υπολογίζουµε το idf;) Η κειµενική οµοιότητα µεταξύ P και Q ορίζεται σαν το εσωτερικό γινόµενο των δύο διανυσµάτων. 14

15 15 Σηµαντικότητα Ιστοσελίδων µε βάση το Ενδιαφέρον Ο βαθµός σηµαντικότητας µιας ιστοσελίδας εξαρτάται από το πόσο «δηµοφιλής» είναι η σελίδα αυτή. Ως βαθµό δηµοτικότητας µιας ιστοσελίδας P χρησιµοποιούµε το backlink count, δηλαδή τον αριθµό των υπερσυνδέσµων από ιστοσελίδες διαφορετικές της P, οι οποίοι παραπέµπουν στην P. Στην περίπτωση αυτή, ο backlink count αποτελεί το µέτρο της σηµαντικότητας µιας ιστοσελίδας: IB(P) Ο µετρητής backlink έλκει την καταγωγή του από τον µετρητή ετεροαναφορών (citation count) των βιβλιοθηκών και των ακαδηµαϊκών δηµοσιεύσεων.

16 16 Σηµαντικότητα Ιστοσελίδων µε βάση την Τοποθεσία Ο βαθµός σηµαντικότητας µιας ιστοσελίδας ορίζεται από την τοποθεσία της και όχι τα περιεχόµενά της. Έτσι, η σηµαντικότητά της IL(P) είναι συνάρτηση του URL της ιστοσελίδας. Π.χ. ιστοσελίδες µε URL το οποίο καταλήγει σε.com ή έχει την συµβολοσειρά home ή index ή έχει λιγότερους χαρακτήρες «/» µπορεί να είναι πιο σηµαντικές από άλλες.

17 17 Προτεραιοδότηση Ιστοσελίδων Ενας ιχνηλάτης διατηρεί µια ουρά από εκκρεµή URL, τα οποία χρονοδροµολογεί για ανάκτηση. Για τον σκοπό αυτό, κάθε URL u πρέπει να έχει µια προτεραιότητα (ordering metric), ώστε να προηγείται η ανάκτηση του URL µε τον υψηλότερο βαθµό. Ο βαθµός σηµαντικότητας ιστοσελίδων µπορεί να χρησιµοποιηθεί για τον καθορισµό της προτεραιότητας των υπερσυνδέσµων που εισάγονται στην ουρά του ιχνηλάτη. Αν π.χ. ενδιαφερόµαστε για ιστοσελίδες µε υψηλή δηµοτικότητα, θα πρέπει να εισαγάγουµε το u στην ουρά µε βάση το IB(P), όπου P είναι η ιστοσελίδα στην οποία παραπέµπει το URL u. Προφανώς, για τον υπολογισµό του IB(P) θα πρέπει να χρησιµοποιήσουµε κάποια προσέγγιση.

18 18 Προτεραιοδότηση Ιστοσελίδων (συνέχεια) Αν µας ενδιαφέρουν ιστοσελίδες συγκεκριµένης τοποθέτησης, ο καθορισµός προτεραιότητας από το URL u είναι σχετικά εύκολος µόνο από το u (µπορεί να γίνει τοπικά στον ιχνηλάτη). Αν µας ενδιαφέρουν ιστοσελίδες λόγω σηµασιολογικού ενδιαφέροντος, υπάρχει πρόβληµα γιατί δεν µπορούµε να υπολογίσουµε το IS(P) πριν ανακτήσουµε την ιστοσελίδα P. Προσέγγιση: χρησιµοποιούµε την άγκυρα για να εκτιµήσουµε την εγγύτητα της P µε κάποια επερώτηση Q. Πειραµατισµοί: Θεώρηση των ιστοσελίδων του Στάνφορδ σαν το σύνολο του Ιστού. Εξωτερικές ιστοσελίδες δεν ανακτώνται. Μέτρηση σχετικής επίδοσης ιχνηλασίας µε χρήση διαφορετικών προσεγγίσεων προτεραιοδότησης.

19 Αξιολόγηση Επίδοσης Ιχνηλατών Επιθυµούµε ο ιχνηλάτης να δίνει προτεραιότητα στην επίσκεψη των σηµαντικών ιστοσελίδων. Πως κρίνουµε αν ο ιχνηλάτης κάνει καλή δουλεία; Ορίζουµε µετρική ποιότητας του ιχνηλάτη µε βάση τα ακόλουθα δύο εναλλακτικά µοντέλα: Crawl & Stop: ξεκίνα από µια αρχική σελίδα, κατέβασε Κ ιστοσελίδες και µετά σταµάτα. Ορίζουµε σαν καυτές σελίδες (hot pages) αυτές που έχουν τις Κ υψηλότερες τιµές σηµαντικότητας. Η ποιότητα της ιχνηλασίας µας εξαρτάται από το πόσες καυτές σελίδες επιτυγχάνουµε να ανακτήσουµε στη διάρκειά της. Crawl and Stop with Threashold: ορίζουµε σαν καυτές σελίδες αυτές που έχουν βαθµό σηµαντικότητας µεγαλύτερο από κάποιο κατώφλι G. Η ποιότητα της ιχνηλασίας µας εξαρτάται από το πόσες καυτές σελίδες επιτυγχάνουµε να ανακτήσουµε στη διάρκειά της. 19

20 Αξιολόγηση Επίδοσης Ιχνηλατών Crawl & Stop: αν οι ιστοσελίδες του Ιστού είναι Τ, η ποιότητα της ιχνηλασίας (για ιχνηλάτη που επιλέγει τυχαίως ιστοσελίδες) είναι κατά µέσο όρο: Κ. 100 /T (υπολογίστε το). Crawl & Stop with Threashold: αν οι ιστοσελίδες του ιστού που έχουν βαθµό σηµαντικότητας πάνω από το κατώφλι G είναι H, η ποιότητα της ιχνηλασίας (για ιχνηλάτη που επιλέγει τυχαίως ιστοσελίδες) ισούται µε τον είναι κατά µέσο όρο: (K. 100) / Τ όταν Κ < Η (υπολογίστε το). Η βέλτιστη ποιότητα είναι K. 100 / H (γιατί;) 1 20

21 Πειραµατισµός Crawl & Stop µε κατώφλι G=100 (σελίδες µε πάνω από 100 παραποµπές θεωρούνται καυτές). Μέτρηση του αριθµού των καυτών σελίδων που ανακτώνται. Hot Pages crawled Pages crawled 1 21

22 22 Ανανέωση Ιστοσελίδων Από τη στιγµή που ο ιχνηλάτης επέλεξε και ανάκτησε σηµαντικές ιστοσελίδες, πρέπει να αποφασίσει µε τι περιοδικότητα θα τις ανανεώσει. Πιθανές πολιτικές: Οµοιόµορφης ανανέωσης (uniform refresh policy): Ο ιχνηλάτης χρησιµοποιεί την ίδια συχνότητα f επίσκεψης σε όλες τις ιστοσελίδες. Επανακάµπτει σε όλες τις σελίδες µε την ίδια συχνότητα, ανεξάρτητα από τον ρυθµό ανανέωσης τους. Αναλογικής ανανέωσης (proportional refresh policy): Επανακάµπτει σε µια σελίδα, ανάλογα µε τον ρυθµό ανανέωσης της. Ο ιχνηλάτης επισκέπτεται συχνότερα ιστοσελίδες που αλλάζουν συχνότερα. Αν λi είναι η συχνότητα αλλαγής µιας ιστοσελίδας και fi είναι η συχνότητα ανανέωσής της από τον ιχνηλάτη, τότε πρέπει το λi/ fi να είναι το ίδιο για όλες τις σελίδες.

23 Μετρικές Φρεσκάδας Ανάµεσα στις δύο στρατηγικές ανανέωσης, ποιά επιτυγχάνει την υψηλότερη φρεσκάδα ; Μετρικές Φρεσκάδας (freshness metrics): πως συγκρίνουµε την φρεσκάδα δύο συλλογών ιστοσελίδων Α και Β; Π.χ., αν η Α έχει 10 σελίδες ενηµερωµένες ενώ η Β έχει 15 σελίδες ενηµερωµένες κάποια χρονική στιγµή, τότε λέµε ότι η Β είναι πιό φρέσκια από την Α. Ακόµη κι αν όλες οι σελίδες της Α και της Β είναι ληγµένες, η συλλογή Α µπορεί να θεωρηθεί πιό σύγχρονη από την Β αν η Α ανανεώθηκε πριν µια µέρα ενώ η Β πριν ένα χρόνο. Χρειαζόµαστε ορισµούς για τη Φρεσκάδα (Freshness) και την Ηλικία (Age) για τις τοπικές σελίδες του ιχνηλάτη, σε σύγκριση µε τις σελίδες στον Ιστό. 23

24 Ορισµοί Μετρικών (Metrics Definitions) Φρεσκάδα ιστοσελίδας e i: F(ei,t) = 1, αν η ei είναι ενηµερωµένη τη χρονική στιγµή t και 0 αλλοιώς. Φρεσκάδα τοπικής συλλογής ιστοσελίδων S = {e 1,..., en}: ισούται µε τη µέση τιµή των βαθµών φρεσκάδας των συστατικών της συλλογής. Ηλικία ιστοσελίδας ei: A(ei,t) = t modification time of ei, αν η ei δεν είναι ενηµερωµένη τη χρονική στιγµή t και 0 αλλοιώς. Ηλικία τοπικής συλλογής ιστοσελίδων S = {e1,..., en}: ισούται µε τη µέση τιµή της ηλικίας τών συστατικών της συλλογής. Για να βρούµε τη µέση φρεσκάδα και ηλικία σε µια µεγάλη χρονική περίοδο, χρησιµοποιούµε ολοκλήρωµα: F(ei) = lim ( F(ei;t) dt)/t 24

25 Στρατηγική Ανανέωσης Ιστοσελίδων Ο ιχνηλάτης µπορεί να ανακτήσει έναν περιορισµένο αριθµό ιστοσελίδων ανά χρονικό διάστηµα (εκατοντάδες σελίδες το δευτερόλεπτο, συνήθως). Για να καταρτίσουµε µια καλή στρατηγική ανανέωσης ιστοσελίδων, θα πρέπει να αξιοποιήσουµε τον πόρο (resource) αυτό, δηλαδή την ικανότητα ανάκτησης x ιστοσελίδων το δευτερόλεπτο, ώστε να βελτιστοποιήσουµε την µετρική φρεσκάδας της συλλογής µας. Υποθέστε ότι: Μπορούµε να ανακτούµε 1 ιστοσελίδα την ηµέρα. Η συλλογή µας αποτελείται από δύο ιστοσελίδες, η µία εκ των οποίων (e1) ανανεώνεται 9 φορές την ηµέρα και η άλλη (e2)µόνο µια φορά. Ποιά σελίδα θα κατεβάσουµε και γιατί; Με κάποιες απλοποιητικές υποθέσεις µπορούµε να δείξουµε ότι συµφέρει να ανακτήσουµε την e2 (αποδείξτε γιατί). 25

26 26 Στρατηγική Ανανέωσης Ιστοσελίδων Υποθέτοντας ότι ο ρυθµός αλλαγής ιστοσελίδων είναι διεργασία Poisson, αποδεικνύεται ότι η οµοιόµορφη πολιτική είναι πάντοτε υπέρτερη της αναλογικής, για οποιοδήποτε αριθµό σελίδων, συχνότητα αλλαγής και συχνότητα ενηµέρωσης. Για απόδειξη βλ. Cho & Molina, Synchronizing a database to improve freshness, Intl' Conf. Management of Data, 2000.

27 Αποθήκη Ιστοσελίδων (Repository) To page repository εκτελεί δυο σηµαντικές λειτουργίες: Προσδίδει µέσω της κατάλληλης διεπαφής την δυνατότητα στον ιχνηλάτη για αποθήκευση σελιδών. Προσφέρει την δυνατότητα στον indexer και στο collection analysis module για αποδοτική και εύκολη πρόσβαση στις αποθηκευµένες σελίδες. Το page repository δεν αποτελεί ένα κλασικό σύστηµα αποθήκευσης και διαχείρισης δεδοµένων. Δεν χρειάζονται δοσοληψίες, απογραφή (logging), δοµή καταλόγου κλπ, όπως σε ΒΔ ή Συστήµατα Αρχείων. Βασικές προκλήσεις: Κλιµακωσιµότητα: να µπορούµε να αποθηκεύουµε 27

28 28 Αποθήκη Ιστοσελίδων: Θέµατα Σχεδιασµού Κατανοµή ιστοσελίδων στους κόµβους ενός κατανεµηµένου συστήµατος: οµοιόµορφη (uniform) ή κατακερµατισµένη (hash distribution). Στην κατατεµαχισµένη, η τοποθέτηση µιας ιστοσελίδας σε κάποιο αποθηκευτικό κόµβο εξαρτάται από το όνοµα της ιστοσελίδας. Φυσική οργάνωση των ιστοσελίδων σε ένα αποθηκευτικό κόµβο: Πρόσθεση και εισαγωγή ιστοσελίδων Ροή υψηλής ταχύτητας Τυχαία πρόσβαση

29 29 Φυσική Οργάνωση Ιστοσελίδων σε Κατακερµατισµένη οργάνωση (hashed): Ένας δίσκος οργανώνεται σαν σύνολο από καλάθια κατακερµατισµού. Κάθε καλάθι έχει τόση χωρητικότητα ώστε να χωράει στην κεντρική µνήµη. Μια ιστοσελίδα µπαίνει σε κάποιο καλάθι, ανάλογα µε τον κώδικα κατακερµατισµού που συνάγεται από το όνοµά της. Οργάνωση απογραφής (log-structured organization): Δεδοµένης της µεγάλης συχνότητας εγγραφών, µπορούµε να κερδίσουµε χρησιµοποιώντας εγγραφές µέσω απογραφής. Ένας δίσκος θεωρείται σαν µια µεγάλη, συνεχής, σειριακή δοµή απογραφής, στην οποία επικολλούµε (append) εισερχόµενες ιστοσελίδες. Η ανάγκη τυχαίας πρόσβασης µπορεί να υποστηριχθεί µέσω επιπρόσθετου ενδείκτη Β-δένδρου ο οποίος απεικονίζει URLs σε φυσικές θέσεις στο δίσκο. Υβριδική προσέγγιση: χρησιµοποιούµε κατακερµατισµένη οργάνωση, χωρίζοντας το δίσκο σε τελάρα, µέσα στα οποία οι ιστοσελίδες εισάγονται µε οργάνωση απογραφής.

30 30 Στρατηγικές Ανανέωσης Μαζικός Ιχνηλάτης (batch-mode ): Εκτελείται περιοδικά (π.χ., µιά φορά το µήνα) και ιχνηλατεί για ένα συγκεκριµένο χρονικό διάστηµα µέχρι να συλλέξει έναν καθορισµένο αριθµό ιστοσελίδων. Ενηµερώνει την αποθήκη του στη διάρκεια της ιχνηλασίας. Σταθερός ιχνηλάτης (steady crawler): Τρέχει ασταµάτητα, παράσχοντας ενηµερώσεις της αποθήκης και καινούργιες ιστοσελίδες συνέχεια. Στην περίπτωση µαζικού ιχνηλάτη, µπορεί να ακολουθείται πολιτική µερικής ιχνηλασίας, όπου ο µαζικός ιχνηλάτης επισκέπτεται ένα υποσύνολο ιστοσελίδων ή ιστιακών τόπων. Ενηµέρωση αποθήκης: Εντός τόπου (in place): καθώς ανακτούµε ιστοσελίδες, τις εντάσσουµε κατευθείαν στην αποθήκη. Επισκιασµός (shadowing): οι νέες ιστοσελίδες σώζονται σε προσωρινό χώρο και η ενηµέρωση της αποθήκης γίνεται ασύγχρονα (πλήρης αποσύνδεση ενηµέρωσης από ανακτήσεις από την αποθήκη).

31 31 Ενδεικτοδότηση (Indexing) Ενδείκτης δοµής: Κατασκευάζεται από τη µονάδα ενδείκτη (indexer module). Αποτελεί µια κλιµακώσιµη και αποδοτική δοµή αναπαράστασης του Ιστού ως γραφήµατος (µε αρκετά εκατοµύρια κόµβους και ακµές). Κατασκευασµένος ώστε να παρέχει µε σχετική ευκολία πληροφορίες γειτνίασης (neighborhood information). Π.χ, δεδοµένης µιας ιστοσελίδας P να βρεθούν οι ιστοσελίδες στις οποίες παραπέµπει η P, ή τα αδέλφια της P. Eνδείκτης περιεχοµένου: Κατασκευάζεται από τη µονάδα ενδείκτη (indexer module). Συνήθως χρησιµοποιεί κάποια γνωστή µέθοδο υποστήριξης ανάκτησης µε βάση κείµενο, όπως suffix arrays, inverted files ή inverted indexes και signature files. Eνδείκτης ωφελείας (utility index) : Κατασκευάζεται από τη µονάδα ανάλυσης συλλογής αναλόγως µε τα χαρακτηριστικά της µηχανής αναζήτησης στην οποία ανήκει. Π.χ., σε ένα ψαχτήρι ιστιακού τόπου, είναι χρήσιµος ένας ενδείκτης του ιστιακού τόπου (site index).

32 Δείκτες Κειµένου (text indexes) Ένας αντεστραµµένος ενδείκτης αποτελείται από σύνολο αντεστραµµένων καταλόγων έναν για κάθε λέξη (ή όρο του ενδείκτη). Ο αντεστραµµένος κατάλογος περιέχει µια σειρά από τοποθεσίες όπου συναντάται ο συγκεκριµένος όρος: ταυτότητα ιστοσελίδας και θέση του όρου µέσα στην ιστοσελίδα. Επιπλέον της τοποθεσίας, µπορεί να υπάρχουν και άλλες πληροφορίες σχετικές µε τα συµφραζόµενα της εµφάνισης του όρου στην ιστοσελίδα: αν π.χ. βρίσκεται µέσα σε άγκυρα, ή σε έντονη συµβολοσειρά κλπ. Παράλληλα µε τις αντεστραµµένες λίστες, οι περισσότεροι ενδείκτες κειµένου έχουν και ένα λεξικό 32

33 33 Κατασκευή Ενδείκτη Κειµένου Η κατασκευή ενός ενδείκτη ακολουθεί τα παρακάτω βήµατα: 1. Επεξεργασία σελίδας για εξαγωγή τοποθεσιών της µορφής <λέξη, θέση>. 2. Ταξινόµηση των τοποθεσιών µε βάση πρώτα τη λέξη και µετά τη θέση. 3. Εγγραφή των ταξινοµηµένων τοποθεσιών σαν συλλογή από αντεστραµµένους καταλόγους στο δίσκο. Όταν θέλουµε όµως να κατασκευάσουµε ενδείκτες για µηχανές αναζήτησης: Μεγάλος αριθµός ιστοσελίδων δίνει τεράστιους ενδείκτες, η δηµιουργία των οποίων απαιτεί σηµαντικούς υπολογιστικούς πόρους. Η περιοδική ανανέωση και προσθετική ενηµέρωση ενός

34 34 Κατάτµηση Ενδεικτών Για την κατάτµηση ενός µεγάλου ενδείκτη σε περισσότερες µηχανές, υπάρχουν δύο βασικές τεχνικές: Local inverted file (τοπικό αντεστραµµένο αρχείο): ένας ενδείκτης αποτελείται από πολλούς τοπικούς ενδείκτες, καθένας εκ των οποίων δεικτοδοτεί ένα διαφορετικό υποσύνολο των ιστοσελίδων της συλλογής µας. Global inverted file (γενικό αντεστραµµένο αρχείο): γίνεται κατάτµηση µε βάση τους όρους του ενδείκτη επερωτήσεις για διαφορετικούς όρους εξυπηρετούνται από διαφορετικούς εξυπηρετητές.

35 Ιεράρχηση Ιστοσελίδων και Ανάλυση Η εµφάνιση ιστοσελίδων ως αποτελεσµάτων επερωτήσεων για λέξεις κλειδιά δεν είναι αρκετή σαν λύση στον Ιστό διότι: Υπάρχει τεράστιος αριθµός σελίδων, µε µεγάλη διαφοροποίηση στην ποιότητα του περιεχοµένου. Άρα, πολλές από τις απαντήσεις δεν είναι ενδιαφέρουσες ή σχετικές. Πολλές ιστοσελίδες δεν είναι επαρκώς αυτοπεριγραφικές ή δίνουν παραπλανητικές πληροφορίες. Για την υποβοήθηση των µηχανών αναζήτησης, χρειαζόµαστε αλγορίθµους οι οποίοι να υποβοηθούν την ιεράρχηση των απαντήσεων σε επερωτήσεις µε λέξεις 35

36 Αλγόριθµος PageRank Ενας από τους πιο γνωστούς αλγορίθµους είναι ο PageRank των Brin & Page (7 th WWW Conference, 1998). Επεκτείνει τη βασική ιδέα της ιεράρχησης µε βάση τον αριθµών των παραποµπών, λαµβάνοντας υπόψη του και την σηµαντικότητα των σελίδων από τις οποίες προέρχονται οι παραποµπές. Θεωρεί ότι έχουν ισχυρά συνδετικό γράφηµα και χρησιµοποιεί τον ακόλουθο ορισµό για το βαθµό επιρροής (ranks): r(i) = r(1)/n(1) + r(2)/n(2) + + r(j)/n(j) + +r(m)/n(m) Όπου το j ανήκει στο σύνολο B(j) των σελίδων οι οποίες παραπέµπουν στην i (j=1,,m). Ν(j) είναι ο αριθµός των 36

37 37 Αλγόριθµος PageRank Αποδεικνύεται ότι η τιµή του rank µιας ιστοσελίδας, µε βάση τον ορισµό των Brin & Page, είναι ανάλογη της πιθανότητας µε την οποία ένας τυχαίος πλοηγός (random surfer) θα επισκεφθεί την ιστοσελίδα αυτή. Random surfer: κάποιος που πλοηγείται στον ιστό, επιλέγοντας µε τυχαίο τρόπο τους συνδέσµους που θα ακολουθήσει. Η πλοήγηση αυτή ισοδυναµεί µε τυχαίο περίπατο (random walk) στο γράφηµα του ιστού.

38 Αλγόριθµος HITS (Hypertext Induced Υπολογίζει δύο τιµές ιεράρχησης ιστοσελίδων: Τιµή αυθεντίας (authority score) Τιµή κοµβικότητας (hub score) Ιστοσελίδες, οι οποίες είναι οι πιθανότερες να περιέχουν τις πιο έγκυρες πληροφορίες για µια συγκεκριµένη επερώτηση, ονοµάζονται ιστοσελίδες αυθεντίας. Ιστοσελίδες οι οποίες παραπέµπουν σε πολλές ιστοσελίδες αυθεντίας, ονοµάζονται κοµβικές (hubs). Μεταξύ των αυθεντιών και των κοµβικών ιστοσελίδων, υπάρχει µια σχέση αµφίδροµης ενίσχυσης: Μια ιστοσελίδα αυθεντίας πρέπει να δέχεται παραποµπές από αναγνωρισµένες κοµβικές ιστοσελίδες. Μια κοµβική ιστοσελίδα πρέπει να παραπέµπει σε 38

39 39 Αλγόριθµος HITS Eύρεση ενός µικρού υπογράφου από το Διαδίκτυο και εφαρµογή ανάλυσης συνδέσµων ( link analysis ) σε αυτόν, προς ανεύρεση των αυθεντιών και των κοµβικών ιστοσελίδων. Η επιλογή του υπογράφου αυτού εξαρτάται από το είδος της επερώτησης του χρήστη και γίνεται µε χρήση του ενδείκτη κειµένου.

40 Αρχιτεκτονική CBSE Ranking and link analysis (4) Λειτουργία του αλγορίθµου HITS: Eύρεση ενός µικρού υπογράφου από το Διαδίκτυο και εφαρµογή ανάλυσης συνδέσµων ( link analysis ) σε αυτόν, προς ανεύρεση των hub pages και authority pages. Η επιλογή του υπογράφου αυτού εξαρτάται από το είδος της επερώτησης του χρήστη. Ο αλγόριθµος HITS ουσιαστικά µας λέει ότι ένα καλό hub page «δείχνει» σε πολλά καλα authority pages και αντίστροφα 1 40

41 41 Οι Μηχανές Αναζήτησης από την Combining Systems and Databases: A Search Engine Retrospective. Eric A. Brewer, In J. M. Hellerstein and M. Stonebraker (Editors), Readings in Database Systems, Fourth Edition, MIT Press, 2005.

42 42 Εισαγωγικά Μια σύγχρονη Μηχανή Αναζήτησης χειρίζεται πάω από 3 δις έγγραφα, µε περίπου 10 ΤΒ δεδοµένων και δέχεται γύρω στα 150 εκατοµύρια επερωτήσεις ηµερησίως, µε µέγιστη ροή πολλών εκατοντάδων χιλιάδων επερωτήσεων το δευτερόλεπτο. Οι επερωτήσεις προς τις ΜΑ είναι συνήθως σύντοµες, ωστόςο υπάρχουν πάνω από 10 εκατοµύρια διαφορετικές λέξεις σε όλες τις γλώσσες. Προκλήσεις για την επιστήµη: Ανεύρεση και κατάταξη 10 εκ. λέξεων σε 3 δις έγγραφα, λαµβάνοντας υπόψη θέση και σχετική σηµαντικότητα κάθε λέξης. Κατάταξη των χιλιάδων αποτελεσµάτων που προκύπτουν από µικρές επερωτήσεις. Υψηλή διαθεσιµότητα (availability): downtime contributes directly to lost revenue and customer churn. Φρεσκάδα: διατήρηση ενηµερωµένου ευρετηρίου της ΜΑ.

43 43 ΒΔ και ΜΑ Οι ΜΑ δεν κάνουν χρήση συστηµάτων Διαχείρισης ΒΔ. Θα ήταν χρήσιµο, οι ΜΑ να ακολουθούσαν τις βασικές αρχές των ΒΔ - όχι όµως απαραίτητα και τις τεχνικές υλοποίησης των ΒΔ: Σχεδιασµός από πάνω προς τα κάτω (top-down design): ο σχεδιασµός των ΒΔ ξεκινάει από την επιθυµητή σηµασιολογία (ACID ιδιότητες) και διαµορφώνει µηχανισµούς υλοποίησης της σηµασιολογίας Η ανάπτυξη των µηχανών αναζήτησης θα πρέπει να ξεκινάει από την σηµασιολογία τους (διαφορετική των ΒΔ) µε τους µηχανισµούς τους να έπονται της σηµασιολογίας. Ανεξαρτησία δεδοµένων (data independence): τα δεδοµένα υπάρχουν σε σύνολα χωρίς δείκτες - εποµένως µπορούµε να εξελίσουµε την αναπαράσταση και την αποθήκευσή τους, ενώ παράλληλα διευκολύνται η ανάκαµψη (recovery) και η αντοχή στα σφάλµατα (fault tolerance). Declarative Query Language: η χρήση γλωσσών επερωτήσεων περιγραφής του τι θέλουµε και όχι του πώς θα υπολογίσουµε την απάντηση. Αν και δεν χρησιµοποιείται η SQL, υπάρχει ανάγκη χρήσης δοµών συστηµάτων ΒΔ για σάρωση επερωτήσεων, βελτιστοποίηση και εκτέλεση επερωτήσεων.

44 44 Σηµασιολογία ΜΑ Η σηµασιολογία των ΜΑ διαφέρει από αυτή των ΒΔ (ACID): Προτίµηση σε υψηλή διαθεσιµότητα (availability) έναντι της συνέπειας (consistency): Προσπάθεια διατήρησης της φρεσκάδας (µείωσης της ασυνέπειας ). Δεν υπάρχει ανάγκη για γενικούς µηχανισµούς ενηµέρωσης (update mechanisms): Οι επερωτήσεις δεν προκαλούν ενηµέρωση καθώς είναι readonly ενηµέρωση στις ΜΑ συµβαίνει µε τρόπο ατοµικό και αφορά στην αντικατάσταση ολόκληρων πινάκων - εποµένως η εκτέλεση επερωτήσεων δεν συνεπάγεται έλεγχο ατοµικότητας και διατηρησιµότητας (durability). Η διατηρησιµότητα είναι εύκολη υπόθεση καθώς η ΜΑ δεν είναι το κύριο αντίγραφο της βάσης (master copy), αλλά τυχόν χαµένα δεδοµένα µπορούν να ξαναχτιστούν από τοπικά αντίγραφα ή τον Ιστό.

45 45 Αρχιτεκτονική στιγµιοτύπου (snapshot architecture) Έµφαση αρχιτεκτονικών ΜΑ: υποστήριξη µεγάλου αριθµού ταυτόχρονων επερωτησεων µε µικρή απόκλιση στο εύρος των επερωτήσεων και µε έµφαση στην υψηλή διαθεσιµότητα. Αρχιτεκτονική: Στατική ΒΔ για εξυπηρέτηση των read-only επερωτήσεων. Αρκετή εργασία off-line για χτίσιµο και ξαναχτίσιµο της στατικής ΒΔ. Πλεονεκτήµατα: Απλούστευση εξυπηρετητή online και συνεπώς βελτίωση διαθεσιµότητας, κλιµακωσιµότητας και κόστους.

46 46 Αρχιτεκτονική ΜΑ Crawl, Index, Serve Crawling (ιχνηλασία): Επίσκεψη σε ιστοσελίδες, µε τον ίδιο τρόπο µε τις επισκέπτονται οι χρήστες. Αποτέλεσµα: ένα µεγάλο αρχείο (µε ένα χάρτη στην αρχή του), το οποίο συµπεριλαµβάνει χιλιάδες συναλυσωµένα έγγραφα. Crawler: έλεγχος επίσκεψης αρχείων, χρονοδροµολόγηση επισκέψεων και επανεπισκέψεων, διαχείριση δυναµικών σελίδων, τύπων MIME, kκλπ.

47 Αρχιτεκτονική ΜΑ Indexer: Σαρώνει και διερµηνεύει συλλογές εγγράφων. Ανιχνεύει τη γλώσσα του εγγράφου, τη γεωγραφική του τοποθεσία, εξερχόµενους και εισερχόµενους συνδέσµους. Ανιχνεύει τις άγκυρες όλων των υπερσυνδέσµων που παραπέµπουν σε κάποιο έγγραφο. Βαθµολογεί τα έγγραφα και τις λέξεις µέσα στα έγγραφα. Στην εκροή του δηµιουργεί ένα τµήµα της στατικής ΒΔ, το chunk, το οποίο περιλαµβάνει όλες τις ανωτέρω πληροφορίες συνήθως κωδικοποιηµένες σαν ένα κανονικοποιηµένο σκόρ. Server: Εκτελεί επερωτήσεις πάνω σε συλλογές από chunks. Πραγµατοποιεί σάρωση των επερωτήσεων, ξαναγράψιµο επερωτήσεων, βελτιστοποίηση και εκτέλεση επερωτήσεων. No locks, no isolation issues, no need for concurrency control. 47

48 48 Μοντελοποίηση Εγγράφων Έγγραφα (documents): Έχουν µοναδικό ID (DocID),URL, summary information Περιλαµβάνουν λέξεις: σε κάθε λέξη ενός εγγράφου ανατίθεται ένα βάρος (score). Έχουν ιδιότητες, οι οποίες είναι boolean. Έχουν µετα-λέξεις (metawords) µε τις οποίες µπορούµε να κωδικοποιήσουµε ιδιότητες οι οποίες δεν έχουν boolean τιµές (π.χ. την ποιότητα ενός εγγράφου, την φρεσκάδα του, τον αριθµό των εισερχόµενων και εξερχόµενων συνδέσµων του κλπ).

49 49 Επερωτήσεις Μηχανών Αναζήτησης Καθορίζουν λέξεις και ιδιότητες τις οποίες ένα έγγραφο θα πρέπει να περιλαµβάνει/ικανοποιεί. Περιλαµβάνουν κατάλογο από όρους τους οποίους θα πρέπει να περιλαµβάνει ένα έγγραφο: Το συνταίριασµα ιδιοτήτων είναι απόλυτο: ένα έγγραφο πρέπει να ικανοποιεί όλες τις επιθυµητές ιδιότητες της επερώτησης. Το συνταίριασµα λέξεων είναι σχετικό: κάθε έγγραφο βαθµολογείται για το πόσο καλά ταιριάζει µε κάθε όρο της επερώτησης. Q = <w1, w2,, wk> Score(Q, d) = Quality(d) + Σi Score (wi, d) Quality(d): ανεξάρτητο της επερώτησης Score (wi, d): υπολογίζεται στη διάρκεια του indexing και εξαρτάται από την συχνότητα και την θέση της λέξης µέσα στο έγγραφο. Πρόβληµα: πώς εκτελούµε µια επερώτηση στη ΜΑ;

50 50 Λογικό Πλάνο Επερώτησης (Logical Query Plan) Η υιοθέτηση ενός αφαιρετικού λογικού πλάνου είναι σηµαντική για την βελτιστοποίηση της εκτέλεσης επερωτήσεων σε ΜΑ. Υποθέτουµε απλό λογικό σχήµα για την αποθήκευση των δεδοµένων µιας ΜΑ στους ακόλουθους πίνακες: document info, word data, property data. Σε κάθε λέξη αντιστοιχίζουµε ένα κλειδί wordid - η αντιστοιχία αυτή διασώζεται στον πίνακα term table T.

51 Λογικό Πλάνο Επερώτησης (Logical Query Plan) Όλες οι επερωτήσεις ΜΑ έχουν βασικά το ίδιο λογικό πλάνο. Document join Επιστρέφει τα k πρώτα στοιχεία ενός πίνακα, ταξινοµηµένα µε βάση την στήλη Score 51

52 52 Υπολογισµός Εγγράφου Προσαρµογής Για τον υπολογισµό του συνόλου των εγγράφων προσαρµογής (matching documents) και της βαθµολογίας τους, ακολουθείται προσέγγιση top-down, ορίζοντας µια µικρή γλώσσα επερωτήσεων (απλούστερη της SQL), η οποία περιέχει: Expressions: δέχονται βαθµολογία (score), αντιστοιχούν σε αναζητούµενες λέξεις κλειδιά. Properties: δεν δέχονται βαθµολογία, αντιστοιχούν σε επιθυµητές ιδιότητες των αναζητούµενων εγγράφων.

53 53 Επερωτήσεις Συνηθισµένες επερωτήσεις κωδικοποιούνται σαν σειρές από αναζητούµενες λέξεις µε τον υπόρρητο τελεστή AND µεταξύ τους: άνω πετράλωνα (άνω AND πετράλωνα) Επερωτήσεις που περιλαµβάνουν επιθυµητές ιδιότητες εγγράφων κωδικοποιούνται µε τη βοήθεια του τελεστή FILTER: άνω πετράλωνα lang:greek ((άνω AND πετράλωνα) FILTER lang:greek ) Επερωτήσεις που περιλαµβάνουν άρνηση κωδικοποιούνται επίσης µε τη βοήθεια του τελεστή FILTER: Νέα Ιωνία -Αττική ((Νέα AND Ιωνία) FILTER ΝΟΤ Αττική )

54 Υλοποίηση Επερωτήσεων Η επεξεργασία των πινάκων για την υλοποίηση των επερωτήσεων βασίζεται στην σειριακή πρόσβαση σε ένα ταξινοµηµένο αντεστραµµένο ευρετήριο: Ταξινοµηµένη λίστα όλων των εγγράφων που περιέχουν ένα συγκεκριµένο όρο. Για expressions, η λίστα περιλαµβάνει έγγραφα και βαθµολογίες. Για properties, η λίστα περιλαµβάνει απλώς έγγραφα. Επειδή οι λίστες είναι ταξινοµηµένες, το join των σχέσεων ισοδυναµεί µε απλό merge join. Στην πράξη, δεν χρειάζεται να κάνουµε binary join, αλλά multiway merge joins, αφού έτσι επιτυγχάνουµε να µειώσουµε το βάθος του πλάνου. Σε αντίθεση µε τα συστήµατα επερωτήσεων των κλασικών ΒΔ, στις ΜΑ: Γίνεται αποµνηµόνευση ενδιάµεσων αποτελεσµάτων (caching) Δεν γίνεται διασωλήνωση του πλάνου εκτέλεσης των επερωτήσεων (no pipelining). Έτσι, επιτυγχάνεται υψηλότερη διεκπεραιωτικότητα (throughput) αλλά και υψηλότερη υστέρηση. 54

55 55 Υλοποίηση Επερωτήσεων Αφού χρησιµοποιούµε µόνο multiway joins, µπορούµε να περιοριστούµε στην υλοποίηση µόνο τεσσάρων φυσικών τελεστών: OR(e1, e2,, ek) -> expr : full outer multiway join w. scoring ORp(p1, p2,, pk) -> prop : multiway full outer join w/o scoring ANDp(p1, p2,, pk) -> prop : multiway inner join w/o scoring FILTER (e1, e2,, ek) (p1, p2,, pk) -> expr : multiway inner join with scoring for expressions and no scoring for the properties

56 56 Υλοποίηση Επερωτήσεων

57 57 Βελτιστοποίηση Επερωτήσεων Στόχος: Απεικόνιση της λογικής επερώτησης σε φυσικές λειτουργίες Ισοπέδωση του δένδρου των join Αξιοποίηση αποµνηµονευµένων αποτελεσµάτων Ελαχιστοποίηση των join µε χρήση multiway joins

58 58 Άλλα Θέµατα Υλοποίησης Παραλληλοποίηση για παράλληλη εκτέλεση µιας επερώτησης σε συστοιχίες υπολογιστών. Συµπίεση αντεστραµµένων ευρετηρίων. Διαχείριση ανανεώσεων ευρετηρίων (updates). Ευρωστία σε σφάλµατα (fault tolerance). Phrase queries: Τεχνικές γειτνίασης (proximity techniques): επαύξηση βαθµολογίας εγγράφων στα οποία οι λέξεις µιας φράσης βρίσκονται κοντά. Αναζήτηση φράσης (πhrase searching): η ΜΑ διατηρεί στοιχεία για την ακριβή θέση κάθε λέξης σε κάθε έγγραφο!

59 59 Σύνοψη Η χρήση εξειδικευµένης διαχείρισης των δεδοµένων µιας ΜΑ έδωσε 10 φορές καλύτερη επίδοση από την περίπτωση χρήσης ενός γενικού συστήµατος ΒΔ όπως η Informix (circa 1996), το οποίο υποστήριζε παραλληλοποίηση, αποµνηµόνευση κλπ Λόγοι της διαφοροποίησης στην επίδοση: Η ΒΔ γενικού σκοπού υποστηρίζει ακριβές λειτουργικότητες που είναι όµως άχρηστες για τις ΜΑ, π.χ. κλειδιά (locking). Στις ΜΑ µπορούµε να πραγµατοποιήσουµε εξειδικευµένες βελτιστοποιήσεις (multiway joins, βελτιστοποίηση των πλάνων επερωτήσεων, συµπίεση ευρετηρίων). Στις ΒΔ των µέσων της δεκαετίας του 90, η αποθήκευση ευρετηριασµένου κειµένου χρειαζόταν 3 φορές περισσότερο χώρο απ ότι το ίδιο το κείµενο - στις ΜΑ ο χώρος αυτός ήταν πολύ λιγότερος.

60 60 Συµπεράσµατα Οι σχεδιαστές µεγάλων συστηµάτων διαχείρισης δεδοµένων πρέπει να λαµβάνουν υπόψη τους τις γενικές αρχές που ακολουθούνται από τις βάσεις δεδοµένων και να τις υλοποιούν στα συστήµατά τους: Συστήµατα διαχείρισης αρχείων απογραφής. Google file system. Batch-aware distributed file-system. XML databases.

Αναζήτηση στο ιαδίκτυο

Αναζήτηση στο ιαδίκτυο Αναζήτηση στο ιαδίκτυο Εισαγωγή url WWW καταλόγους (π.χ. Yahoo) Μηχανές Αναζήτησης τεράστιος, µη οµογενής µεταβάλλεται ραγδαία επικοινωνιακό κόστος Εισαγωγή Web URL = Universal Resource Locator http://www.ceid.upatras.gr/ir/

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Διδάζκων Δημήηριος Καηζαρός Διάλεξη 18η: 17/05/2017 1 Η μέθοδος BrowseRank 2 Εισαγωγή Η page importance, που αναπαριστά την αξία μιας σελίδας του Web, είναι παράγων-κλειδί για την

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιο λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηπιορ Καηζαπόρ Διάλεξη 12η: 09/05/2016 Τμ. HMMY, Πανεπιστήμιο Θεσσαλίας 1 Ερπυστές στον Παγκόσμιο Ιστό 2 Sec. 20.2 Βασική λειτουργία του crawler

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Πληροφορική 2. Δομές δεδομένων και αρχείων

Πληροφορική 2. Δομές δεδομένων και αρχείων Πληροφορική 2 Δομές δεδομένων και αρχείων 1 2 Δομή Δεδομένων (data structure) Δομή δεδομένων είναι μια συλλογή δεδομένων που έχουν μεταξύ τους μια συγκεκριμένη σχέση Παραδείγματα δομών δεδομένων Πίνακες

Διαβάστε περισσότερα

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών Περιεχόµενα World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών Εισαγωγή Ιστορική Αναδροµή Το ιαδίκτυο και το WWW Υπερκείµενο Εντοπισµός πληροφοριών στο WWW Search Engines Portals Unicode Java Plug-Ins 1 2

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #14 Αναζήτηση στο Web Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΑ ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΑ ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ ΕΙΣΑΓΩΓΗ ΣΤΑ ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ 1 Περιγραφή των Δεδομένων: Τα μοντέλα ενός ΣΔΒΔ Ένα μοντέλο δεδομένων είναι μια συλλογή από έννοιες που χρησιμοποιούνται για την περιγραφή δεδομένων

Διαβάστε περισσότερα

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014 Web Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Ιούνιος 2014 1 / 34 Χριστίνα Αραβαντινού Web Mining Περιεχόµενα 1 2 3 4 5 6 2 / 34 Χριστίνα Αραβαντινού Web Mining Το Web Mining στοχεύει στην

Διαβάστε περισσότερα

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. ΕΡΓΑΣΙΑ 4 «Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. Στόχος Στόχος της Εργασίας 4 είναι να η εξοικείωση με την αντικειμενοστρέφεια (object oriented programming). Πιο συγκεκριμένα,

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ Δρ. Κουζαπάς Δημήτριος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Μηχανές Αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες

Διαβάστε περισσότερα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα Ν. Μ. Σγούρος Τμήμα Ψηφιακών Συστημάτων, Παν. Πειραιώς sgouros@unipi.gr Δομή του WWW Ορισμός Προβλήματος Υποθέτουμε ότι οι πηγές πληροφοριών αναπριστώνται

Διαβάστε περισσότερα

Μελέτη Πολιτικών Χρονοδροµολόγησης σε Κατανεµηµένα Συστήµατα Πλοηγητών. Όνοµα : Ελένη Τσιακκούρη

Μελέτη Πολιτικών Χρονοδροµολόγησης σε Κατανεµηµένα Συστήµατα Πλοηγητών. Όνοµα : Ελένη Τσιακκούρη Μελέτη Πολιτικών Χρονοδροµολόγησης σε Κατανεµηµένα Συστήµατα Πλοηγητών Όνοµα : Ελένη Τσιακκούρη οµή Παρουσίασης Εισαγωγή Στόχοι Προηγούµενη Έρευνα Πλαίσιο Εργασίας Βασικά Στάδια Αρχιτεκτονική Συστήµατος

Διαβάστε περισσότερα

Πώς λειτουργεί το Google?

Πώς λειτουργεί το Google? Πώς λειτουργεί το Google? Στα άδυτα του Γίγαντα της Αναζήτησης! Το να ψάξουμε κάτι στο Google είναι κάτι τόσο καθημερινό για τους περισσότερους από εμάς, που το θεωρούμε δεδομένο. Αυτό που ίσως ξεχνάμε

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Social Web: lesson #4

Social Web: lesson #4 Social Web: lesson #4 looking for relevant information browsing searching monitoring recommendations Information Retrieval the inverted index Google.com the pagerank algorithm the value of words the price

Διαβάστε περισσότερα

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών 1 Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της Κωτσογιάννη Μαριάννας Περίληψη 1. Αντικείµενο- Σκοπός Αντικείµενο της διπλωµατικής αυτής εργασίας

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Search and Replication in Unstructured Peer-to-Peer Networks

Search and Replication in Unstructured Peer-to-Peer Networks Search and Replication in Unstructured Peer-to-Peer Networks Presented in P2P Reading Group in 11/10/2004 Abstract: Τα µη-κεντρικοποιηµένα και µη-δοµηµένα Peer-to-Peer δίκτυα όπως το Gnutella είναι ελκυστικά

Διαβάστε περισσότερα

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Εργαλεία ανάπτυξης εφαρμογών internet Ι IEK ΟΑΕΔ ΚΑΛΑΜΑΤΑΣ ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΟΦΟΡΙΚΗΣ Εργαλεία ανάπτυξης εφαρμογών internet Ι Διδάσκουσα: Κανελλοπούλου Χριστίνα ΠΕ19 Πληροφορικής 4 φάσεις διαδικτυακών εφαρμογών 1.Εφαρμογές στατικής πληροφόρησης

Διαβάστε περισσότερα

ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων

ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων ιεργασίες και Επεξεργαστές στα Κατανεµηµένων Συστηµάτων Μαρία Ι. Ανδρέου ΗΜΥ417, ΗΜΥ 663 Κατανεµηµένα Συστήµατα Χειµερινό Εξάµηνο 2006-2007 Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο

Διαβάστε περισσότερα

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10 6 ΕΡΓΑΣΙΑ 1 «Η Μηχανή Αναζήτησης Google» 6 Εικόνα εξώφυλλου: Λωρίδα του Mobius. 2005. (Σύνθεση). Νικόλαος Μπαλκίζας 10 Η Μηχανή Αναζήτησης Google 7 Εισαγωγή Η εύρεση χρήσιμων πληροφορίων στον Παγκόσμιο

Διαβάστε περισσότερα

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Επαναληπτική Εξέταση (3 ώρες) Ηµεροµηνία:

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 25: Τεχνικές Κατακερματισμού II Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double Hashing Διατεταγμένος

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων ..?????? Εργαστήριο ΒΑΣΕΙΣ????????? ΔΕΔΟΜΕΝΩΝ Βάσεων Δεδομένων?? ΙΙ Εισαγωγικό Μάθημα Βασικές Έννοιες - . Γενικά Τρόπος Διεξαγωγής Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα

Διαβάστε περισσότερα

Περιεχόμενα. Δημιουργία σύνδεσης... 27 5. ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ... 37. Γνωριμία με μια ιστοσελίδα:... 38

Περιεχόμενα. Δημιουργία σύνδεσης... 27 5. ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ... 37. Γνωριμία με μια ιστοσελίδα:... 38 Περιεχόμενα ΠΡΟΛΟΓΟΣ... 11 ΔΙΑΔΙΚΤΥΟ... 13 1. ΙΣΤΟΡΙΑ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ... 15 2. ΤΙ ΕΙΝΑΙ ΤΟ ΔΙΑΔΙΚΤΥΟ INTERNET;... 16 3. ΤΙ ΠΡΟΣΦΕΡΕΙ ΤΟ ΔΙΑΔΙΚΤΥΟ, ΤΙ ΜΠΟΡΕΙ ΝΑ ΒΡΕΙ ΚΑΝΕΙΣ... 19 4. ΤΙ ΑΠΑΙΤΕΙΤΑΙ ΓΙΑ ΝΑ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 13η: 28/04/2014 1 Παράμετροι του μοντέλου PageRank 2 Ηπαράμετροςα(1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 7: Transactions (Συναλλαγές) Ο λόγος που αναπτύχθηκαν

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Βάσεις Δεδομένων - Γενικά Ορισμός: Βάση Δεδομένων (ΒΔ) είναι μια συλλογή από σχετιζόμενα αντικείμενα. Τα περιεχόμενα

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι 5 η Διάλεξη Μάθημα: Τεχνολογίες Διαδικτύου Περιεχόμενα 5 η διάλεξη Μηχανές αναζήτησης Αναζήτηση στο Web Ωραίο το Web και το Internet Μάθαμε

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Επερωτήσεις σύζευξης με κατάταξη

Επερωτήσεις σύζευξης με κατάταξη Επερωτήσεις σύζευξης με κατάταξη Επερωτήσεις κατάταξης Top-K queries Οι επερωτήσεις κατάταξης επιστρέφουν τις k απαντήσεις που ταιριάζουν καλύτερα με τις προτιμήσεις του χρήστη. Επερωτήσεις κατάταξης Top-K

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ο αλγόριθμος PageRank της Google

Ο αλγόριθμος PageRank της Google Ο αλγόριθμος PageRank της Google 1 Η μηχανή αναζήτησης Google Το Google ξεκίνησε σαν μια κολεγιακή εργασία από τον Larry Page και τον Sergey Brin το 1996 με σκοπό την κατασκευή μιας μηχανής αναζήτησης

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων - Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a)

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι 5 η Διάλεξη Μάθημα: Τεχνολογίες Διαδικτύου Περιεχόμενα 5 η διάλεξη Μηχανές αναζήτησης Αναζήτηση στο Web Ωραίο το Web και το Internet Μάθαμε

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών. ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών. ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Πανεπιστήµιο Κρήτης Τµήµα Επιστήµης Υπολογιστών ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης Ονοµατεπώνυµο: Αριθµός Μητρώου: Τελική Εξέταση (3 ώρες) Ηµεροµηνία: 7

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Κεφάλαιο 4: Λογισμικό Συστήματος

Κεφάλαιο 4: Λογισμικό Συστήματος Κεφάλαιο 4: Λογισμικό Συστήματος Ερωτήσεις 1. Να αναφέρετε συνοπτικά τις κατηγορίες στις οποίες διακρίνεται το λογισμικό συστήματος. Σε ποια ευρύτερη κατηγορία εντάσσεται αυτό; Το λογισμικό συστήματος

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου E-commerce Networks & Applications Η διαφήμιση στο Internet Νίκος Κωνσταντίνου Εισαγωγή Ηαπλήδημιουργίαενόςsite δεν είναι πλέον αρκετή Μια επένδυση σε ανάπτυξη και συντήρηση δεν αποδίδει χωρίς διαφήμιση

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ: ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: Υπολογιστικά Συστήµατα & Τεχνολογίες Πληροφορικής ΣΥΓΓΡΑΦΕΑΣ: Γιώργος Γιαννόπουλος, διδακτορικός φοιτητής

Διαβάστε περισσότερα

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων Τρόπος Διεξαγωγής #1 Ύλη (4 Ενότητες) 1. Ανάλυση Απαιτήσεων -Σχεδιασμός Βάσης Δεδομένων 2. Δημιουργία βάσης a) Create

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2007-2008 14.02.2008 EΠΙΣΤΡΕΦΕΤΑΙ ΔΙΔΑΣΚΩΝ Ιωάννης Βασιλείου, Καθηγητής,

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double

Διαβάστε περισσότερα

Διαχείριση Δεδομένων

Διαχείριση Δεδομένων Διαχείριση Δεδομένων Βαγγελιώ Καβακλή Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας Πανεπιστήμιο Αιγαίου 1 Εαρινό Εξάμηνο 2012-13 Περιεχόμενο σημερινής διάλεξης Βάσεις Δεδομένων Ορισμοί Παραδείγματα

Διαβάστε περισσότερα

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

. Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων .. Εργαστήριο Βάσεων Δεδομένων Εισαγωγικό Μάθημα Βασικές Έννοιες - . Ύλη Εργαστηρίου ΒΔ Ύλη - 4 Ενότητες.1 - Σχεδιασμός Βάσης Δεδομένων.2 Δημιουργία Βάσης Δεδομένων Δημιουργία Πινάκων Εισαγωγή/Ανανέωση/Διαγραφή

Διαβάστε περισσότερα

3. Προσομοίωση ενός Συστήματος Αναμονής.

3. Προσομοίωση ενός Συστήματος Αναμονής. 3. Προσομοίωση ενός Συστήματος Αναμονής. 3.1. Διατύπωση του Προβλήματος. Τα συστήματα αναμονής (queueing systems), βρίσκονται πίσω από τα περισσότερα μοντέλα μελέτης της απόδοσης υπολογιστικών συστημάτων,

Διαβάστε περισσότερα

Κατακερματισμός (Hashing)

Κατακερματισμός (Hashing) Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση

Διαβάστε περισσότερα

Geographic Information System(GIS)

Geographic Information System(GIS) Geographic Information System(GIS) Κάθε πληροφοριακό σύστημα που ολοκληρώνει, αποθηκεύει, επεξεργάζεται, αναλύει, διαμοιράζει και απεικονίζει γεωγραφική πληροφορία. Βασικό του γνώρισμα ότι χρησιμοποιεί

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 11η: 09/05/2007 1 Ζητήµατα Μεγάλης-Κλίµακας

Διαβάστε περισσότερα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Διαβάστε περισσότερα

Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών. Καθηγητής: Ν. Μ. Μισυρλής 29 Μαΐου / 18

Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών. Καθηγητής: Ν. Μ. Μισυρλής 29 Μαΐου / 18 Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής 29 Μαΐου 2017 1 / 18 Βέλτιστα (στατικά) δυαδικά δένδρα αναζήτησης Παράδειγµα: Σχεδιασµός προγράµµατος

Διαβάστε περισσότερα

Vodafone Business Connect

Vodafone Business Connect Vodafone Business Connect Vodafone Business WebHosting Αναλυτικός Οδηγός Χρήσης EasySite Optimizer Αναλυτικός οδηγός χρήσης: EasySite Optimizer Vodafone Business Connect - Υπηρεσίες φιλοξενίας εταιρικού

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008 Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 5//008 Πρόβληµα ο Στα παρακάτω ερωτήµατα επισηµαίνουµε ότι perceptron είναι ένας νευρώνας και υποθέτουµε, όπου χρειάζεται, τη χρήση δικτύων

Διαβάστε περισσότερα

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων

Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων Εισαγωγή στα Συστήµατα Βάσεων Δεδοµένων Βάσεις εδοµένων 2011-2012 Ευαγγελία Πιτουρά 1 Βασικές Έννοιες Τι είναι µια βάση δεδοµένων; Βάση Δεδοµένων: συλλογή από σχετιζόµενα δεδοµένα Ειδικού σκοπού λογισµικό

Διαβάστε περισσότερα

GoDigital.Store E-Commerce Platform

GoDigital.Store E-Commerce Platform GoDigital.Store E-Commerce Platform Πλήρης διαχείριση καταλόγου και καταστήματος banet Α.Ε. Βαλαωρίτου 20 54625 Θεσσαλονίκη Τ.2310253999 F.2310253998 www.banet.gr info@banet.gr GoDigital.Store Γενική περιγραφή

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Μια δομή δεδομένων στην πληροφορική, συχνά αναπαριστά οντότητες του φυσικού κόσμου στον υπολογιστή. Για την αναπαράσταση αυτή, δημιουργούμε πρώτα ένα αφηρημένο μοντέλο στο οποίο προσδιορίζονται

Διαβάστε περισσότερα

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό

Διαβάστε περισσότερα

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος Γ.Γ Συντονισμού του Κυβερνητικού Έργου ΕΕΛΛΑΚ: Ομάδα Ανοιχτής Διακυβέρνησης ΕΕΛΛΑΚ Google Summer of Code Το πρόβλημα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Πληροφοριακά Συστήµατα

Πληροφοριακά Συστήµατα Nell Dale John Lewis Chapter 12 Πληροφοριακά Συστήµατα Στόχοι Ενότητας Η κατανόηση της έννοιας «Πληροφοριακό Σύστηµα» Επεξήγηση της οργάνωσης λογιστικών φύλλων (spreadsheets) Επεξήγηση της ανάλυσης δεδοµένων

Διαβάστε περισσότερα

Query-by-Example (QBE)

Query-by-Example (QBE) Φροντιστήριο 8 o Χειµερινό Εξάµηνο 2009-10 Τµήµα Μηχανικών Η/Υ και Πληροφορικής Πολυτεχνική Σχολή, Πανεπιστήµιο Πατρών Πέµπτη, 3 εκεµβρίου 2009 Τι είναι η QBE; Γλώσσα επερωτήσεων σε σχεσιακές ϐάσεις δεδοµένων

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Αριθµητική Ανάλυση 1 εκεµβρίου / 43 Αριθµητική Ανάλυση 1 εκεµβρίου 2014 Αριθµητική Ανάλυση 1 εκεµβρίου 2014 1 / 43 Κεφ.5. Αριθµητικός Υπολογισµός Ιδιοτιµών και Ιδιοδιανυσµάτων ίνεται ένας πίνακας A C n n και Ϲητούνται να προσδιορισθούν οι

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη η: 09/0/00 Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Η επιλογή γλώσσας (π.χ. ελληνικά) διεπαφής του συστήματος, βρίσκεται στο υποσέλιδο του ιστότοπου

Η επιλογή γλώσσας (π.χ. ελληνικά) διεπαφής του συστήματος, βρίσκεται στο υποσέλιδο του ιστότοπου Wordpress.com Περιεχόμενα Wordpress... 1 Ρύθμιση γλώσσας... 1 Δημιουργία λογαριασμού και σύνδεση... 2 Δημιουργία νέου ιστότοπου... 2 Πλατφόρμα διαχείρισης... 5 Αναγνώστης... 5 Πλατφόρμα ιστοτόπου... 5

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα