Περίληψη ιπλωµατικής Εργασίας



Σχετικά έγγραφα
ΕΚΘΕΣΗ ΓΙΑ ΤΗΝ ΠΑΡΑΝΟΜΗ ΙΑΚΙΝΗΣΗ ΑΝΘΡΩΠΩΝ

Επίσηµη Εφηµερίδα αριθ. C 372 της 09/12/1997 σ

ΙΕΘΝΗΣ ΣΥΜΒΑΣΗ ΕΡΓΑΣΙΑΣ 183 «για την αναθεώρηση της (αναθεωρηµένης) σύµβασης για την προστασία της µητρότητας,»

ΤΟ ΣΥΝΤΑΓΜΑ ΤΟΥ Εξώφυλλο του Συντάγµατος του 1844 (Βιβλιοθήκη Βουλής των

Ταχ. /νση: Ερµού ΠΡΟΣ: Ως Πίνακας Αποδεκτών Ταχ. Κώδικας: Αθήνα Τηλέφωνο:

4 ο ΛΥΚΕΙΟ ΛΑΜΙΑΣ ΟΙΚΟΝΟΜΙΚΕΣ ΚΑΙ ΚΟΙΝΩΝΙΚΕΣ ΣΥΝΕΠΕΙΕΣ ΤΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΚΡΙΣΗΣ ΕΚΘΕΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΜΕ ΘΕΜΑ. Ε ιµέλεια Εργασίας :Τµήµα Α4

Επίσηµη Εφηµερίδα αριθ. L335 της 19/12/2001 σ ΤΟ ΣΥΜΒΟΥΛΙΟ ΤΗΣ ΕΥΡΩΠΑΪΚΗΣ ΕΝΩΣΗΣ,

Αναπαραστάσεις των φύλων στα παιδικά αναγνώσµατα του νηπιαγωγείου και του δηµοτικού σχολείου

ΘΕΜΑΤΑ ΚΑΝΟΝΙΣΜΩΝ ΒΙΒΛΙΟ ΠΕΡΙΠΤΩΣΕΩΝ ΠΕΡΙΕΧΟΜΕΝΑ

περισσότερο από το γεγονός του ότι αυτό δεν ήταν τότε ένα ζήτηµα έγκρισης του ίδιου του κοινοβουλευτισµού αλλά κριτικής στην αστική εξουσία.

Oδηγία 94/33/ΕΚ του Συµβουλίου της 22ας Ιουνίου 1994 για την προστασία των νέων κατά την εργασία

: Aύξηση φόρου εισοδήµατος, και µείωση µισθών

ΠΟΛΗ ΚΑΙ ΧΩΡΟΣ ΑΠΟ ΤΟΝ 20 Ο ΣΤΟΝ 21 Ο ΑΙΩΝΑ

[Σηµ: Ο ένας αστερίσκος σηµειώνει τα άρθρα που αναθεωρήθηκαν το 1986 και οι δύο, αυτά που αναθεωρήθηκαν το 2001]

Ε.Ε. Π α ρ.ι(i), Α ρ.4344, 6/7/2012

Ενότητα 2. Γενικά Οργάνωση Ελέγχου (ΙΙ) Φύλλα Εργασίας Εκθέσεις Ελέγχων

Α. ΟΡΓΑΝΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΕΦΑΡΜΟΓΗΣ

ΝΟΜΟΣ 3719/ ΦΕΚ 241/Α'/ Μεταρρυθμίσεις για την οικογένεια, το παιδί, την κοινωνία και άλλες διατάξεις.

Σύμβαση για την πρόσληψη, τοποθέτηση και τις συνθήκες εργασίας των εργαζόμενων μεταναστών, 1939, Νο. 66 1

Επίσηµη Εφηµερίδα της Ευρωπαϊκής Ένωσης

Ομιλία του ημάρχου Αμαρουσίου, Προέδρου Ιατρικού Συλλόγου Αθηνών. Γιώργου Πατούλη, στην εκδήλωση μνήμης στον Ιωάννη Πασαλίδη

Σηµειώσεις στις Εµπορικές Εταιρίες

ΤΜΗΜΑ ΣΥΝΤΗΡΗΣΗΣ ΗΜΟΤΙΚΩΝ αριθ. Πρωτ. Προκ: & ΣΧΟΛΙΚΩΝ ΚΤΙΡΙΩΝ Κ.Α για το 2015

Οι Βαλκανικοί Πόλεµοι ( ) στα ελληνικά διδακτικά εγχειρίδια Ιστορίας (δευτεροβάθµιας εκπαίδευσης) της περιόδου

ΥΠ.Ε.Π.Θ. / ΠΑΙ ΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ «ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ»

Άρθρο 2 -Καταχώρηση και τήρηση στοιχείων σε ηλεκτρονική µορφή

επείγοντος για την κατανοµή των βαρών της υποδοχής και προσωρινής διαµονής των µετακινουµένων ατόµων ( 6 ). Έχοντας υπόψη:

ΠΕΡΙΛΗΨΗ ΙΑΚΗΡΥΞΗΣ ΚΑΝΟΝΙΚΟΥ ΜΕΙΟ ΟΤΙΚΟΥ ΙΑΓΩΝΙΣΜΟΥ ΓΙΑ ΕΚΤΥΠΩΣΕΙΣ-ΕΚ ΟΣΕΙΣ ΕΤΟΥΣ 2011

«ΣΥΝΕΝΤΕΥΞΗ ΤΟΥ ΗΜΑΡΧΟΥ ΙΛΙΟΥ, Κ. ΝΙΚΟΥ ΖΕΝΕΤΟΥ ΣΤΗΝ ΕΦΗΜΕΡΙ Α «ΜΙΤΟΣ» ΚΑΙ ΤΗ ΗΜΟΣΙΟΓΡΑΦΟ ΑΘΗΝΑ ΠΕΡΡΑΚΗ»

Οι Αγώνες θα διεξαχθούν τόσο στο Σύγχρονο Θέατρο όσο και στο Αρχαίο

«Πολιτιστικές διαδροµές στα µεταλλευτικά τοπία της Kύθνου»

ΣΥΝΘΗΚΗ SCHENGEN (ΣΕΝΓΚΕΝ)

Ο ΠΡΟΕ ΡΟΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΗΜΟΚΡΑΤΙΑΣ Εκδίδοµε τον ακόλουθο νόµο που ψήφισε η Βουλή:

Kεντρικός συντονισμός πολιτικών, μόνιμοι υφυπουργοί, μείωση ειδικών συμβούλων, κατάργηση αναπληρωτών.

Ε Κ Θ Ε Σ Η. του Διοικητικού Συμβουλίου της Ανωνύμου Εταιρίας με την επωνυμία. «Unibios Ανώνυμος Εταιρία Συμμετοχών»

ΕΓΚΥΚΛΙΟΣ 1/2005. ΘΕΜΑ: Κοινοποίηση των διατάξεων του άρθρου 9 Ν. 3302/04 (ΦΕΚ 267 τ.α ) περί ρύθµισης οφειλών του Ι.Κ.Α Ε.Τ.Α.Μ.

ΚΕΦΑΛΑΙΟ 7 ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΠΡΟΤΑΣΕΙΣ

ΤΙΤΛΟΣ I ΕΥΡΩΠΑΪΚΑ ΣΧΟΛΕΙΑ

Ε.Ε. Π α ρ.ι(i), Α ρ.4290, 29/7/2011

ΦΥΣΙΚΟΣ ΑΕΡΙΣΜΟΣ - ΡΟΣΙΣΜΟΣ

Οδηγία 91/439/ΕΟΚ του Συµβουλίου της 29ης Ιουλίου 1991 για την άδεια οδήγησης

στο σχέδιο νόµου «Διαχείριση των µη εξυπηρετούµενων δανείων, µισθολογικές ρυθµίσεις και άλλες επείγουσες στόχων και διαρθρωτικών µεταρρυθµίσεων»

ΑΠΑΝΤΗΣΕΙΣ ΣΤΟ ΔΙΔΑΓΜΕΝΟ ΚΕΙΜΕΝΟ

109(Ι)/2014 ΝΟΜΟΣ ΠΟΥ ΠΡΟΝΟΕΙ ΓΙΑ ΤΟ ΕΛΑΧΙΣΤΟ ΕΓΓΥΗΜΕΝΟ ΕΙΣΟΔΗΜΑ ΚΑΙ ΓΕΝΙΚΟΤΕΡΑ ΠΕΡΙ ΚΟΙΝΩΝΙΚΩΝ ΠΑΡΟΧΩΝ ΤΟΥ 2014 ΚΑΤΑΤΑΞΗ ΑΡΘΡΩΝ

14.00 µ.µ µ.µ. ένα (1) άτοµα (προετοιµασία παρασκευή) π.µ π.µ. δύο (2) άτοµα (προετοιµασία παρασκευή)

ΠΡΟΪΟΝΤΩΝ» Ποσοστό στη.. του Μέτρου. Ποσό (σε ΕΥΡΩ)

Εσωτερικοί Κανονισμοί Τοπικής Αυτοδιοίκησης

ΚΑΤΑΣΤΑΤΙΚΟ ΤΟΥ ΕΞΩΡΑΪΣΤΙΚΟΥ ΣΥΛΛΟΓΟΥ «Η ΑΝΕΜΟΕΣΣΑ»

Η ΑΥΤΕΠΑΓΓΕΛΤΗ ΑΝΑΖΗΤΗΣΗ ΔΙΚΑΙΟΛΟΓΗΤΙΚΩΝ ΜΙΑ ΚΡΙΤΙΚΗ ΑΠΟΤΙΜΗΣΗ. ( Διοικητική Ενημέρωση, τ.51, Οκτώβριος Νοέμβριος Δεκέμβριος 2009)

ΕΝΗΜΕΡΩΣΗ ΓΙΑ ΤΗΝ ΨΩΡΙΑΣΗ ΣΤΟΥΣ ΗΜΟΥΣ ΝΑΥΠΛΙΕΩΝ ΚΑΙ ΠΕΙΡΑΙΑ 0.2%-4.8% του γενικού πληθυσµού προσβάλλεται από τη νόσο της Ψωρίασης

Επίσηµη Εφηµερίδα των Ευρωπαϊκών Κοινοτήτων

ΚΩΔΙΚΑΣ ΔΕΟΝΤΟΛΟΓΙΑΣ

Αριθµ. Απόφασης: 445 / 2014

Έχοντας υπόψη: τη συνθήκη για την ίδρυση της Ευρωπαϊκής Κοινότητας, και ιδίως το άρθρο 175 παράγραφος 1, την πρόταση της Επιτροπής ( 1 ),

«Φιλολογικό» Φροντιστήριο Επαναληπτικό διαγώνισμα στη Νεοελληνική Γλώσσα. Ενδεικτικές απαντήσεις. Περιθωριοποίηση μαθητών από μαθητές!

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΑΡΧΕΣ Ι ΙΩΤΙΚΟΥ ΑΣΤΙΚΟΥ ΙΚΑΙΟΥ

ΕΘΝΙΚΗ ΣΧΟΛΗ ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ ΜΑΘΗΜΑ: ΟΡΓΑΝΩΣΗ ΚΑΙ ΛΕΙΤΟΥΡΓΙΑ ΤΟΥ ΚΡΑΤΟΥΣ (ΣΥΝΤΑΓΜΑΤΙΚΟ ΙΚΑΙΟ)

4 Περίοδοι µε 3ωρα ιαγωνίσµατα ΕΚΤΟΣ ωραρίου διδασκαλίας!!! ΠΡΟΓΡΑΜΜΑ ΙΑΓΩΝΙΣΜΩΝ

ΣΧΕΔΙΟ ΠΡΟΤΑΣΕΩΝ ΣΥΛΛΟΓΟΥ ΓΟΝΕΩΝ & ΚΗΔΕΜΟΝΩΝ ΕΠΙ ΤΟΥ ΠΡΟΣΧΕΔΙΟΥ ΤΟΥ ΕΣΩΤΕΡΙΚΟΥ ΚΑΝΟΝΙΣΜΟΥ ΛΕΙΤΟΥΡΓΙΑΣ ΤΟΥ 1 ου ΓΥΜΝΑΣΙΟΥ ΜΑΡΚΟΠΟΥΛΟΥ ΣΗΜΕΙΩΣΗ

5. ΤΙΜΟΛΟΓΙΟ ΜΑΡΤΙΟΣ K:\A61500\Design\tenders\2013_6151_drills_5243\Tefhi\Timologio_5243.DOC

ΕΓΧΕΙΡΙ ΙΟ ΛΕΙΤΟΥΡΓΙΑΣ ΚΑΙ ΟΡΓΑΝΩΣΗΣ

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2014

ΕΘΙΜΑ ΤΟΥ ΚΟΣΜΟΥ. Αγγελική Περιστέρη Α 2

ΣΥΝΕΝΤΕΥΞΗ ΤΥΠΟΥ. Η ολοκληρωμένη προσέγγιση θα εφαρμοστεί με τα παρακάτω Εργαλεία

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΠΕΡΙΦΕΡΕΙΑ ΣΤΕΡΕΑΣ ΕΛΛΑ ΑΣ Καρπενήσι

...ακολουθώντας τη ροή... ένα ημερολόγιο εμψύχωσης

Μη ανταγωνιστικές δραστηριότητες και παιχνίδια (υλικό)

ΚΑΝΟΝΙΣΜΟΣ ΛΕΙΤΟΥΡΓΙΑΣ ΚΟΙΜΗΤΗΡΙΩΝ

του Αναπληρωτή Εκπαιδευτικού Π.Ε. Ένας χρήσιµος οδηγός αφιέρωµα στον αναπληρωτή εκπαιδευτικό της Π.Ε..

ΚΑΤΑΣΤΑΤΙΚΟ. Του σωµατείου µε την επωνυµία «ΚΥΝΟΦΙΛΙΚΟΣ ΟΜΙΛΟΣ. ΙΩΑΝΝΙΝΩΝ», που εδρεύει στα Ιωάννινα, νόµιµα εκπροσωπούµενο.

ΕΛΛΗΝΙΚΗ ΗΜΟΚΡΑΤΙΑ ΠΕΡΙΦΕΡΕΙΑ ΣΤΕΡΕΑΣ ΕΛΛΑ ΑΣ ΓΡΑΦΕΙΟ ΠΕΡΙΦΕΡΕΙΑΡΧΗ ΥΨΗΛΑΝΤΗ ΛΑΜΙΑ. Λαµία ΠΡΟΣ: Μ.Μ.Ε.

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΚΡΗΤΗΣ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΟΙΚΟΝΟΜΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

KATATAΞH APΘPΩN. 6. Αρχές της προσφοράς και προμήθειας, ανθρώπινων ιστών και/ ή κυττάρων

ΠΡΑΣΙΝΟΙ ΤΟΙΧΟΙ - ΠΡΑΣΙΝΑ ΣΧΟΛΕΙΑ

ΟΡΓΑΝΩΣΗ ΠΟΥ ΕΚΠΡΟΣΩΠΕΙΤΕ: ΟΜΟΣΠΟΝ ΙΑ ΕΡΓΟ ΟΤΙΚΩΝ ΕΝΩΣΕΩN ΕΠΙΣΕΙΡΗΣΕΩΝ ΝΑΥΠΗΓΗΣΗΣ ΚΑΙ ΕΠΙΣΚΕΥΗΣ ΠΛΟΙΩΝ ΠΕΙΡΑΙΑ.

ΓΙΩΡΓΟΣ ΜΠΛΑΝΑΣ ΓΙΑ ΤΟΝ ΑΝΑΡΧΙΣΜΟ

62 η ΣΥΝΟΔΟΣ ΠΡΥΤΑΝΕΩΝ & ΠΡΟΕΔΡΩΝ Δ.Ε. ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΩΝ

ΕΠΙΤΡΟΠΗ ΕΘΝΙΚΗΣ ΑΜΥΝΑΣ ΚΑΙ ΕΞΩΤΕΡΙΚΩΝ ΥΠΟΘΕΣΕΩΝ ΝΟΜΟΣΧΕ ΙΟ. «Στρατολογία των Ελλήνων» Άρθρο 1 Υπόχρεοι σε στράτευση

ΚΑΝΟΝΙΣΜΟΣ ΛΕΙΤΟΥΡΓΙΑΣ

Ε.Ε. Π α ρ.ι(i), Α ρ.3646, 25/10/2002. ΤΗΣ ΕΠΙΣΗΜΗΣ ΕΦΗΜΕΡΙΔΑΣ ΤΗΣ ΔΗΜΟΚΡΑΤΙΑΣ Αρ της 25ης ΟΚΤΩΒΡΙΟΥ 2002

Ένα Κέλβιν ισούται εξ ορισµού µε το κλάσµα 1/ της θερµοκρασίας του τριπλού σηµείου του ύδατος.

Πολιτική Πρόταση για μια Προοδευτική Διέξοδο Από την Κρίση

ΚΑΝΟΝΙΣΜΟΣ ΣΠΟΥ ΩΝ ΤΕΙ ΠΕΙΡΑΙΑ (Απόφαση Συνέλευσης ΤΕΙ αριθ. 5/ , ΦΕΚ 816/ , τ. Β )

ΚΑΤΑΤΑΞΗ ΕΥΡΩΠΑΪΚΩΝ ΧΩΡΩΝ ΜΕ ΒΑΣΗ ΤΗΝ ΠΑΡΑΓΩΓΗ ΛΙΓΝΙΤΗ 2003 ΓΕΡΜ ΑΝΙΑ 179 ΕΛΛΑ Α

ΠΡΑΚΤΙΚΑ. ΘΕΜΑ : Εισήγηση για παράταση σύµβασης (Ολοκλήρωσης Εργασιών Ελέγχου και Πιστοπόιησης Παιδικών Χαρών ήµου Κεφαλλονιάς).

ΓΥΝΑΙΚΕΙΟΙ ΑΓΡΟΤΟΥΡΙΣΤΙΚΟΙ ΣΥΝΕΤΑΙΡΙΣΜΟΙ ΣΤΗΝ ΕΛΛΑ Α

ΠΡΟΣΛΗΨΕΙΣ ΚΑΙ ΕΙΚΟΝΕΣ ΤΗΣ ΕΛΛΑΔΑΣ

ΒΙΟΛΟΓΙΑ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2010 ΕΚΦΩΝΗΣΕΙΣ

Σεπτέμβριος 2011: Εφημερίδα μηνός Αυγούστου, έκδ. 34 η

ΘΕΣΕΙΣ ΤΟΥ ΣΥΝΔΕΣΜΟΥ ΓΙΑ ΤΗΝ ΑΝΑΜΟΡΦΩΣΗ ΤΟΥ ΘΕΣΜΙΚΟΥ ΠΛΑΙΣΙΟΥ ΑΝΑΘΕΣΗΣ ΚΑΙ ΕΚΠΟΝΗΣΗΣ ΜΕΛΕΤΩΝ

ΑΠΟΚΑΤΑΣΤΑΣΗ ΚΑΙ ΕΠΑΝΑΧΡΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΟΥ ΧΑΝΙΟΥ ΤΟΥ ΙΜΠΡΑΗΜ ΚΩΔΙΚΟΣ ΔΙΑΓΩΝΙΖΟΜΕΝΟΥ: 12234

ΑΝΑΚΟΙΝΩΣΗ για τη σύναψη ΣΥΜΒΑΣΗΣ ΕΡΓΑΣΙΑΣ ΟΡΙΣΜΕΝΟΥ ΧΡΟΝΟΥ Ο ΠΕΡΙΦΕΡΕΙΑΡΧΗΣ ΚΡΗΤΗΣ.

Πρότυπο Σχέδιο Δράσης για τα Συμβούλια Ένταξης Μεταναστών

ΚΕΦΑΛΑΙΟ 3 ο ΤΟ ΜΕΛΛΟΝ ΤΗΣ ΕΥΡΩΠΑΪΚΗΣ ΕΝΩΣΗΣ. 3.1 Εισαγωγή

Συλλόγου ιπλωµατούχων Νοσηλευτριών και Νοσηλευτών Χειρουργείου

ΣΥΣΤΗΜΑ ΔΙΑΓΝΩΣΗΣ ΑΝΑΓΚΩΝ ΑΓΟΡΑΣ ΕΡΓΑΣΙΑΣ ΔΙΑΓΝΩΣΗ ΑΝΑΓΚΩΝ ΣΕ ΠΕΡΙΦΕΡΕΙΑΚΟ ΕΠΙΠΕΔΟ

β) κίνημα στο Γουδί: σχολ. βιβλ σελ «το 1909 μέσω της Βουλής».

ΕΠΙΧΕΙΡΗΜΑΤΟΛΟΓΩ ΥΠΕΡ Η ΚΑΤΑ ΤΗΣ ΧΡΗΣΗΣ ΤΩΝ ΣΥΜΒΑΤΙΚΩΝ ΤΖΑΚΙΩΝ ΚΑΙ ΤΗΣ ΚΑΥΣΗΣ ΞΥΛΕΙΑΣ ΓΙΑ ΟΙΚΙΑΚΉ ΘΕΡΜΑΝΣΗ

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΓΕΩΓΡΑΦΙΑΣ

«Συλλογή, μεταφορά και διαχείριση επικίνδυνων στερεών αποβλήτων της Γ.Μ.Μ.Α.Ε. ΛΑΡΚΟ»

Transcript:

Περίληψη ιπλωµατικής Εργασίας Θέµα: Μέθοδοι αυτόµατου εντοπισµού σφαλµάτων και βελτίωσης wrappers µε χρήση επαυξητικών µεθόδων µάθησης (wrapper mantenance πρόβληµα) Όνοµα: Χαράλαµπος Τσουρακάκης Επιβλέπων: Τίµος Σελλής Συν-επιβλέπων: Γεώργιος Παλιούρας 1.Ορισµός προβλήµατος wrapper mantenance Αντικείµενο διπλωµατικής Οι (web) wrappers είναι εξειδικευµένα προγράµµατα τα οποία εξάγουν µε αυτόµατο τρόπο δεδοµένα από διαδικτυακούς τόπους (nternet webstes) και τα µετατρέπουν σε µία δοµηµένη µορφή. Συγκεκριµένα ένας wrapper εκτελεί τρεις κύριες λειτουργίες: α) κατεβάζει HTML σελίδες από το web ste για το οποίο σχεδιάστηκε β) προσδιορίζει τα δεδοµένα που θα εξαχθούν από ένα σύνολο ιστοσελίδων του ste και στη συνέχεια τα εξάγει γ)αποθηκεύει τα εξαγόµενα δεδοµένα σε µία δοµηµένη µορφή. Έτσι τα δεδοµένα αυτά µπορούν στη συνέχεια να χρησιµοποιηθούν από κάποια άλλη εφαρµογή για περαιτέρω επεξεργασία. Σύµφωνα µε την πηγή [1] περισσότερο από το 80% των ιστοσελίδων περιέχουν πληροφορία που προέρχεται από κάποια βάση δεδοµένων. Όταν αυτά τα δεδοµένα εισάγονται στις ιστοσελίδες η δοµή που ενυπάρχει στη βάση δεδοµένων χάνεται. Οι wrappers προσπαθούν να αντιστρέψουν αυτή τη διαδικασία φέρνοντας πάλι τα δεδοµένα σε µία δοµηµένη µορφή. Αυτό που εκµεταλλεύονται οι wrappers για να εξάγουν την πληροφορία είναι η κανονικότητα που υπάρχει στην εµφάνιση της ως προς τον χρήστη. Αυτό οφείλεται στον τρόπο µε τον οποίο παράγονται συνήθως οι ιστοσελίδες, δηλαδή µε τη χρήση ενός template. Template Βάση εδοµένων (Database) ΣΥΝΘΕΣΗ Ε ΟΜΕΝΩΝ ΜΕ TEMPLATE Web page Κατά κανόνα για κάθε ste χρειάζεται να αναπτυχθεί ένας διαφορετικός wrapper.λόγω της δυναµικότητας του WWW τα web stes αλλάζουν συχνά τη δοµή των ιστοσελίδων τους ή και το περιεχόµενο τους µε αποτέλεσµα να µην εξάγεται πλέον η επιθυµητή πληροφορία από τους wrappers.εδώ τίθεται το πρόβληµα του wrapper verfcaton. Με τον όρο αυτόν εννοούµε το

πρόβληµα του αυτόµατου εντοπισµού σφαλµάτων στην λειτουργία του wrapper. Αν εντοπιστεί ότι ο wrapper δεν εξάγει σωστά την πληροφορία τίθεται το δεύτερο πρόβληµα, αυτό του wrapper renducton. Με αυτό τον όρο εννοούµε τη διαδικασία παραγωγής ενός νέου wrapper, προσαρµοσµένο στη νέα δοµή του ste που θα εξάγει σωστά την επιθυµητή πληροφορία. Τα προβλήµατα του wrapper verfcaton και του wrapper renducton συνιστούν το wrapper mantenance πρόβληµα. Αντικείµενο της διπλωµατικής εργασίας ήταν η ανάπτυξη ενός αξιόπιστου wrapper mantenance συστήµατος. Αν και η Etensble Markup Language (XML) έχει την προοπτική να επιλύσει τα προβλήµατα που αναφέρθηκαν, θα χρειαστεί αρκετός καιρός µέχρι να παρέχονται όλα τα δεδοµένα σε αυτή τη γλώσσα-µορφή. Εξ άλλου µην ξεχνάµε ότι πολλά stes δεν είναι καν πρόθυµα να κάνουν κάτι τέτοιο γιατί θέλουν το χρήστη να τα επισκέπτεται για κυρίως οικονοµικούς λόγους (διαφηµίσεις).έτσι οι wrappers θα διαδραµατίζουν για αρκετό καιρό ακόµα καίριο ρόλο στην ολοκλήρωση δεδοµένων από www πηγές. Προκύπτει λογικά λοιπόν ότι το wrapper mantenance πρόβληµα είναι σύνθετο και επίκαιρο..σχεδιασµός της λύσης Το πρόβληµά µας έχει δύο διακριτά σκέλη. Το πρώτο είναι το verfcaton, το δεύτερο το renducton. Όπως προαναφέρθηκε κύριος στόχος της εργασίας ήταν η ανάπτυξη ενός αξιόπιστου wrapper mantenance συστήµατος Η βαρύτητα δόθηκε στο πρώτο µέρος για τους εξής λόγους:α)αν δεν διαπιστωθεί κάποιο πρόβληµα στην λειτουργία του wrapper δεν εκτελείται το renducton σύστηµα. Έτσι ένα πολύ καλό renducton σύστηµα δεν θα αξιοποιούταν πλήρως χωρίς την ύπαρξη ενός καλού verfcaton συστήµατος. β)η επαγωγή ενός νέου wrapper αν υπάρχει ένα wrapper nducton system (σύστηµα παραγωγής wrappers µε χρήση επαγωγικής µάθησης) όταν έχει διαπιστωθεί πρόβληµα απαιτεί στην χειρότερη περίπτωση κάποια λεπτά από το χρόνο του χρήστη για να δώσει κάποια παραδείγµατα στις αλλαγµένες ιστοσελίδες της πληροφορίας που θέλει να εξάγεται. Αντίθετα για τον έλεγχο του αν η εξαχθείσα πληροφορία είναι η επιθυµητή, θα απαιτούνταν διαρκής έλεγχος κάθε φορά που θα λειτουργούσε ο wrapper. γ)σχετικά λίγη βιβλιογραφία επί του προβλήµατος αυτού. Παρακάτω αναπτύσσουµε εν συντοµία την φιλοσοφία σχεδιασµού των δύο επιµέρους συστηµάτων. Α)Σχεδιασµός wrapper verfcaton συστήµατος Στόχος του verfcaton συστήµατος ήταν να µπορέσουµε να εκµεταλλευτούµε όσο το δυνατόν περισσότερο τη δοµή της πληροφορίας. Έτσι ο αλγόριθµος που αναπτύξαµε είναι καθαρά content based. Το σύστηµα παίρνει σαν είσοδο τις διευθύνσεις δύο φακέλων. Ο πρώτος φάκελος είναι το tranng attrbute ενώ ο δεύτερος το testng attrbute. Κάθε φάκελος περιέχει ένα πλήθος από αρχεία (tt) τα οποία περιέχουν την πληροφορία που εξάχθηκε κατά τη διάρκεια της ορθής λειτουργίας του wrapper και κατά τη διάρκεια της άγνωστης λειτουργίας του αντίστοιχα. Το σύστηµα εκπαιδεύεται µε τα δεδοµένα του tranng attrbute και στη συνέχεια ελέγχοντας τα δεδοµένα του testng attrbute αποφασίζει αν ο wrapper εξάγει σωστά ή λανθασµένα τα δεδοµένα. Για το σκοπό αυτό υπολογίσαµε

ξεχωριστά για το tranng και για το testng attrbute τις τιµές των εξής χαρακτηριστικών γνωρισµάτων : µέση πυκνότητα ψηφίων, µέση πυκνότητα κεφαλαίων γραµµάτων, µέση πυκνότητα πεζών γραµµάτων, µέση πυκνότητα χαρακτήρων στίξης, µέσο µήκος λεκτικών µονάδων, µέσο πλήθος λεκτικών µονάδων ανά εγγραφή. Στη συνέχεια σχεδιάστηκε µία ιεραρχία από token types και ένας λεκτικός αναλυτής ο οποίος δίνει σε κάθε token τον πιο εξειδικευµένο τύπο της ιεραρχίας που µπορεί να λάβει. Έπειτα µε βάση το µέσο πλήθος tokens ανά εγγραφή υπολογίζεται ένας φυσικός ο οποίος αντιπροσωπεύει το µήκος των startng patterns δηλαδή εκείνων των patterns τα οποία ακολουθεί συχνά κάποια εγγραφή στις πρώτες θέσεις tokens. Στη συνέχεια υλοποιήθηκε ένας αλγόριθµος εξεύρεσης των startng patterns. Βασίζεται στον έλεγχο µηδενικών υποθέσεων (null hypothess testng). Περιγράφουµε αδρά την λειτουργία του: Ξεκινάει κατασκευάζοντας µία ρίζα του pattern δένδρου. Έπειτα υποθέτει: «Στη θέση 1 δεν είναι στατιστικά σηµαντικός ο τύπος». Ουσιαστικά κάνει 8 υποθέσεις αφού υπάρχουν 8 τύποι tokens. Ας θεωρήσουµε λοιπόν την µία εκ των 8 υποθέσεων, ότι ο τύπος CAPITALIZED (όσες λέξεις αποτελούνται µόνο από γράµµατα εκ των οποίων µόνο το πρώτο είναι κεφαλαίο) δεν είναι σηµαντικός στην θέση 1. Αν έχουµε n εγγραφές η τυχαία µεταβλητή «πλήθος εµφανίσεων του CAPITALIZED στη θέση 1» ακολουθεί τη διωνυµική κατανοµή. Όπως προκύπτει από το κεντρικό οριακό θεώρηµα µπορούµε να προσεγγίσουµε τη διωνυµική κατανοµή µε την κανονική. Στη συνέχεια µε βάση το πλήθος των εγγραφών n, το πλήθος k των εµφανίσεων του τύπου CAPITALIZED στη θέση 1 και την πιθανότητα εµφάνισης του στη θέση 1 κάνουµε z-test µε παραµέτρους µ = np και σ = np(1 p). Αν προκύψει ότι ο τύπος CAPITALIZED είναι στατιστικά σηµαντικός τότε προστίθεται ένα παιδί στη ρίζα του δένδρου που περιέχει τον τύπο CAPITALIZED. Οµοίως γίνονται και οι υπόλοιποι έλεγχοι των άλλων µηδενικών υποθέσεων. Για κάθε στατιστικά σηµαντικό τύπο προστίθεται ένα παιδί στη ρίζα. Έτσι σε βάθος 1 στο δένδρο υπάρχουν όλοι οι στατιστικά σηµαντικοί τύποι της θέσης 1. Αν δεν προκύψει κανένας στατιστικά σηµαντικός τύπος στη θέση 1 ή αν βρεθεί ότι στη θέση 1 οι στατιστικά σηµαντικοί τύποι tokens είναι HTML τύποι (HTML tags, HTML attrbutes, HTML attrbute values) κάτι που µπορεί να εµφανιστεί στην περίπτωση που έχει χαλάσει ο wrapper προστίθεται στη ρίζα ένα παιδί που περιέχει τον wldcard χαρακτήρα δηλώνοντας ότι δεν υπάρχει κάποιος από τους τύπους που µας ενδιαφέρει στατιστικά σηµαντικός στη θέση 1. Έστω λοιπόν ότι το σύνολο των τύπων που βρέθηκαν να είναι σηµαντικοί στη θέση 1 είναι το σύνολο T = {} t 1 n, n 8.Στη συνέχεια αναζητούµε τους τύπους για τους οποίους το µοτίβο t,1 n είναι στατιστικά σηµαντικό. Οι µηδενικές υποθέσεις τώρα διαµορφώνονται ως εξής :«Το pattern t δεν είναι στατιστικά σηµαντικό» 1 n, TT. Ο έλεγχος για το t γίνεται µε βάση τη πληθικότητα του συνόλου των εγγραφών που ξεκινούν µε τον τύπο t, το πλήθος των εγγραφών που ξεκινούν µε τους τύπους t και την πιθανότητα εµφάνισης του τύπου µετά τον τύπο t. Επειδή η εµφάνιση του θεωρείται

ανεξάρτητη από οτιδήποτε άλλο, η πιθανότητα θα είναι πάντα ίση µε p=1/8. Για κάθε τύπο που θα διαπιστωθεί ότι είναι σηµαντικός µετά από τo τύπο t ο αλγόριθµος δηµιουργεί ένα παιδί για τον κόµβο του t µε περιεχόµενο τον τύπο.έτσι δηµιουργείται ένα δένδρο βάθους στο οποίο αν κάνουµε µία κατά βάθος διάσχιση παίρνουµε όλα τα σηµαντικά patterns µήκους. Αυτή η διαδικασία συνεχίζεται µέχρι να κατασκευαστεί ένα δένδρο βάθους ίσο µε το πλήθος των startng tokens. Έπειτα κάνουµε εξαγωγή αυτών των patterns από το δένδρο έχοντας προσδιορίσει έτσι τα startng patterns. Ας θεωρήσουµε ότι η δοµή του attrbute ATTR περιγράφεται από τα n patterns του συνόλου P = { p1, p,.., pn} µε p p,. Έστω k το συνολικό πλήθος tuples για το ATTR και έστω k το πλήθος των tuples που ακολουθούν το pattern p. Με βάση όλα τα παραπάνω κατασκευάζουµε δύο διανύσµατα µεταπληροφορίας τα οποία θα έχουν την εξής µορφή: < ATTR, n, p 1 1, p,..., p, p n n, dgden, upperden, lowerden, punctden, avertokenlength, avernumoftokensperlne> Με χρήση αυτών των δύο διανυσµάτων το σύστηµα παίρνει την απόφαση αν ο wrapper είναι σωστός ή όχι. Αυτό επιτυγχάνεται κάνοντας στατιστικό έλεγχο Pearson για τα dgden, upperden,,avernumoftokensperlne και χρησιµοποιώντας ένα σύνθετο σύστηµα ποινών βασιζόµενο στα σύνολα των patterns του tranng και testng attrbute. H ιδέα αυτού του συστήµατος ποινών βασίζεται στο να τιµωρούµε την τιµή Pearson χωρίς να αυξάνουµε αντίστοιχα τους βαθµούς ελευθερίας της κατανοµής χι τετράγωνο την οποία ακολουθεί η µεταβλητή του Pearson βασιζόµενοι στην εξής ευριστική: Ίδια σηµασιολογία συνεπάγεται παρόµοια patterns.επειδή όµως το σύστηµα αρχικά θεωρεί ότι η testng πληροφορία είναι σωστή τότε θα έχει την ίδια σηµασιολογία µε το tranng attrbute και άρα παρόµοια patterns. Β)Σχεδιασµός wrapper renducton συστήµατος Επειδή στη διάθεση µας είχαµε ένα wrapper nducton σύστηµα (WI system) το πρόβληµα ανάχθηκε στην εξεύρεση παραδειγµάτων της επιθυµητής πληροφορίας µέσα στις αλλαγµένες ιστοσελίδες. Η ιδέα που υλοποιήθηκε είναι απλή: ψάχνουµε να βρούµε πληροφορία που εξάχθηκε για τα attrbutes κατά τη διάρκεια της ορθής λειτουργίας του wrapper µέσα στις αλλαγµένες ιστοσελίδες. Υλοποιήσαµε λοιπόν έναν brute force αλγόριθµο αναζήτησης συµβολοσειρών µέσα σε κείµενο προσέχοντας οι λεκτικές µονάδες που αποτελούσαν το παράδειγµα προς αναζήτηση να είναι διαδοχικές δεδοµένου του ότι το WI system ήταν ένας sngle slot etractor και όχι mult slot. 3.Αποτελέσµατα Υπήρχε εγγενής δυσκολία στην αξιολόγηση του συστήµατος που αναπτύχθηκε γιατί µία αξιολόγηση σε πραγµατικά δεδοµένα θα απαιτούσε την επί µακρόν παρακολούθηση ενός συνόλου stes. Αυτό ξεπεράστηκε µε την παροχή πραγµατικών δεδοµένων από τον Kushmerck ο οποίος µάλιστα ήταν ο πρώτος που έθεσε το πρόβληµα του wrapper verfcaton. Τα αποτελέσµατα που λάβαµε ήταν άκρως ενθαρρυντικά για τον verfcaton αλγόριθµο. Συγκεκριµένα σε 16 stes εκ των οποίων τα 5

εµφάνισαν αλλαγές που προκαλούσαν σφάλµα στην λειτουργία του wrapper αναγνωρίστηκαν ορθά και οι 5 αλλαγές ενώ στις υπόλοιπες 11 ορθά αναγνωριζόταν η ορθή λειτουργία του wrapper. Σε επίπεδο αναγνώρισης σωστής λειτουργίας για την εξαγωγή πληροφορίας από attrbutes έγιναν 158 δοκιµές εκ των οποίων στις 157 εντοπίστηκε σωστά η λειτουργία του wrapper και σε µία απέτυχε. Μάλιστα το σφάλµα του συστήµατος στην µία φορά αποτυχίας ήταν ότι προέβλεψε πως ο wrapper είχε πρόβληµα ενώ στην πραγµατικότητα δούλευε σωστά. Αυτό το σφάλµα δεν θεωρείται σοβαρό σε αντίθεση µε το σφάλµα να θεωρηθεί ότι ο wrapper εξάγει σωστά την πληροφορία ενώ στην πραγµατικότητα αυτό δεν συµβαίνει. Στην αξιολόγηση του renducton συστήµατος λαµβάνουµε επίσης ικανοποιητικά αποτελέσµατα αν λάβουµε υπ όψιν την απλότητα της µεθόδου. 4.Συνεισφορά της εργασίας (Contrbuton) Η κύρια συνεισφορά της εργασίας έγκειται στην ανάπτυξη ενός σύνθετου verfcaton συστήµατος. Οι µέχρι τώρα προσεγγίσεις στο πρόβληµα του wrapper verfcaton είναι δύο κατηγοριών. Η µία κατηγορία βασίζεται στη δοµή των ιστοσελίδων από τις οποίες εξάγεται η πληροφορία (DOM trees) και ονοµάζεται structure based ενώ η δεύτερη ονοµάζεται content based και βασίζεται στην εξαγόµενη πληροφορία. Οι υπάρχουσες µέθοδοι της δεύτερης κατηγορίας βασίζουν σε αρκετά µεγάλο βαθµό έως και αποκλειστικό όπως στην περίπτωση του RAPTURE -της πρώτης σηµαντικής content based µεθόδου- την επίδοσή τους στο χαρακτηριστικό γνώρισµα της πυκνότητας των HTML χαρακτήρων. Αυτό είναι αναµενόµενο γιατί η εξαγόµενη πληροφορία όταν είναι η επιθυµητή δεν περιέχει καθόλου HTML χαρακτήρες αλλά και το αντίθετο: συνήθως όταν χαλάει ο wrapper η πληροφορία που εξάγεται περιέχει HTML χαρακτήρες. Συνεπώς οι παραπάνω µέθοδοι δεν λαµβάνουν υπ όψιν τους ότι ακόµα και ένας σωστός wrapper µπορεί να εξάγει εκτός από τα επιθυµητά δεδοµένα κάποια άλλα δεδοµένα που περιέχουν HTML χαρακτήρες. Αυτό το διαπιστώσαµε εξάλλου στην πράξη χρησιµοποιώντας το wrapper nducton σύστηµα που διαθέταµε. Αυτό µπορεί να συµβεί ακόµα και στα καλύτερα wrapper nducton συστήµατα. Το σύστηµα µας αφενός είναι ένα content based σύστηµα αλλά δεν χρησιµοποιεί καθόλου τη πυκνότητα των HTML χαρακτήρων. Έτσι ο αλγόριθµός µας είναι εύρωστος αφού δεν προϋποθέτει σε καµία περίπτωση καθαρισµό των εξαγόµενων δεδοµένων (data cleansng) λαµβάνοντας υπ όψιν µικρές «ατέλειες» του wrapper αλλά ταυτόχρονα είναι και γενικός δίνοντας την δυνατότητα να χρησιµοποιηθεί και προσαρµοσµένα και σε άλλες εφαρµογές. [1] Sahuguet,A.,Azavant,F. Web Ecology :Recyclng HTML pages as XML usng W4F, avalable at: http://db.cs.upenn.edu/dl/webdb99.pdf