Πανεπιζηήμιο Πειπαιώρ Τμήμα Πληποθοπικήρ

Σχετικά έγγραφα
ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

Α Ο Κ Η Α Μ Α Ζ Η Η Ρ Η ( S E A R C H )

Ενδεικτικά Θέματα Στατιστικής ΙΙ

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

Η/Υ A ΤΑΞΕΩΣ ΑΕ Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

Constructors and Destructors in C++

Hellas online Προεπιλεγμένες ρσθμίσεις για FritzBox Fon WLAN 7140 (Annex B) FritzBox Fon WLAN Annex B ( )

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

Η αξρή ζύλδεζεο Client-Server

Σημεία Ασύπματηρ Ππόσβασηρ (Hot-Spots)

Case Study. Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report.

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Ειζαγωγή ζηη Φωηογραθία. Χριζηάκης Σαζεΐδης EFIAP

Να ζρεδηάζεηο ηξόπνπο ζύλδεζεο κηαο κπαηαξίαο θαη ελόο ιακπηήξα ώζηε ν ιακπηήξαο λα θσηνβνιεί.

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

Έκδοζη /10/2014. Νέα λειηοσργικόηηηα - Βεληιώζεις

1. Οδηγίερ εγκαηάζηαζηρ και σπήζηρ έξςπνυν καπηών και τηθιακών πιζηοποιηηικών με σπήζη ηος λογιζμικού Μοzilla Thunderbird

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ. Οξηδόληηα θαη θαηαθόξπθε κεηαηόπηζε παξαβνιήο

ΒΗΜΑ 2. Εηζάγεηε ηνλ Κωδηθό Πξόζβαζεο πνπ ιακβάλεηε κε SMS & δειώλεηε επηζπκεηό Όλνκα Πξόζβαζεο (Username) θαη ην ζαο

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

ύζηεκα Ωξνκέηξεζεο Πξνζσπηθνύ (Έθδνζε 2) ΤΠΗΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΩΝ ΤΣΗΜΑΣΩΝ

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ.

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΣΥΝΔΥΑΣΤΙΚΑ ΚΥΚΛΩΜΑΤΑ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

Οδηγίες τρήζης για λειηοσργία μεηαθοράς καναλιών ζε υηθιακό δέκηη OST-7060 HD

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

Μορθές Κακόβοσλοσ Κώδικα (Malicious Code)

Ηλεκηπονικά Απσεία και Διεπαθέρ

Βάσεις Δεδομέμωμ. Δξγαζηήξην Ι. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

Image J Plugin particle tracker για παρακολούθηση της κίνησης σωματιδίων

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Δξγαιεία Καηαζθεπέο 1 Σάμε Δ Δ.Κ.Φ.Δ. ΥΑΝΗΩΝ ΠΡΩΣΟΒΑΘΜΗΑ ΔΚΠΑΗΓΔΤΖ. ΔΝΟΣΖΣΑ 2 ε : ΤΛΗΚΑ ΩΜΑΣΑ ΔΡΓΑΛΔΗΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Ογθνκεηξηθό δνρείν

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

Εγκατάσταση του πακέτου XAMPP. Β Τεχνική Σχολή Λεμεςοφ Σχολική χρονιά Άριςτοσ Παςιάσ

MySQL Εργαστήριο #5 Ενεργοποιητές (συνέχεια)

x x x x tan(2 x) x 2 2x x 1

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

ΟΣΑ Επηρεηξεζηαθή Ννεκνζύλε. Ελόηεηα: Ad1.2.2 «Ση θξύβεηαη» πίζω από κηα Επηρεηξεζηαθή Αλαθνξά (report): XML & XSD γηα αξράξηνπο

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ

Σρήκα Α. Γξάθνπκε ηα ζηνηρεία ηνπ Πξνκεζεπηή θαη παηάκε Δηζαγσγή. Σρήκα Β1

Διαηιμήζεις για Αιολικά Πάρκα. Κώδικες 28, 78 και 84

Διατείριση Φσσικών Καταστρουών: ACTIVE LANDSLIDE INVENTORY MAPPING AND SUSCEPTIBILITY ZONING

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο

CytaInfo+ έλα application γηα ηε Cyta.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

Βιομησανικόρ ζσεδιαζμόρ πποϊόνηων από ανακςκλωμένερ ζςζκεςαζίερ

Άσκηση 1 - Μοπυοποίηση Κειμένου

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο:

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

ΠΛΗ36. Άσκηση 1. Άσκηση 2. Οη δηεπζύλζεηο ησλ 4 σλ ππνδηθηύσλ είλαη νη αθόινπζεο. Υπνδίθηπν Α: /27 Υπνδίθηπν Β:

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

ΣΕΙ ΙΟΝΙΩΝ ΝΗΩΝ ΣΜΗΜΑ: ΣΕΥΝΟΛΟΓΙΑ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΣΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΥΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ Ρέππα Μαξγαξίηα

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

Κάλνληαο θιηθ κε ην πνληίθη ζηνλ ινγαξηαζκό πνπ ζέινπκε θιείλεη ην παξάζπξν πνπ κόιηο είρε αλνίμεη. Παηώληαο Παξνπζίαζε (βειάθη Νν 3) παξνπζηάδνληαη

5 η Δργαζηηριακή Άζκηζη Κσκλώμαηα Γσαδικού Αθροιζηή/Αθαιρέηη

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

Οργάνωση και Δομή Παρουσιάσεων

ΕΝΤΟΛΕΣ WINDOWS ΚΑΙ UNIX

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

ΔΡΓΑΙΑ 1. Γιαδικησακά πληροθοριακά σζηήμαηα. Ομάδα Δργαζίας: Μεηαπηστιακοί Φοιηηηές. ηέθανος Κονηοβάς ΑΔΜ :283. Πάζτος Βαζίλειος ΑΔΜ :288

ΔΝΓΔΙΚΤΙΚΔΣ ΛΥΣΔΙΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΔΥΘΥΝΣΗΣ Γ ΛΥΚΔΙΟΥ ΓΔΥΤΔΡΑ 27 ΜΑΪΟΥ 2013

ΣΡΑΠΕΖΑ ΘΕΜΑΣΩΝ Α ΛΤΚΕΙΟΤ

ΙΣΤΟΡΙΑ ΤΟΥ ΑΡΧΑΙΟΥ ΚΟΣΜΟΥ

7. ΚΑΤΑΧΩΡΗΤΕΣ ΕΡΩΤΗΣΕΙΣ ΑΣΚΗΣΕΙΣ. 3. Έλαο θαηαρσξεηήο SISO ησλ 4 bits έρεη: α) Μία είζνδν, β) Δύν εηζόδνπο, γ) Σέζζεξεηο εηζόδνπο.

Intel Accelerate Your Code

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

Η. Απζίλνο Αλ. Καζεγεηήο Αζιεηηθή δηνίθεζε. ΟΓΗΓΟ ΠΣΤΥΙΑΚΗ ΔΡΓΑΙΑ ζηελ Αζιεηηθή δηοίθεζε. Θέκα πηστηαθής (κε ηε κνξθή εξωηήκαηνο):...

ΚΔΦ. 2.4 ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

ΑΝΤΗΛΙΑΚΑ. Η Μηκή ζθέθηεθε έλαλ ηξόπν, γηα λα ζπγθξίλεη κεξηθά δηαθνξεηηθά αληειηαθά πξντόληα. Απηή θαη ν Νηίλνο ζπλέιεμαλ ηα αθόινπζα πιηθά:

Αντισταθμιστική ανάλυση

ΕΓΧΕΙΡΙΔΙΟ ΕΚΔΟΗ 8.0.0

Τν Πξόγξακκα ζα αλαθνηλσζεί, ακέζσο κεηά ηηο γηνξηέο ηνπ Πάζρα.

Ζαχαρίας Μ. Κοντοπόδης Εργαστήριο Λειτουργικών Συστημάτων ΙΙ

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014

ΣΡΑΠΕΖΑ ΘΕΜΑΣΩΝ Α ΛΤΚΕΙΟΤ

ΥΡΙΣΟΤΓΔΝΝΙΑΣΙΚΔ ΚΑΣΑΚΔΤΔ

Transcript:

Πανεπιζηήμιο Πειπαιώρ Τμήμα Πληποθοπικήρ Ππόγπαμμα Μεηαπηςσιακών Σποςδών «Πποηγμένα Σςζηήμαηα Πληποθοπικήρ» Μεηαπηπρηαθή Γηαηξηβή Τίηλορ Διαηπιβήρ Ονομαηεπώνςμο Φοιηηηή Παηπώνςμο Απιθμόρ Μηηπώος Επιβλέπων Διαδικτυακή Εφαρμογή Άντλησης Δεδομένων Εκδοτικού Οίκου Elsevier και Απεικόνισης αυτών σε Διαδραστικό Χάρτη Ταμπάκης Παναγιώτης Κωνσταντίνος ΜΠΣΠ/ 08023 Δ. Δεσπότης, Καθηγητής Ημεπομηνία Παπάδοζηρ Ιούνιος 2011

Τριμελής Εξεταστική Επιτροπή (ςπογπαθή) (ςπογπαθή) (ςπογπαθή) Δ. Δεζπόηηρ Καθηγηηήρ Ν. Αλεξανδπήρ Καθηγηηήρ Δ. Αποζηόλος Επικ. Καθηγηηήρ Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη ii

Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη iii

Δπραξηζηίεο Θα ήζεια όκσο λα επραξηζηήζσ ηελ νηθνγέλεηα κνπ γηα ηελ ζηήξημε ηνπο, ηνλ επηβιέπνληα ηνλ θαζεγεηή θ. Γεζπόηε Γεκήηξην ηνλ ππνςήθην δηδάθηνξα θ. Επγνκήηξν Αζαλάζην γηα ηελ άξηζηε ζπλεξγαζία θαη ηελ ππνκνλή ηνπο. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη iv

Πεξίιεςε Κε ηελ νινέλα θαη κεγαιύηεξε εμάπισζε θαη δηάδνζε ηνπ Γηαδηθηύνπ θαζώο θαη κε ηελ ζπλερόκελε αλάπηπμε ησλ ηερλνινγηώλ πάλσ ζηηο νπνίεο βαζίδεηαη απηό έρνπλ νδεγήζεη ζηελ αλάγθε αλάπηπμεο Γηαδηθηπαθώλ Δθαξκνγώλ ε νπνίεο δεκηνπξγνύλ πξνζηηζέκελε αμία. Απηό ζε ζπλδπαζκό κε ηελ αλάγθε ηεο αθαδεκατθήο θνηλόηεηαο γηα νπηηθνπνίεζε θάπνησλ κεγεζώλ θαη κέηξσλ απόδνζεο πνπ αθνξνύλ ηελ έξεπλα, νδήγεζαλ ζηελ παξνύζα Γηπισκαηηθή Δξγαζία. ε απηή δεκηνπξγήζεθε κηα Γηαδηθηπαθή εθαξκνγή κε ηελ νπνία ζα γίλεηαη άληιεζε δεδνκέλσλ γηα όια ηα papers θάπνησλ επηζηεκνληθώλ πεξηνδηθώλ ηνπ εθδνηηθνύ νίθνπ, επεμεξγαζία ησλ δεδνκέλσλ απηώλ, κεηαηξνπή ηνπο ζε ρξήζηκε πιεξνθνξία θαη απεηθόληζε ηνπο ζε έλα δηαδξαζηηθό ράξηε. Abstract With the increasing expansion and spread of the Internet and the continuing development of technologies on which it depends on, have led to the need to develop Web applications which create added value. This combined with the need of the academic community for visualization of some data and performance measures relating to research, led to this thesis. In this was created a web application with which we will be obtaining data on all papers of some scientific journals of the Publishing House, processing of these data, conversion into useful information and representation in an interactive map. Keywords: Web Applications, Web Crawling, Web Harvesting, Data Visualization, Interactive Maps, Elsevier Λέμεηο Κιεηδηά: Γηαδηθηπαθέο Δθαξκνγέο, Web Crawling, Web Harvesting, Οπηηθνπνίεζε Γεδνκέλσλ, Γηαδξαζηηθνί Υάξηεο, Elsevier Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη v

Πίλαθαο Πεξηερνκέλσλ 1. ΔΙΑΓΩΓΗ... 1 1.1. ΑΛΣΗΘΔΗΚΔΛΟ ΣΖ ΓΗΠΙΩΚΑΣΗΘΖ... 1 2. ΔΤΦΤΗ ΠΡΑΚΣΟΡΔ... 3 2.1. ΣΔΥΛΗΘΔ HARVESTING... 4 2.2. ΔΡΓΑΙΔΗΑ... 4 2.3. ΚΟΡΦΖ ΠΑΡΑΓΟΚΔΛΩΛ ΓΔΓΟΚΔΛΩΛ... 8 3. ΔΙΑΓΩΓΗ ΓΔΓΟΜΔΝΩΝ ΣΗΝ ΒΑΗ... 10 4. ΒΑΗ ΓΔΓΟΜΔΝΩΝ... 12 4.1. ΔΛΛΟΗΟΙΟΓΗΘΟ ΥΔΓΗΑΚΟ ΣΖ ΒΑΖ... 12 4.2. ΙΟΓΗΘΟ ΥΔΓΗΑΚΟ ΣΖ ΒΑΖ... 13 4.3. ΤΙΟΠΟΗΖΖ ΣΟΤ ΥΔΗΑΘΟΤ ΥΖΚΑΣΟ ΣΖ ΒΑΖ ΓΔΓΟΚΔΛΩΛ... 14 4.4. ΠΤΡΟΓΟΣΖΣΔ (TRIGGERS)... 19 5. ΑΤΣΟΜΑΣΟΠΟΙΗΗ ΓΙΑΓΙΚΑΙΑ ΤΛΛΟΓΗ ΣΩΝ ΓΔΓΟΜΔΝΩΝ ΚΑΙ ΔΙΑΓΩΓΗ ΣΟΤ ΣΗΝ ΒΑΗ ΓΔΓΟΜΔΝΩΝ... 22 6. ΑΠΔΙΚΟΝΙΗ ΣΩΝ ΓΔΓΟΜΔΝΩΝ Δ ΥΑΡΣΗ... 26 6.1. AMMAP... 26 6.2. LIVE ΤΛΓΔΖ AMMAP ΚΔ ΣΖΛ ΒΑΖ ΓΔΓΟΚΔΛΩΛ... 30 6.3. ΠΑΡΟΤΗΑΖ WEB ΔΦΑΡΚΟΓΖ... 32 6.3.1. Αξηζκόο Paper αλά Υώξα... 33 6.3.2. Αξηζκό Paper αλά Δπηζηεκνληθό Πεξηνδηθό θαη Υώξα... 34 6.3.3. Θαηά Θεθαιήλ Αξηζκόο Papers Θνξπθαίεο Υώξεο... 35 6.3.4. Γίθηπα Γηεζλώλ πλεξγαζηώλ... 35 6.3.5. Αξηζκόο Paper αλά Ιέμε Θιεηδί θαη Υώξα... 38 7. ΤΜΠΔΡΑΜΑΣΑ - ΜΔΛΛΟΝΣΙΚΗ ΔΡΓΑΙΑ... 39 8. ΒΙΒΛΙΟΓΡΑΦΙΑ... 40 9. ΠΑΡΑΡΣΗΜΑ... 41 9.1. WEB-HARVEST CONFIGURATION FILE... 41 9.2. SQL SERVER DATABASE CREATION SCRIPT... 44 9.3. WEB PAGE SOURCE CODE... 51 9.3.1. connect2db.php... 51 9.3.2. main.html... 51 9.3.3. list.html... 53 9.3.4. underlist1.html... 55 9.3.5. underlist2.html... 55 9.3.6. NumberOfArticles.php... 56 9.3.7. form_journals.php... 57 9.3.8. Journals.php... 58 9.3.9. ArticlesPerCapita.php... 60 9.3.10. form_cooperations.php... 62 9.3.11. Cooperations.php... 63 Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη vi

9.3.12. form_keywords.html... 67 9.3.13. keywords.php... 68 9.3.14. ammap_settings.xml... 69 Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη vii

Λίζηα Δηθόλσλ Δηθόλα 1: Γηαγξακκαηηθή Απεηθόληζε ηεο Δθαξκνγήο... 2 Δηθόλα 2: Γνκή ηνπ πίλαθα ηεο Βάζεο γηα ηνλ νπνίν πξννξίδνληαη ηα δεδνκέλα... 10 Δηθόλα 3: Γηάγξακκα Οληνηήησλ πζρεηίζεσλ ηεο Βάζεο Γεδνκέλσλ... 12 Δηθόλα 4: Αξηζκόο Paper αλά Υώξα... 33 Δηθόλα 5: Αξηζκόο Paper Διιάδαο... 33 Δηθόλα 6: Αξηζκόο Paper αλά Δπηζηεκνληθό Πεξηνδηθό θαη Υώξα - Δπηινγή Δπηζηεκνληθνύ Πεξηνδηθνύ... 34 Δηθόλα 7: Αξηζκόο Paper αλά Δπηζηεκνληθό Πεξηνδηθό θαη Υώξα... 35 Δηθόλα 8 Καηά Κεθαιήλ Αξηζκόο Paper Κνξπθαίεο Υώξεο... 35 Δηθόλα 9: Γίθηπα Γηεζλώλ πλεξγαζηώλ - Δπηινγή Υώξαο... 36 Δηθόλα 10: Γίθηπν Γηεζλώλ πλεξγαζηώλ... 37 Δηθόλα 11: Αξηζκόο Paper αλά Λέμε Κιεηδί θαη Υώξα... 38 Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη viii

1. Εισαγωγή 1.1. Αντικείμενο της Διπλωματικής Αληηθείκελν ηεο παξνύζαο Γηπισκαηηθήο εξγαζίαο είλαη ε δεκηνπξγία κηαο web εθαξκνγήο κε ηελ νπνία ζα γίλεηαη άληιεζε δεδνκέλσλ γηα όια ηα papers θάπνησλ επηζηεκνληθώλ πεξηνδηθώλ ηνπ εθδνηηθνύ νίθνπ Elsevier, επεμεξγαζία ησλ δεδνκέλσλ απηώλ, κεηαηξνπή ηνπο ζε ρξήζηκε πιεξνθνξία θαη απεηθόληζε ηνπο ζε έλα δηαδξαζηηθό ράξηε. Βαζηθό πξόβιεκα θαηά ηελ δεκηνπξγία ηεο εθαξκνγήο απηήο ήηαλ όηη ν εθδνηηθόο νίθνο Elsevier δελ παξέρεη θάπνην API γηα απεπζείαο πξόζβαζε ζηα δεδνκέλα ηνπ. Δπνκέλσο, αλαγθαζηήθακε λα θαηαθύγνπκε ζηελ ιύζε ησλ επθπώλ πξαθηόξσλ θαη πην ζπγθεθξηκέλα ζε θάπνην web crawler ή web harvester ή web spider. Ζ ηειηθή επηινγή ήηαλ έλα open source εξγαιείν, ην Web-Harvest, ην νπνίν ζα αλαιπζεί ελδειερώο ζε επόκελε ελόηεηα. Έλα αθόκε πξόβιεκα, πνπ πξνέθπςε από ηελ επηινγή ηεο ρξήζεο ελόο επθπνύο πξάθηνξα θαη πην ζπγθεθξηκέλα ηνπ Web-Harvest, ήηαλ ν ηξόπνο κε ηνλ νπνίν ζα γίλεηαη ε δηάηξεμε ησλ δεδνκέλσλ. Γειαδή, ην πώο πεξηεγνύκαζηε από paper ζε paper θαζώο δελ ππήξρε εκθαλήο ηξόπνο νύηε κέζα από ην url ηνπ θάζε άξζξνπ νύηε κέζα από ην πεξηερόκελν ηνπ. Σε ιύζε ζε απηό ην πξόβιεκα ήξζε λα δώζεη ην ζύζηεκα Digital Object Identifier (DOI). Απηό ην ζύζηεκα παξέρεη θάζε ςεθηαθό αληηθείκελν κε έλα κνλαδηθό θσδηθό πνπ ην πξνζδηνξίδεη θαη κε βάζε ην νπνίν κπνξείο αλαηξέμεηο ζην ζπγθεθξηκέλν αληηθείκελν. Γηα παξάδεηγκα, ε url ελόο paper ηνπ εθδνηηθνύ νίθνπ Elsevier είλαη: http://www.sciencedirect.com/science/article/pii/s0377221709000095 ην αληίζηνηρν doi ηνπ είλαη: doi:10.1016/j.ejor.2009.01.001 Θαη κπνξείο λα αλαηξέμεηο ζην ζπγθεθξηκέλν paper κε ηελ url: http://dx.doi.org/10.1016/j.ejor.2009.01.001 εκαζηνινγηθά ην doi ρσξίδεηαη ζε θάπνηα ηκήκαηα: 1. Σν πξώην ηκήκα είλαη ην 10.1016 πνπ είλαη έλαο θσδηθόο πνπ καο παξέρεη ηνλ εθδνηηθό νίθν. 2. Σν δεύηεξν ηκήκα είλαη ην j.ejor. είλαη έλαο θσδηθόο πνπ καο παξέρεη ην επηζηεκνληθό πεξηνδηθό (ζηε ζπγθεθξηκέλε πεξίπησζε είλαη ην European Journal of Operational Research). 3. Σν ηξίην ηκήκα είλαη ην έηνο. 4. Σν ηέηαξην ηκήκα είλαη ν κήλαο. 5. Θαη ηέινο είλαη έλαο αύμσλ αξηζκόο από ην 001 έσο ην 999. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 1

Αθνύ νινθιεξσζεί ε άληιεζε ησλ δεδνκέλσλ απηά ζα πξέπεη λα απνζεθεπζνύλ ζε θάπνηα Βάζε Γεδνκέλσλ όπνπ ζα ππνζηνύλ θαη θάπνηα επεμεξγαζία έηζη ώζηε λα κεηαηξαπνύλ ηα πξσηνγελή απηά δεδνκέλα ζε θάπνηα ρξήζηκε πιεξνθνξία. ηε ζπλέρεηα, ζα πξέπεη ε πιεξνθνξία απηή λα νπηηθνπνηεζεί θαη απεηθνληζηεί ζε έλαλ δηαδξαζηηθό ράξηε. Σέινο, ζα πξέπεη όιε απηή ε ξνή εξγαζίαο θαη δεδνκέλσλ λα απηνκαηνπνηεζεί έηζη ώζηε λα κελ ρξεηάδεηαη αλζξώπηλε παξέκβαζε γηα ηε ιεηηνπξγία ηεο. Κία ρνλδξνεηδήο δηαγξακκαηηθή απεηθόληζε ηεο εθαξκνγήο καο ζα κπνξνύζε λα είλαη ε εμήο. Δηθόλα 1: Γηαγξακκαηηθή Απεηθόληζε ηεο Δθαξκνγήο Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 2

2. Ευφυής Πράκτορες Απνηειώληαο ίζσο ην όλεηξν θάζε κεραληθνύ κηζό αηώλα λσξίηεξα, ην δηαδίθηπν, απηό ην ζύλνιν από ζπλδεδεκέλα δίθηπα ππνινγηζηώλ ζε όιν ηνλ Πιαλήηε, πξνζθέξεη ηελ ππνδνκή θαη ην πιαίζην πάλσ ζην νπνίν ιεηηνπξγνύλ νη ππεξεζίεο ηνπ (ειεθηξνληθό ηαρπδξνκείν, απνκαθξπζκέλε ζύλδεζε ζε ππνινγηζηή, κεηαθνξά αξρείσλ, θαλάιηα ηαπηόρξνλεο επηθνηλσλίαο, παγθόζκηνο ηζηόο) κε ζεκαληηθόηεξε ίζσο θαη ζίγνπξα ηαρύηεξα εμειηζζόκελε από απηέο απηή ηνπ Παγθνζκίνπ Ηζηνύ. Ζ ύπαξμε θαη ε ζεκεξηλή κνξθή ηνπ Παγθνζκίνπ Ηζηνύ είλαη θάηη πνπ δύζθνια ζα κπνξνύζε λα θαληαζηεί θάπνηνο κεξηθέο κόλν δεθαεηίεο λσξίηεξα. Ζ επαλάζηαζε ηεο Πιεξνθνξίαο, ζηελ επνρή ηεο νπνίαο δνύκε θαη ε αλζξσπόηεηα πέξαζε κε ηελ εκθάληζε ησλ πξώησλ ειεθηξνληθώλ ππνινγηζηώλ, έρεη επηθέξεη ηεξάζηηεο αιιαγέο ζηνπο πεξηζζόηεξνπο, αλ όρη ζε όινπο ηνπο ηνκείο ηεο δσήο καο. Απηέο νη αιιαγέο δελ ήηαλ αξρηθά εκθαλείο ζην επξύ θνηλό κέρξη ηελ επνρή πνπ πξσηνεκθαλίζηεθαλ νη ππεξεζίεο ηνπ δηαδηθηύνπ. Από ηνλ ηξόπν κε ηνλ νπνίν εξγαδόκαζηε θαη ελεκεξσλόκαζηε κέρξη θαη ηνλ ηξόπν κε ηνλ εθθξαδόκαζηε θαη επηθνηλσλνύκε νη αιιαγέο πνπ ππάξρνπλ ζε ζρέζε κε όηη ζπλέβαηλε ζηηο αξρέο π.ρ. ηεο δεθαεηίαο ηνπ 1990 είλαη ηεξάζηηεο. Κέζα ζε απηή ηελ θνηλσλία ηεο Πιεξνθνξίαο, όπσο εύζηνρα νλνκάδεηαη, ν θαζέλαο κπνξεί λα πεξηεγεζεί, πεξηπιαλεζεί, αλαδεηήζεη άιια θαη ηαπηόρξνλα λα πξνζζέζεη θάηη ζηνλ ήδε ηεξάζηην όγθν πιεξνθνξίαο πνπ είλαη δηαζέζηκνο κε πνιύ κεγάιε επθνιία θαη δηακέζνπ κόλν ηνπ ππνινγηζηή καο. Δηδηθόηεξα δε, ζηελ εθπαηδεπηηθή δηαδηθαζία, ν πινύηνο ηεο πξνζθεξόκελεο γλώζεο πνπ είλαη δηαζέζηκε ηόζν ζηνλ εθπαηδεπηή όζν θαη ζηνλ εθπαηδεπόκελν είλαη αλεθηίκεηνο. Σόζν γηαηί ππάξρεη πξόζβαζε ζε ηεξάζηηεο πνζόηεηεο πιεξνθνξίαο ζρεηηθά κε νπνηνδήπνηε ζέκα όζν θαη γηαηί ππάξρεη πξόζβαζε ζηηο ηειεπηαίεο εμειίμεηο θαη ζηηο πην «ελεκεξσκέλεο εθδόζεηο» απηήο ηεο πιεξνθνξίαο. Τπάξρνπλ όκσο δπν δεηήκαηα πνπ πξνθύπηνπλ: Πξώηνλ, πσο κπνξνύκε λα είκαζηε ελεκεξσκέλνη γηα ην ηη ππάξρεη δηαζέζηκν ηελ ηξέρνπζα ρξνληθή ζηηγκή ζηνλ ηεξάζηην θαη ηαρύηαηα εμειηζζόκελν Παγθόζκην Ηζηό θαη δεύηεξνλ, πσο κπνξνύκε λα είκαζηε ζίγνπξνη γηα ηελ εγθπξόηεηα ηεο δηαζέζηκεο πιεξνθνξίαο ; Ζ αλαθνίλσζε απηή αλαθέξεηαη κε ζπληνκία ζην πξώην δήηεκα. Θαηά ηε δεθαεηία ηνπ '90, κε ηελ απμαλόκελε ζεκαζία ηνπ Internet, αλάπηπμε γλώξηζαλ νη επθπείο πξάθηνξεο, απηόλνκν ινγηζκηθό ΣΛ ηνπνζεηεκέλν ζε θάπνην πεξηβάιινλ κε ην νπνίν αιιειεπηδξά, νη νπνίνη βξήθαλ κεγάιν πεδίν εθαξκνγώλ ιόγσ ηεο εμάπισζεο ηνπ Γηαδηθηύνπ. Οη πξάθηνξεο ζηνρεύνπλ ζπλήζσο ζηελ παξνρή βνήζεηαο ζηνπο ρξήζηεο ηνπο, ζηε ζπιινγή ή αλάιπζε γηγάληησλ ζπλόισλ δεδνκέλσλ ή ζηελ απηνκαηνπνίεζε επαλαιακβαλόκελσλ εξγαζηώλ (π.ρ. βιέπε δηαδηθηπαθό ξνκπόη), ελώ ζηνπο ηξόπνπο θαηαζθεπήο θαη ιεηηνπξγίαο ηνπο ζπλνςίδνπλ όιεο ηηο γλσζηέο κεζνδνινγίεο ΣΛ πνπ αλαπηύρζεθαλ κε ην πέξαζκα ηνπ ρξόλνπ. Οη επθπείο Πξάθηνξεο Ινγηζκηθνύ (ΠΙ) κπνξνύλ λα ζεσξεζνύλ σο νληόηεηεο ινγηζκηθνύ, νη νπνίεο επηδεηθλύνπλ έλα ζύλνιν από ραξαθηεξηζηηθά, όπσο απηνλνκία, επηθνηλσλία, θηλεηηθόηεηα θαη πξνλνεηηθόηεηα. Οη ΠΙ είλαη επίζεο ζε ηθαλνί λα επηδεηθλύνπλ επθπείο ζπκπεξηθνξέο, κέζα ζην πιαίζην θνηλσληώλ πξαθηόξσλ. Σα ζπζηήκαηα πνιιαπιώλ πξαθηόξσλ (ΠΠ - multi-agent systems) είλαη επνκέλσο ην πεξηβάιινλ ζην νπνίν επθπείο, απηόλνκνη ΠΙ αιιειεπηδξνύλ γηα ηελ επίηεπμε αηνκηθώλ (αληαγσληζηηθά ΠΠ) ή ζπιινγηθώλ (ζπλεξγαηηθά ΠΠ) ζηόρσλ. Κηα θαιύηεξε ιύζε, εηδηθά όηαλ καο ελδηαθέξεη λα εθκεηαιιεπηνύκε κηα επξεία γθάκα ζηνηρείσλ, ελαπόθεηηαη ζηα screen/web scraping ή Web extraction - mining Web ή Web harvesting εξγαιεία. Σν scraping είλαη ε δηαδηθαζία ηεο ρξεζηκνπνίεζεο ησλ εξγαιείσλ ινγηζκηθνύ γηα ηελ αλάιπζε πεξηερόκελνπ πνπ γξάθηεθε αξρηθά γηα θαηαλάισζε από αλζξώπνπο κε ζθνπό ηελ εμαγσγή ζεκαζηνινγηθώλ δνκώλ δεδνκέλσλ αληηπξνζσπεπηηθώλ απηώλ ησλ πιεξνθνξηώλ πνπ κπνξνύκε λα ρξεζηκνπνηήζνπκε θαη λα δηαρεηξηζηνύκε πξνγξακκαηηζηηθά. Σν ινγηζκηθό απηό απηόκαηα εμάγεη ηηο πιεξνθνξίεο από ηνλ Ηζηό θαη ζπλερίδεη από εθεί πνπ ζηακαηνύλ νη κεραλέο αλαδήηεζεο, θάλνληαο ηελ εξγαζία πνπ απηέο δελ κπνξνύλ. Θάζε Web site θαη θάζε ηζηνζειίδα είλαη δνκεκέλε ρξεζηκνπνηώληαο θάπνηα ινγηθή. Απαηηείηαη επνκέλσο λα πεξηγξαθεί ε αληίζηξνθε δηαδηθαζία - πώο λα πξνζθνκηζηνύλ ηα επηζπκεηά ζηνηρεία από ην Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 3

κηθηό πεξηερόκελν. Σν Web harvesting αλαθέξεηαη ζηελ αλάθηεζε θαη επεμεξγαζία ησλ δεδνκέλσλ πνπ έρνπλ ζπιιέγεη από πόξνπο Ηζηνύ. Σα εξγαιεία ινγηζκηθνύ γηα Web harvesting βξίζθνπλ, αλαθηνύλ, θαη έμππλα επεμεξγάδνληαη κε δνκεκέλα δεδνκέλα πνπ είλαη δηαζέζηκα κέζσ ηνπ web. ε κεξηθέο πεξηπηώζεηο ν ζηόρνο είλαη αθόκα πην ζύλζεηνο από απηόλ: Σα ζηνηρεία κπνξεί λα είλαη δηαζθνξπηζκέλα ζε πεξηζζόηεξεο ζειίδεο, λα ρξεηάδεηαη ππξνδόηεζε ελόο GET/POST request γηα ηε ιήςε ηεο ζειίδαο εηζόδνπ ή λα απαηηείηαη ε έγθξηζε γηα πινήγεζε ζηε ζειίδα ελδηαθέξνληνο. 2.1. Τεχνικές Harvesting Τπάξρνπλ ηξεηο ηξόπνη πνπ κπνξνύκε λα εμαγάγνπκε ρξήζηκεο πιεξνθνξίεο από ηνλ Ηζηό. Ζ πξώηε ηερληθή, ην harvesting web πεξηερνκέλνπ, ελδηαθέξεηαη άκεζα γηα ην ζπγθεθξηκέλν πεξηερόκελν ησλ εγγξάθσλ ή ησλ πεξηγξαθώλ ηνπο, όπσο HTML αξρεία, εηθόλεο ή e-mail κελύκαηα. Γεδνκέλνπ όηη ηα πεξηζζόηεξα έγγξαθα θεηκέλσλ είλαη ζρεηηθά κε δνκεκέλα (ηνπιάρηζηνλ όζνλ αθνξά ζηελ εξκελεία από κεραλέο), κηα θνηλή πξνζέγγηζε είλαη λα ρξεζηκνπνηεζεί όηη είλαη ήδε γλσζηό γηα ηε γεληθή δνκή ησλ εγγξάθσλ θαη λα αληηζηνηρηζηεί ζε θάπνην κνληέιν δεδνκέλσλ. Κηα άιιε πξνζέγγηζε πεξηιακβάλεη ηελ πξνζπάζεηα βειηίσζεο ζηηο αλαδεηήζεηο πεξηερνκέλνπ πνπ εθηεινύλ εξγαιεία όπσο νη κεραλέο αλαδήηεζεο. Απηόο ν ηύπνο content harvesting ππεξβαίλεη ηελ εμαγσγή ιέμεσλ θιεηδηώλ θαη ηελ παξαγσγή απιώλ ζηαηηζηηθώλ ζρεηηθά κε ιέμεηο θαη θξάζεηο ζηα έγγξαθα. Κηα άιιε ηερληθή, ην harvesting Web δνκήο, εθκεηαιιεύεηαη ην γεγνλόο όηη νη ηζηνζειίδεο κπνξνύλ λα απνθαιύςνπλ πεξηζζόηεξεο πιεξνθνξίεο από όηη κόλν ην πξνθαλέο πεξηερόκελό ηνπο. Οη ζύλδεζκνη από άιιεο πεγέο πνπ δείρλνπλ ζηελ ηζηνζειίδα δείρλνπλ ηε δεκνηηθόηεηα ηεο ζειίδαο απηήο, ελώ ζύλδεζκνη κέζα ζηε ζειίδα πνπ δείρλνπλ ζε άιινπο πόξνπο κπνξεί λα ππνδεηθλύνπλ ηελ αθζνλία ή ηελ πνηθηιία ησλ ζεκάησλ πνπ θαιύπηνληαη ζε εθείλε ηελ ζειίδα. Ζ ηξίηε ηερληθή, ην harvesting Web ρξήζεο, ρξεζηκνπνηεί δεδνκέλα πνπ θαηαγξάθνληαη από Web servers γηα ηηο αιιειεπηδξάζεηο ρξεζηώλ γηα λα βνεζήζεη ζηελ θαηαλόεζε ηεο ζπκπεξηθνξάο ρξεζηώλ θαη ηελ εθηίκεζε ηεο απνηειεζκαηηθόηεηαο ηεο Web δνκήο. Ζ θαηαγξαθή κνηίβσλ γεληθήο πξόζβαζεο αλαιύεη ηα Web logs γηα ηελ θαηαλόεζε κνηίβσλ πξόζβαζεο θαη ηάζεηο πξνθεηκέλνπ λα αλαγλσξηζηνύλ δνκηθά δεηήκαηα θαη νκαδνπνίεζε πόξσλ. Ζ θαηαγξαθή πξνζαξκνζκέλεο ρξήζεο αλαιύεη κεκνλσκέλεο ηάζεηο έηζη ώζηε νη ηζηνρώξνη λα κπνξνύλ λα πξνζσπνπνηεζνύλ ζε ζπγθεθξηκέλνπο ρξήζηεο. Θαηά ηε δηάξθεηα ηνπ ρξόλνπ, βαζηζκέλνπ ζηα κνηίβα πξόζβαζεο, έλαο ηζηόηνπνο κπνξεί λα πξνζαξκόδεηαη δπλακηθά γηα έλαλ ρξήζηε από ηελ άπνςε ησλ πιεξνθνξηώλ πνπ επηδεηθλύνληαη, ηνπ βάζνπο ηεο δνκήο ηνπ site θαη ηεο κνξθήο ησλ πόξσλ πνπ παξνπζηάδνληαη. 2.2. Εργαλεία Θα παξνπζηάζνπκε έλα εξγαιείν πνπ ζα κπνξνύζε λα ρξεζηκνπνηεζεί γηα λα θάλνπκε scraping ζην πξνθεηκέλνπ λα εμάγνπκε ηα απαηηνύκελα ζηνηρεία γηα ηα εξγαιεία θάζε θαηεγνξίαο όπσο ηα έρνπκε θαζνξίζεη. Σν Web-Harvest είλαη έλα αλνηρηνύ θώδηθα εμαγσγήο δεδνκέλσλ Ηζηνύ εξγαιείν γξακκέλν ζε Java. Πξνζθέξεη έλαλ ηξόπν λα ζπιιέμνπκε επηζπκεηέο ηζηνζειίδεο θαη λα εμάγνπκε ρξήζηκα δεδνκέλα από απηέο. Πξνθεηκέλνπ λα γίλεη απηό, ρξεζηκνπνηεί θαζηεξσκέλεο ηερληθέο θαη ηερλνινγίεο γηα δηαρείξηζε θεηκέλνπ/xml όπσο XSLT, XQuery θαη Regular Expressions. Σν Web- Harvest θπξίσο εζηηάδεη ζε HTML/XML βαζηζκέλα web sites, ηα νπνία απνηεινύλ αθόκα ηε κεγάιε πιεηνςεθία ηνπ πεξηερνκέλνπ Ηζηνύ. Αθ' εηέξνπ, ζα κπνξνύζε λα ζπκπιεξσζεί εύθνια από ζπλήζεηο Java βηβιηνζήθεο πξνθεηκέλνπ λα απμεζνύλ νη ηθαλόηεηεο εμαγσγήο ηνπ. Ο θύξηνο ζηόρνο πίζσ από ην εξγαιείν δελ είλαη λα πξνηείλεη κηα λέα κέζνδν, αιιά λα παξέρεη έλα ηξόπν γηα εύθνιε ρξήζε θαη ζπλδπαζκό ησλ δηαζέζηκσλ ηερλνινγηώλ εμαγσγήο. Θάζε δηαδηθαζία εμαγσγήο ζην Web-Harvest θαζνξίδεηαη από ην ρξήζηε κέζσ XML-based configuration αξρείσλ. Θάζε αξρείν δηακόξθσζεο πεξηγξάθεη κηα αθνινπζία επεμεξγαζηώλ Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 4

εθηειώληαο θάπνηνπο θνηλέο εξγαζίεο πξνθεηκέλνπ λα νινθιεξσζεί ν ηειηθόο ζηόρνο. Οη επεμεξγαζηέο εθηεινύληαη ππό κνξθή pipeline. Θαηά ζπλέπεηα, ε έμνδνο κηαο εθηέιεζεο επεμεξγαζηή εηζάγεηαη ζε έλαλ άιιν. Απηό κπνξεί λα εμεγεζεί θαιύηεξα ρξεζηκνπνηώληαο ην απιό θνκκάηη δηακόξθσζεο: <xpath expression-"//a[@shape-'rect']/@href"> <html-to-xml> <http url="http://www.somesite.com/"/> </html-to-xml> </xpath> Όηαλ ην Web-Harvest εθηειεί απηό ην θνκκάηη, γίλνληαη ηα αθόινπζα βήκαηα: 1. Ο http επεμεξγαζηήο θαηεβάδεη πεξηερόκελν από ην θαζνξηζκέλν URL. 2. Ο html-to-xml επεμεξγαζηήο «θαζαξίδεη» απηήλ ηελ HTML παξάγνληαο XHTML πεξηερόκελν. 3. Ο xpath επεμεξγαζηήο αλαδεηά ζπγθεθξηκέλνπο ζπλδέζκνπο ζην XHTML από ην πξνεγνύκελν βήκα δίλνληαο ηε URL αθνινπζία ζαλ απνηέιεζκα. Σν Web-Harvest ππνζηεξίδεη έλα ζύλνιν ρξήζηκσλ επεμεξγαζηώλ γηα ην ρεηξηζκό κεηαβιεηώλ, ππό όξνπο δηαθιαδώζεηο, ζπλαξηήζεηο, HTML θαη XML επεμεξγαζία θ.α. Σν Web- Harvest ιεηηνπξγεί κε ηε δηακόξθσζε θάζε ηζηνηόπνπ ζε έλα XML αξρείν πνπ πεξηγξάθεη κηα αθνινπζία επεμεξγαζηώλ γηα ηε κεηαηξνπή ηεο HTML ζε ρξήζηκε XML. Σν απνηέιεζκα ηεο εμαγσγήο ζα κπνξνύζε λα είλαη δηαζέζηκν ζε αξρεία πνπ δεκηνπξγνύληαη θαηά ηελ εμαγσγή ή από από ην πιαίζην κεηαβιεηώλ αλ ην Web-Harvest ρξεζηκνπνηείηαη πξνγξακκαηηζηηθά. Όια ηα ζηνηρεία πνπ παξάγνληαη θαη πνπ θαηαλαιώλνληαη θαηά ηε δηάξθεηα ηεο δηαδηθαζίαο εμαγσγήο ζην Web-Harvest έρνπλ ηξεηο αλαπαξαζηάζεηο: θείκελν, δπαδηθό θαη ιίζηεο. Πνηα κνξθή ρξεζηκνπνηείηαη - εμαξηάηαη από ηνλ επεμεξγαζηή πνπ θαηαλαιώλεη ηα δεδνκέλα. Ο html-to-xml επεμεξγαζηήο ρξεζηκνπνηεί ην downloaded πεξηερόκελν ζαλ θείκελν πξνθεηκέλνπ λα ην κεηαζρεκαηίζεη ζε HTML, ν loop επεμεξγαζηήο ρξεζηκνπνηεί ηε κεηαβιεηή urllist ζαλ ιίζηα γηα ηηο επαλαιήςεηο θ.α.. ηηο πεξηζζόηεξεο πεξηπηώζεηο ε θαηάιιειε αλαπαξάζηαζε επηιέγεηαη από ην Web-Harvest. Δθηόο από ην ζύλνιν ηζρπξώλ επεμεξγαζηώλ θεηκέλσλ θαη ρεηξηζκνύ XML, ην Web-Harvest ππνζηεξίδεη πξαγκαηηθέο scripting γιώζζεο ησλ νπνίσλ ν θώδηθαο κπνξεί λα ελζσκαησζεί ζηηο scraper configurations. ην Παξάξηεκα παξαηίζεηαη ην configuration αξρείν ην νπνίν ζα ρξεζηκνπνηείηαη ζηελ εθαξκνγή καο έηζη ώζηε λα ζπιιέγνπκε κηα θνξά ην κήλα ηα δεδνκέλα πνπ καο ελδηαθέξνπλ γηα έλα ζπγθεθξηκέλν επηζηεκνληθό πεξηνδηθό. ηελ παξνύζα θάζε ζα ήηαλ θαιύηεξν λα βιέπακε θνκκάηηα ηνπ θώδηθα ηνπ configuration αξρείνπ καδί κε ηελ επεμήγεζε ηεο ιεηηνπξγίαο ηνπο. Ωο παξάδεηγκα ην επηζηεκνληθό πεξηνδηθό European Journal of Operational Research : <var-def name="starturl">http://dx.doi.org/10.1016/</var-def> <var-def name="midurl">j.ejor.</var-def> <var-def name="yyyyurl"> <script return=" thisyear"> thisyear = Integer.parseInt(sys.datetime("yyyy")); </script> </var-def> <var-def name="mm.url"><template>${sys.datetime(".mm.")}</template></var-def> <var-def name="i"> <var-def name="j"> <var-def name="k"> <file action="write" path="${midurl}.xml" charset="utf-8"> <![CDATA[ <ROOT> ]]> Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 5

</file> <while condition="true" index="i" maxloops="9"> <while condition="true" index="j" maxloops="9"> <while condition="true" index="k" maxloops="9"> ην θνκκάηη απηό νξίδνπκε ηηο δηάθνξεο κεηαβιεηέο πνπ ζα καο βνεζήζνπλ αξγόηεξα ζηελ ζπιινγή ησλ url πνπ καο ελδηαθέξνπλ θαζώο θαη ζηελ πξόζβαζε θαη αλάθηεζε ησλ δεδνκέλσλ. Πην ζπγθεθξηκέλα, ε κεηαβιεηή starturl καο πξνκεζεύεη κε ην πξώην θνκκάηη ηεο url πνπ ζα είλαη ίδην γηα όια ηα επηζηεκνληθά πεξηνδηθά γηα ηνλ ζπγθεθξηκέλν εθδνηηθό νίθν. ε κεηαβιεηή midurl καο πξνκεζεύεη κε ην κεζαίν θνκκάηη ηεο url πνπ καο νξίδεη έλα ζπγθεθξηκέλν επηζηεκνληθό πεξηνδηθό ε κεηαβιεηή YYYYUrl καο πξνκεζεύεη κε ηα 4 ςεθία ηνπ έηνπο πνπ δηαλύνπκε ε κεηαβιεηή MM.Url πξνκεζεύεη κε ηα 2 ςεθία ηνπ κήλα πνπ δηαλύνπκε νη 3 κεηαβιεηέο i, j θαη k πνπ καο πξνκεζεύνπλ κε ηνλ αύμσλ αξηζκό ηνπ paper γηα ην ζπγθεθξηκέλν επηζηεκνληθό πεξηνδηθό, έηνο θαη κήλα ζηε ζπλέρεηα, κε ην <file action="write" path="${midurl}.xml" charset="utf- 8"> <![CDATA[ <ROOT> ]]> </file>, βιέπνπκε ηελ δεκηνπξγία θαη ην άλνηγκα ηνπ αξρείνπ πνπ ζα θηινμελήζεη ηα δεδνκέλα πνπ καο ελδηαθέξνπλ ηέινο, κε ηα 3 loops πνπ δεκηνπξγνύληαη ζα αλαδεηήζνπκε όια ηα δπλαηά url γηα ην ζπγθεθξηκέλν επηζηεκνληθό πεξηνδηθό, έηνο θαη κήλα file action="append" path="${midurl}.xml" charset="utf-8"> <loop item="articleurl" index="l" maxloops="1"> <list> <xpath expression="//div[@class='articletext']"> <html-to-xml> <http url="${starturl}${midurl}${yyyyurl}${mm.url}${i}${j}${k}"/> </html-to-xml> </xpath> <xpath expression="//div[@class='articletitle']"> <html-to-xml> <http url="${starturl}${midurl}${yyyyurl}${mm.url}${i}${j}${k}"/> </html-to-xml> </xpath> <xpath expression="//div[@class='articleheaderinner']"> <html-to-xml> <http url="${starturl}${midurl}${yyyyurl}${mm.url}${i}${j}${k}"/> </html-to-xml> </xpath> </list> ην θνκκάηη απηό ηνπ θώδηθα ζπιιέγνπκε όιεο ηηο url θαη ηηο ζπγθεθξηκέλεο παξαγξάθνπο πνπ καο ελδηαθέξνπλ Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 6

<xquery> <xq-param name="doc"> <html-to-xml> <http url="${starturl}${midurl}${yyyyurl}${mm.url}${i}${j}${k}"/> </html-to-xml> </xq-param> <xq-expression><![cdata[ declare variable $doc as node() external; let $aff := data($doc//div[@class='articleheaderinner']) let $aff7 := data($doc//div[@class='articleheaderinner']) let $aff1 := data($doc//div[@class='articletitle']) let $aff2 := data($doc//div[@class='articletext authorsnoent']) " "))}</id> return <article> <id>{data(substring-before((substring-after($aff, <scientific_field>{data(substring-before((substring-after($aff7, "Reprints")), $aff1))}</scientific_field> ")), ";"))}</received> ")), "."))}</accepted> <title>{data($aff1)}</title> <affiliation>{data($aff2)}</affiliation> <received>{data(substring-before((substring-after($aff, <accepted>{data(substring-before((substring-after($aff, "doi:")), "Received "accepted <abstract>{data(substring-before((substring-after($aff, "Abstract")), "Keywords"))}</abstract> <keywords>{data(replace((substring-before((substring-after($aff, "Keywords:")), "Article Outline")), ";", ","))}</keywords> </article> ]]></xq-expression> </xquery> </body> </loop> </file> </while> </while> </while> <file action="append" path="${midurl}.xml" charset="utf-8"> <![CDATA[ </ROOT> ]]> Σέινο, ζην θνκκάηη απηό ηνπ θώδηθα ζπιιέγνπκε ηα δεδνκέλα πνπ καο ελδηαθέξνπλ θαη θιείλνπκε ην αξρείν κε ηα δεδνκέλα. Γεληθόηεξα ην scraping ζεσξείηαη ζπρλά άθνκςε ιύζε, θαη απηό γηαηί έρεη έλα βαζηθό κεηνλεθηήκαηα. Αληίζεηα από ηα APIs κε interfaces, ην scraping δελ έρεη θακία ζπγθεθξηκέλε Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 7

πξνγξακκαηηθή ζύκβαζε κεηαμύ ηνπ πξνκεζεπηή θαη ηνπ θαηαλαισηή ηνπ πεξηερνκέλνπ. Οη scrapers πξέπεη λα ζρεδηάζνπλ ηα εξγαιεία ηνπο γύξσ από έλα πξόηππν ηνπ πεξηερνκέλνπ πεγήο θαη λα ειπίδνπλ όηη ν πάξνρνο εκκέλεη ζε απηό ην πξόηππν παξνπζίαζεο κε ζπλέπεηα. Οη ηζηόηνπνη ηείλνπλ λα εμεηάδνπλ θαη λα ηξνπνπνηνύλ ην look-and-feel ηνπο πεξηνδηθά γηα λα παξακέλνπλ αλαλεσκέλνη θαη θνκςνί, θάηη πνπ δεκηνπξγεί πξνβιήκαηα όζνλ αθνξά ηελ ζπληήξεζε από ηελ πιεπξά ησλ scrapers. Κε ηνλ ίδην ηξόπν νπνηαδήπνηε αιιαγή ζηνπο ηζηνηόπνπο πνπ ρξεζηκνπνηνύκε ζα αιιάμεη θαη όιν ην ζρεδηαζκό καο γηα ηελ εμαγσγή πιεξνθνξίαο. Σαπηόρξνλα δηαθνξεηηθέο πεγέο ζεκαίλνπλ θαη πνηθηιία ζηε δνκή θαη παξνπζίαζε ησλ δεδνκέλσλ. Έηζη ζα πξέπεη λα πξνζαξκόδνπκε θάζε θνξά ην scraping ζύκθσλα κε ηα δεδνκέλα ηνπ ζπγθεθξηκέλνπ ηζηνηόπνπ, θαζώο δελ ππάξρεη εληαίνο ηξόπνο αληηκεηώπηζεο όισλ ησλ πεξηπηώζεσλ. 2.3. Μορφή Παραγόμενων Δεδομένων Έρνληαο νινθιεξώζεη ηελ δηαδηθαζία ζπιινγήο δεδνκέλσλ, πξνρσξάκε ζηελ απνζήθεπζε ησλ δεδνκέλσλ απηώλ. Απηά είλαη xml αξρεία ηεο κνξθήο: <article> <id>10.1016/j.ejor.2008.05.001</id> <scientific_field>discrete Optimization</scientific_field> <title>knapsack problems with setups</title> <affiliation>aisel-lmah, UniversitΓ du Havre, Quai Frissard, BP 1137, 76063 Le Havre Cedex, FrancebOrange Labs, recherche and dγ veloppement, 38β 40 rue GΓ nγ ral Leclerc, 92794 Issy-Les-Moulineaux Cedex 9, FrancecInstitut de MathΓ matiques de Bordeaux, UniversitΓ Bordeaux 1, 351 Cours de la Liberation, F-33405 Telence Cedex, France</affiliation> <received>30 April 2007</received> <accepted>1 May 2008</accepted> <abstract>knapsack problems with setups find their application in many concrete industrial and financial problems. Moreover, they also arise as subproblems in a Dantzigβ Wolfe decomposition approach to more complex combinatorial optimization problems, where they need to be solved repeatedly and therefore efficiently. Here, we consider the multiple-class integer knapsack problem with setups. Items are partitioned into classes whose use implies a setup cost and associated capacity consumption. Item weights are assumed to be a multiple of their class weight. The total weight of selected items and setups is bounded. The objective is to maximize the difference between the profits of selected items and the fixed costs incurred for setting-up classes. A special case is the bounded integer knapsack problem with setups where each class holds a single item and its continuous version where a fraction of an item can be selected while incurring a full setup. The paper shows the extent to which classical results for the knapsack problem can be generalized to these variants with setups. In particular, an extension of the branch-and-bound algorithm of Horowitz and Sahni is developed for problems with positive setup costs. Our direct approach is compared experimentally with the approach proposed in the literature consisting in converting the problem into a multiple choice knapsack with pseudo-polynomial size.</abstract> <keywords>knapsack problem, Fixed cost, Setup, Variable upper bound, Branch-andbound</keywords> </article> Πην ζπγθεθξηκέλα, έρνπκε: Σν tag <article>, ην νπνίν νξίδεη θάζε paper. Έλα ηέηνην xml αξρείν κπνξεί λα έρεη από θαλέλα έσο 999 papers. Κέζα ζην θάζε tag <article> έρνπκε 8 attributes: Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 8

Σν <id>, νπνίν πξνζδηνξίδεη κνλνζήκαληα ην θάζε paper θαη είλαη ν θσδηθόο doi Σν <scientific_field>, ην νπνίν είλαη ην επηζηεκνληθό πεδίν ζην νπνίν αλήθεη ην ζπγθεθξηκέλν paper. Δδώ ζα πξέπεη λα αλαθέξνπκε, πάλησο, όηη ζηα πεξηζζόηεξα από ηα επηζηεκνληθά πεξηνδηθά κε ηα νπνία ζα αζρνιεζνύκε δελ καο δίλεηαη ην ζπγθεθξηκέλν πεδίν. Σν <title>, ην νπνίν είλαη ν ηίηινο ηνπ ζπγθεθξηκέλνπ paper Σν <affiliation>, ην νπνίν είλαη ε επαγγεικαηηθή δηεύζπλζε ηνπ ζπγγξαθέα ή ησλ ζπγγξαθέσλ. Σν πεδίν απηό είλαη πνιύ ζεκαληηθό θαζώο ζα καο πξνκεζεύζεη κε ηελ ρώξα ή ηηο ρώξεο πξνέιεπζεο ησλ papers Σν <received>, ην νπνίν είλαη ε εκεξνκελία παξαιαβήο ηνπ paper από ην επηζηεκνληθό πεξηνδηθό Σν <accepted>, ην νπνίν είλαη ε εκεξνκελία απνδνρήο ηνπ paper από ην επηζηεκνληθό πεξηνδηθό Σν <abstract>, ην νπνίν είλαη κηα ζύληνκε πεξηγξαθή ηνπ paper Σν <keywords>, ην νπνίν είλαη νη ιέμεηο θιεηδηά ηνπ ζπγθεθξηκέλνπ paper. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 9

3. Εισαγωγή δεδομένων στην Βάση Όπσο πξναλαθέξακε, ηα δεδνκέλα ηα νπνία παίξλνπκε από ηελ δηαδηθαζία ηνπ crawling είλαη xml αξρεία θαη δελ καο δίλεηαη ε δπλαηόηεηα από ην ζπγθεθξηκέλν ινγηζκηθό λα εηζάγνπκε ηα δεδνκέλα καο απεπζείαο ζηελ Βάζε καο κέζσ θάπνηνπ JDBC Driver. Δπνκέλσο, ζα πξέπεη λα βξνύκε θάπνην ηξόπν έηζη ώζηε λα ηα εηζάγνπκε κε «έκκεζν» ηξόπν. Σε ιύζε έξρεηαη λα καο δώζεη έλα απηόλνκν COM αληηθείκελν ην νπνίν καο επηηξέπεη ηελ εηζαγσγή xml δεδνκέλσλ ζε πηλάθεο ηνπ SQL Server. Σν αληηθείκελν απηό είλαη ην XML Bulk Load. Θα κπνξνύζακε λα εηζάγνπκε xml δεδνκέλα ζε κία Βάζε Γεδνκέλσλ ηνπ SQL Server ρξεζηκνπνηώληαο έλα INSERT statement θαη ηελ ζπλάξηεζε OPENXML. Παξόιαπηα, ην αληηθείκελν XML Bulk Load καδηθήο εηζαγσγήο xml δεδνκέλσλ καο παξέρεη θαιύηεξε απόδνζε ζηελ εηζαγσγή κεγάινπ όγθνπ δεδνκέλσλ. Γηα λα εθηειεζηεί ε ιεηηνπξγία ηνπ XML Bulk Load ρξεηάδεηαη, 1. όπσο είλαη πξνθαλέο, έλα αξρείν κε ηα xml δεδνκέλα ή έλα stream δεδνκέλσλ 2. θαη έλα αξρείν, ηεο κνξθήο XSD (XML Schema Definition) ή ηεο κνξθήο (XDR) XML-Data Reduced schema, ην νπνίν ζα θάλεη νπζηαζηηθά ηελ αληηζηνίρηζε ησλ attributes ησλ xml δεδνκέλσλ κε ηα attributes ηνπ πίλαθα ηεο Βάζεο Γεδνκέλσλ ζηνλ νπνίν ζέινπκε λα εηζάγνπκε ηα δεδνκέλα καο. Έρνπκε ήδε δεη ηελ δνκή ηνπ αξρείνπ κε ηα xml δεδνκέλα, επνκέλσο αο δνύκε θαη ηελ δνκή ηνπ πίλαθα ηεο Βάζεο γηα ηνλ νπνίν πξννξίδνληαη ηα δεδνκέλα απηά. Δηθόλα 2: Γνκή ηνπ πίλαθα ηεο Βάζεο γηα ηνλ νπνίν πξννξίδνληαη ηα δεδνκέλα Ιεπηνκέξεηεο, πάλησο, γηα ηελ πινπνίεζε ηεο Βάζεο ζα δνύκε αξγόηεξα. Δθόζνλ, έρνπκε δεη θαη ηελ δνκή ηνπ αξρείνπ κε ηα xml δεδνκέλα θαη ηελ δνκή ηνπ πίλαθα ηεο Βάζεο γηα ηνλ νπνίν πξννξίδνληαη ηα δεδνκέλα απηά, κπνξνύκε λα πξνρσξήζνπκε ζην XSD αξρείν ην νπνίν ζα θάλεη νπζηαζηηθά ηελ αληηζηνίρηζε ησλ attributes ησλ xml δεδνκέλσλ κε ηα attributes ηνπ πίλαθα ηεο Βάζεο Γεδνκέλσλ ζηνλ νπνίν ζέινπκε λα εηζάγνπκε ηα δεδνκέλα καο. Έηζη έρνπκε ην αξρείν xmlmapping.xml: <xsd:schema xmlns:xsd="http://www.w3.org/2001/xmlschema" xmlns:sql="urn:schemas-microsoft-com:mapping-schema"> <xsd:element name="article" sql:relation="article" > <xsd:complextype> <xsd:sequence> <xsd:element name="id" type="xsd:string" /> Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 10

<xsd:element name="scientific_field" type="xsd:string" /> <xsd:element name="title" type="xsd:string" /> <xsd:element name="affiliation" type="xsd:string" /> <xsd:element name="received" type="xsd:string" /> <xsd:element name="accepted" type="xsd:string" /> <xsd:element name="abstract" type="xsd:string" /> <xsd:element name="keywords" type="xsd:string" /> </xsd:sequence> </xsd:complextype> </xsd:element> </xsd:schema> Σέινο, κπνξνύκε λα δνύκε ηνλ θώδηθα ηνπ αληηθεηκέλνπ XML Bulk Load: set objbl = CreateObject("SQLXMLBulkLoad.SQLXMLBulkload.4.0") objbl.connectionstring = "Provider=SQLNCLI.1;Data Source=PANOSBP;Integrated Security=SSPI;Initial Catalog=webharvest" objbl.errorlogfile = "C:\Documents and Settings\Admin\Desktop\Master Thesis\error.log" objbl.firetriggers = True objbl.execute "C:\webharvest1-project\xmlmapping.xml", "C:\webharvest1- project\j.cie\2000.01..xml" Όπνπ, ζηελ αξρή δεκηνπξγνύκε ην αληηθείκελν XML Bulk Load έπεηηα νξίδνπκε ην Connection String πξνο ηελ Βάζε καο δεκηνπξγνύκε έλα error file γηα λα καο βνεζήζεη ζε πεξίπησζε ζθάικαηνο ζέηνπκε ην FireTriggers = True έηζη ώζηε λα κπνξνύκε λα ρξεζηκνπνηήζνπκε on insert triggers ζηελ βάζε καο. Ιεπηνκέξεηεο γη απηό ζα δώζνπκε αξγόηεξα. Θαη ηέινο, νξίδνπκε ηελ ζέζε ηνπ αξρείνπ κε ηα xml δεδνκέλα θαη ηελ ζέζε ηνπ XSD αξρείνπ ην νπνίν ζα θάλεη νπζηαζηηθά ηελ αληηζηνίρηζε ησλ attributes ησλ xml δεδνκέλσλ κε ηα attributes ηνπ πίλαθα ηεο Βάζεο Γεδνκέλσλ. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 11

4. Βάση Δεδομένων 4.1. Εννοιολογικός Σχεδιασμός της βάσης Παξαθάησ θαίλεηαη ην δηάγξακκα Οληνηήησλ πζρεηίζεσλ πνπ πξνέθπςε Δηθόλα 3: Γηάγξακκα Οληνηήηωλ Σπζρεηίζεωλ ηεο Βάζεο Γεδνκέλωλ

4.2. Λογικός Σχεδιασμός της βάσης Σν ρεζηαθό Κνληέιν πνπ πξνθύπηεη από ην παξαπάλσ E-R δηάγξακκα έρεη ηνπο παξαθάησ πίλαθεο: Πίλαθαο Article (id, scientific_field, title, affiliation, received, accepted, abstract, keywords, JournalID) Πξσηεύσλ θιεηδί ζηνλ πίλαθα απηόλ είλαη ην id Σν πεδίν JournalID είλαη foreign Key ζην πίλαθα Journal Σν πεδίν scientific_field είλαη foreign Key ζην πίλαθα Scientific_Field Πίλαθαο Journal (JournalID, JournalName, PublisherID) Πξσηεύσλ θιεηδί ζηνλ πίλαθα απηόλ είλαη ην JournalID Σν πεδίν PublisherID είλαη foreign Key ζην πίλαθα Publisher Πίλαθαο Publisher (PublisherID, PublisherName) Πξσηεύσλ θιεηδί ζηνλ πίλαθα απηόλ είλαη ην PublisherID Πίλαθαο Scientific_Field (Scientific_Field_Code, Scientific_Field) Πξσηεύσλ θιεηδί ζηνλ πίλαθα απηόλ είλαη ην Scientific_Field_Code Πίλαθαο CensusData (Country / Territory, ISO Alpha-2, ISO Alpha-3, Population, Latitude, Longitude, ISO 3166 Country Name, Alternative name 0, Alternative name 1, Alternative name 2, Alternative name 3, Alternative name 4, Alternative name 5, Alternative name 6, Alternative name 7, Alternative name 8, Alternative name 9, Alternative name 10, Alternative name 11, Alternative name 12, IncomePerCapita) Πξσηεύσλ θιεηδί ζηνλ πίλαθα απηόλ είλαη ην ISO Alpha-2 Πίλαθαο ArticleCountry (CountryName, CountryID, ArticleID) Πξσηεύσλ θιεηδί ζηνλ πίλαθα απηόλ είλαη ην CountryID, ArticleID Σν πεδίν CountryID είλαη foreign Key ζην πίλαθα CensusData Σν πεδίν ArticleID είλαη foreign Key ζην πίλαθα Article

4.3. Υλοποιήση του Σχεσιακού Σχήματος της Βάσης Δεδομένων Ζ πινπνίεζε ρεζηαθνύ ρήκαηνο ηεο Β.Γ πξαγκαηνπνηήζεθε ζηνλ SQL Server 2005 κε ην παξαθάησ script: SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[article]') AND type in (N'U')) BEGIN CREATE TABLE [dbo].[article]( ( [id] [varchar](50) NOT NULL, [scientific_field] [varchar](max) NULL, [title] [varchar](max) NULL, [affiliation] [varchar](max) NULL, [received] [varchar](max) NULL, [accepted] [varchar](max) NULL, [abstract] [varchar](max) NULL, [keywords] [varchar](max) NULL, [JournalID] [nvarchar](50) NULL, CONSTRAINT [PK_article] PRIMARY KEY CLUSTERED [id] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] ) ON [PRIMARY] END SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.triggers WHERE object_id = OBJECT_ID(N'[dbo].[DeletefromArticleCountry]')) EXEC dbo.sp_executesql @statement = N'CREATE TRIGGER [dbo].[deletefromarticlecountry] ON [dbo].[article] AFTER DELETE AS DELETE FROM ArticleCountry FROM DELETED INNER JOIN ArticleCountry ON DELETED.id = ArticleCountry.ArticleID Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 14

' SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.triggers WHERE object_id = OBJECT_ID(N'[dbo].[InsertIntoArticleCountry]')) EXEC dbo.sp_executesql @statement = N' -- ============================================= -- Author: <Author,,Name> -- Create date: <Create Date,,> -- Description: <Description,,> -- ============================================= CREATE TRIGGER [dbo].[insertintoarticlecountry] AS ON [dbo].[article] AFTER INSERT INSERT INTO ArticleCountry SELECT CensusData.[Country / Territory ], CensusData.[ISO Alpha-2], INSERTED.id FROM INSERTED INNER JOIN CensusData ON (INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Country / Territory]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[ISO 3166 Country Name]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 0]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 1]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 2]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 3]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 4]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 5]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 6]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 7]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 8]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 9]) }, ''%'') } + ''%'' Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 15

OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 10]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 11]) }, ''%'') } + ''%'' OR INSERTED.affiliation LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', CensusData.[Alternative name 12]) }, ''%'') } + ''%'') INSERT INTO ArticleCountry (CountryName, CountryID, ArticleID) VALUES ('''','''','''') DELETE FROM ArticleCountry WHERE (CountryName = '''') AND (CountryID = '''') AND (ArticleID = '''') ' SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.triggers WHERE object_id = OBJECT_ID(N'[dbo].[UpdateJournaID]')) EXEC dbo.sp_executesql @statement = N' -- ============================================= -- Author: <Author,,Name> -- Create date: <Create Date,,> -- Description: <Description,,> -- ============================================= CREATE TRIGGER [dbo].[updatejournaid] AS ON [dbo].[article] AFTER INSERT UPDATE article SET JournalID = substring(article.id, PATINDEX( ''%/%'', article.id)+1, len(article.id)- len(right(article.id, PATINDEX( ''%/%'', article.id)))-12) ' SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 16

IF NOT EXISTS (SELECT * FROM sys.triggers WHERE object_id = OBJECT_ID(N'[dbo].[UpdateScientificField]')) EXEC dbo.sp_executesql @statement = N'CREATE TRIGGER [dbo].[updatescientificfield] on [dbo].[article] AFTER INSERT AS UPDATE SET FROM article scientific_field = Scientific_Field.Scientific_Field article INNER JOIN Scientific_Field ON (Scientific_Field.Scientific_Field LIKE ''%'' + { fn CONCAT({ fn CONCAT(''%'', article.scientific_field) }, ''%'') } + ''%'')' SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[Publisher]') AND type in (N'U')) BEGIN CREATE TABLE [dbo].[publisher]( ( [PublisherID] [nvarchar](50) NOT NULL, [PublisherName] [nvarchar](50) NOT NULL, CONSTRAINT [PK_Table_1] PRIMARY KEY CLUSTERED [PublisherID] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] ) ON [PRIMARY] END SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[CensusData]') AND type in (N'U')) BEGIN CREATE TABLE [dbo].[censusdata]( [Country / Territory ] [varchar](50) NULL, [ISO Alpha-2] [varchar](50) NOT NULL, [ISO Alpha-3] [varchar](50) NOT NULL, [Population ] [numeric](18, 4) NULL, [Latitude] [float] NULL, [Longitude] [float] NULL, [ISO 3166 Country Name] [nvarchar](255) NULL, [Alternative name 0] [nvarchar](255) NULL, Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 17

( [Alternative name 1] [nvarchar](255) NULL, [Alternative name 2] [nvarchar](255) NULL, [Alternative name 3] [nvarchar](255) NULL, [Alternative name 4] [nvarchar](255) NULL, [Alternative name 5] [nvarchar](255) NULL, [Alternative name 6] [nvarchar](255) NULL, [Alternative name 7] [nvarchar](255) NULL, [Alternative name 8] [nvarchar](255) NULL, [Alternative name 9] [nvarchar](255) NULL, [Alternative name 10] [nvarchar](255) NULL, [Alternative name 11] [nvarchar](255) NULL, [Alternative name 12] [nvarchar](255) NULL, [IncomePerCapita] [money] NULL, CONSTRAINT [PK_CensusData_1] PRIMARY KEY CLUSTERED [ISO Alpha-2] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] ) ON [PRIMARY] END SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[Scientific_Field]') AND type in (N'U')) BEGIN CREATE TABLE [dbo].[scientific_field]( ( [Scientific_Field_Code] [int] IDENTITY(1,1) NOT NULL, [Scientific_Field] [varchar](max) NULL, CONSTRAINT [PK_Scientific_Field] PRIMARY KEY CLUSTERED [Scientific_Field_Code] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] ) ON [PRIMARY] END SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[ArticleCountry]') AND type in (N'U')) BEGIN CREATE TABLE [dbo].[articlecountry]( Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 18

( [CountryName] [nvarchar](50) NOT NULL, [CountryID] [nchar](10) NOT NULL, [ArticleID] [nchar](50) NOT NULL, CONSTRAINT [PK_ArticleCountry] PRIMARY KEY CLUSTERED [CountryID] ASC, [ArticleID] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] ) ON [PRIMARY] END SET ANSI_NULLS ON SET QUOTED_IDENTIFIER ON IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[Journal]') AND type in (N'U')) BEGIN CREATE TABLE [dbo].[journal]( ( [JournalID] [nvarchar](50) NOT NULL, [JournalName] [nvarchar](50) NOT NULL, [PublisherID] [nvarchar](50) NOT NULL, CONSTRAINT [PK_Journal] PRIMARY KEY CLUSTERED [JournalID] ASC )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] ) ON [PRIMARY] END IF NOT EXISTS (SELECT * FROM sys.foreign_keys WHERE object_id = OBJECT_ID(N'[dbo].[FK_Journal_Journal]') AND parent_object_id = OBJECT_ID(N'[dbo].[Journal]')) ALTER TABLE [dbo].[journal] WITH CHECK ADD CONSTRAINT [FK_Journal_Journal] FOREIGN KEY([PublisherID]) REFERENCES [dbo].[publisher] ([PublisherID]) ALTER TABLE [dbo].[journal] CHECK CONSTRAINT [FK_Journal_Journal] 4.4. Πυροδοτητές (Triggers) Όπσο κπνξνύκε λα παξαηεξήζνπκε θαη από ην script δεκηνπξγίαο ηεο Βάζεο, έρνπλ δεκηνπξγεζεί θάπνηνη triggers. Πην ζπγθεθξηκέλα, έρνπλ δεκηνπξγεζεί 6 triggers έηζη ώζηε λα απηνκαηνπνηεζνύλ θάπνηεο ιεηηνπξγίεο ζηελ ππό κειέηε Βάζε Γεδνκέλσλ. Αο δνύκε ελδεηθηηθά ηνπο 2 ζεκαληηθόηεξνπο. InsertIntoArticleCountry CREATE TRIGGER InsertIntoArticleCountry ON article Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 19

AFTER INSERT AS INSERT INTO ArticleCountry SELECT FROM CensusData.[Country / Territory ], CensusData.[ISO Alpha-2], article.id article INNER JOIN CensusData ON (article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Country / Territory]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[ISO 3166 Country Name]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 0]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 1]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 2]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 3]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 4]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 5]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 6]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 7]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 8]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 9]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 10]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 11]) }, '%') } + '%' OR article.affiliation LIKE '%' + { fn CONCAT({ fn CONCAT('%', CensusData.[Alternative name 12]) }, '%') } + '%') INSERT INTO ArticleCountry (CountryName, CountryID, ArticleID) VALUES ('','','') DELETE FROM ArticleCountry WHERE (CountryName = '') AND (CountryID = '') AND (ArticleID = '') Απηόο ίζσο λα είλαη θαη ν ζεκαληηθόηεξνο trigger, θαζώο είλαη απηόο ν νπνίνο «γεκίδεη» ηνλ πίλαθα ArticleCountry ςάρλνληαο κέζα ζην πεδίν affiliation ηνπ πίλαθα Article θαη ζπζρεηίδεη ην θάζε paper μερσξηζηά κε ην CountryID. Παξάιιεια πξνβιέπεη θαη ηελ ρξήζε ελαιιαθηηθώλ νλνκάησλ κέζα ζην πεδίν affiliation γηα ηελ νλνκαζία ηεο θάζε ρώξαο. DeletefromArticleCountry CREATE TRIGGER DeletefromArticleCountry ON article Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 20

AFTER DELETE AS DELETE FROM ArticleCountry FROM DELETED INNER JOIN ArticleCountry ON DELETED.id = ArticleCountry.ArticleID Απηόο ν trigger αθνινπζεί ηελ αληίζηξνθε δηαδηθαζία, δειαδή αλ θάπνην paper δηαγξαθεί γηα νπνηνλδήπνηε ιόγν από ηνλ πίλαθα Article ηόηε δηαγξάθεη θαη ηηο αληίζηνηρεο εγγξαθέο από ηνλ πίλαθα ArticleCountry. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 21

5. Αυτοματοποίηση Διαδικασίας Συλλογής των Δεδομένων και Εισαγωγής τους στην Βάση Δεδομένων Έρνπκε ήδε δεη ηελ ιεηηνπξγία ηνπ ζπζηήκαηνο καο αλαιπηηθά θαη βήκα πξνο βήκα. Απηό πνπ καο ελδηαθέξεη ηώξα είλαη λα απηνκαηνπνηήζνπκε ηελ όιε απηή δηαδηθαζία έηζη ώζηε λα ελεκεξώλεηαη ε βάζε καο ρσξίο λα παξεκβαίλεη «αλζξώπηλν ρέξη». Απηό ζα ην θαηαθέξνπκε κε ηελ βνήζεηα ελόο batch file ην νπνίν ζα εθηειεί ην Web Harvest παίξλνληαο ζαλ παξάκεηξν ην configuration file πνπ επηζπκνύκε θαη ζηε ζπλέρεηα, αθνύ έρεη εθηειεζζεί θαη έρεη παξαρζεί ην xml αξρείν κε ηα δεδνκέλα καο, εθηειείηαη ην vbs script κε ην νπνίν θάλνπκε καδηθή είζνδν ησλ παξαγόκελσλ δεδνκέλσλ. Σέινο, όζνλ αθνξά ηελ βάζε, εθεί αλαιακβάλνπλ νη triggers νη νπνίνη ππξνδνηνύληαη κε ηελ εηζαγσγή ησλ δεδνκέλσλ ζε απηή. Πην ζπγθεθξηκέλα αο δνύκε ηνλ θώδηθα ηνπ batch file @echo off cd C:\webharvest1-project java -jar webharvest_all_1.jar config=c:\webharvest1-project\test.xml workdir=c:\webharvest1- project cd C:\webharvest1-project cscript Insertarticles.vbs Σέινο γηα λα απηνκαηνπνηεζεί πιήξσο ε όιε απηή δηαδηθαζία ζα δεκηνπξγήζνπκε κηα πξνγξακκαηηζκέλε εξγαζία, ε νπνία ζα ηξέρεη αλά ηαθηά ρξνληθά δηαζηήκαηα. Απηό κπνξεί λα γίλεη κε ηα εμήο βήκαηα, 1. Start Settings Control Panel 2. Scheduled Tasks 3. Add Scheduled Task 4. Παηάκε Next Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 22

5. Παηάκε Browse 6. Βξίζθνπκε ην batch file πνπ πξναλαθέξακε Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 23

7. Γίλνπκε έλα όλνκα ζηελ πξνγξακκαηηζκέλε εξγαζία θαη επηιέγνπκε θάζε πόηε ζέινπκε λα εθηειείηε 8. Δπηιέγνπκε ηελ ώξα πνπ ζέινπκε λα αξρίζεη ε εθηέιεζε, ηελ κέξα θαη ηνπο κήλεο ηνπ ρξόλνπ πνπ ζέινπκε λα εθηειεζηεί Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 24

9. Δηζάγνπκε Username θαη Password ηνπ ρξήζηε πνπ ζα ηξέρεη ηελ πξνγξακκαηηζκέλε εξγαζία 10. Θαη ηέινο παηάκε Finish Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 25

6. Απεικόνιση των Δεδομένων σε Χάρτη Έρνληαο ήδε αλαιύζεη ηνλ ηξόπν ζπιινγήο ησλ δεδνκέλσλ καο, ηελ απνζήθεπζε θαη επεμεξγαζία ηνπο ζε κηα Βάζε θαη ηελ απηνκαηνπνίεζε ηεο όιεο δηαδηθαζίαο ζα πξέπεη λα πεξάζνπκε θαη ζην ηειεπηαίν ζηάδην ηεο εθαξκνγήο πνπ έρνπκε αλαπηύμεη ην νπνίν είλαη ε απεηθόληζε ησλ δεδνκέλσλ καο ζε έλα ράξηε θαη ε δηεπαθή κε ηνλ ρξήζηε. Σν θνκκάηη απηό είλαη πνιύ ζεκαληηθό θπξίσο γηα δύν ιόγνπο: 1. είλαη απηό πνπ δίλεη πξνζηηζέκελε αμία ζηελ εθαξκνγή καο, θαζώο όρη κόλν έρνπλ κεηαηξαπεί ηα δεδνκέλα καο ζε πιεξνθνξία αιιά έρνπκε θαη κηα νπηηθή απεηθόληζε απηώλ 2. είλαη ην κόλν ζεκείν ηεο εθαξκνγήο πνπ αληηιακβάλεηαη ν ρξήζηεο, επνκέλσο, όζνλ αθνξά ηνλ ρξήζηε, όιε εθαξκνγή είλαη απηό ην θνκκάηη Δπνκέλσο, έπξεπε λα δνζεί ηδηαίηεξε πξνζνρή όζνλ αθνξά ηελ ιεηηνπξγηθόηεηα, ηελ εκθάληζε θαη ηελ δηεπαθή κε ηνλ ρξεζηή. 6.1. ammap Κία από ηηο ζεκαληηθόηεξεο απνθάζεηο ήηαλ ε επηινγή ηεο ηερλνινγίαο θαη ηνπ εξγαιείνπ πνπ ζα ρξεζηκνπνηνύζακε. Όζνλ αθνξά ηελ ηερλνινγία επηιέρζεθε ε ρξήζε ελόο Flash map. Οη θύξηνη ιόγνη πνπ νδήγεζαλ ζε απηή ηελ επηινγή είλαη: 1. ην εληππσζηαθό αηζζεηηθό απνηέιεζκα πνπ δίλνπλ νη Flash Maps 2. θαη ε πνιύ θαιή δηεπαθή κε ηνλ ρξήζηε Αλαθνξηθά ηελ επηινγή ηνπ εξγαιείνπ πνπ ζα ρξεζηκνπνηνύζακε, θαηαιήμακε ζηνλ ammap. Σν ammap είλαη έλα εξγαιείν γηα ηελ δεκηνπξγία δηαδξαζηηθώλ Flash maps ην νπνίν ζνπ δίλεη ηελ δπλαηόηεηα λα ρξεζηκνπνηήζεηο πνιιέο ιεηηνπξγίεο, όπσο: 1. Drill down 2. Zoomifyer 3. Timeline map 4. Charts 5. Areas (countries, regions) 6. Movies (cities, icons, images) 7. Labels (text) 8. Lines 9. Snap points Σν κεγάιν κεηνλέθηεκα ησλ Flash maps θαη παξεκπηπηόλησο θαη ηνπ ammap είλαη ε αδπλακία πνπ ππάξρεη ζηελ απεπζείαο ζύλδεζε ηνπο κε θάπνηα Βάζε Γεδνκέλσλ. Απηό πνπ ζπλήζσο ζπκβαίλεη είλαη ε παξνρή ησλ δεδνκέλσλ από θάπνην εμσηεξηθό αξρείν. Απηό ζπκβαίλεη θαη ζηελ πεξίπησζε ηνπ ammap. Σα δεδνκέλα πξνέξρνληαη από θάπνην xml αξρείν πνπ έρεη κηα ζπγθεθξηκέλε κνξθή. ηελ πην απιή πεξίπησζε απηό ην xml αξρείν είλαη ηεο παξαθάησ κνξθήο <map map_file="maps/world.swf" zoom="100"> <areas> <area title="argentina" mc_name="ar" value="64"/> <area title="austria" mc_name="at" value="184"/> <area title="barbados" mc_name="bb" value="1"/> <area title="brunei" mc_name="bn" value="4"/> <area title="bahrain" mc_name="bh" value="3"/> <area title="algeria" mc_name="dz" value="19"/> <area title="cameroon" mc_name="cm" value="4"/> <area title="belarus" mc_name="by" value="38"/> Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 26

<area title="australia" mc_name="au" value="491"/> <area title="chad" mc_name="td" value="1"/> <area title="croatia" mc_name="hr" value="14"/> <area title="cyprus" mc_name="cy" value="20"/> <area title="belize" mc_name="bz" value="1"/> <area title="armenia" mc_name="am" value="1"/> <area title="czech Republic" mc_name="cz" value="127"/> <area title="denmark" mc_name="dk" value="128"/> <area title="finland" mc_name="fi" value="161"/> <area title="benin" mc_name="bj" value="2"/> <area title="bosnia and Herzegovina" mc_name="ba" value="1"/> <area title="botswana" mc_name="bw" value="2"/> <area title="china" mc_name="cn" value="2297"/> <area title="colombia" mc_name="co" value="16"/> <area title="costa Rica" mc_name="cr" value="3"/> <area title="france" mc_name="fr" value="955"/> <area title="guinea-bissau" mc_name="gw" value="1"/> <area title="jordan" mc_name="jo" value="34"/> <area title="luxembourg" mc_name="lu" value="7"/> <area title="macau" mc_name="mo" value="15"/> <area title="mali" mc_name="ml" value="1"/> <area title="new Zealand" mc_name="nz" value="94"/> <area title="norway" mc_name="no" value="119"/> <area title="oman" mc_name="om" value="15"/> <area title="portugal" mc_name="pt" value="185"/> <area title="puerto Rico" mc_name="pr" value="6"/> <area title="qatar" mc_name="qa" value="13"/> <area title="singapore" mc_name="sg" value="281"/> <area title="spain" mc_name="es" value="1217"/> <area title="sweden" mc_name="se" value="159"/> <area title="cuba" mc_name="cu" value="9"/> <area title="syria" mc_name="sy" value="1"/> <area title="turkey" mc_name="tr" value="831"/> <area title="uruguay" mc_name="uy" value="10"/> <area title="egypt" mc_name="eg" value="108"/> <area title="guam" mc_name="gu" value="2"/> <area title="zimbabwe" mc_name="zw" value="4"/> <area title="iceland" mc_name="is" value="10"/> <area title="brazil" mc_name="br" value="328"/> <area title="bulgaria" mc_name="bg" value="13"/> <area title="india" mc_name="in" value="584"/> <area title="italy" mc_name="it" value="811"/> <area title="jamaica" mc_name="jm" value="4"/> <area title="kuwait" mc_name="kw" value="32"/> <area title="canada" mc_name="ca" value="1159"/> <area title="germany" mc_name="de" value="738"/> Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 27

<area title="lithuania" mc_name="lt" value="11"/> <area title="guinea" mc_name="gn" value="1"/> <area title="malaysia" mc_name="my" value="72"/> <area title="hong Kong" mc_name="hk" value="698"/> <area title="indonesia" mc_name="id" value="17"/> <area title="iran" mc_name="ir" value="361"/> <area title="ireland" mc_name="ie" value="68"/> <area title="latvia" mc_name="lv" value="9"/> <area title="montenegro" mc_name="me" value="33"/> <area title="lebanon" mc_name="lb" value="20"/> <area title="nigeria" mc_name="ng" value="6"/> <area title="lesotho" mc_name="ls" value="1"/> <area title="pakistan" mc_name="pk" value="25"/> <area title="papua New Guinea" mc_name="pg" value="1"/> <area title="mexico" mc_name="mx" value="170"/> <area title="poland" mc_name="pl" value="256"/> <area title="romania" mc_name="ro" value="76"/> <area title="moldova" mc_name="md" value="1"/> <area title="russia" mc_name="ru" value="86"/> <area title="morocco" mc_name="ma" value="15"/> <area title="saudi Arabia" mc_name="sa" value="67"/> <area title="slovakia" mc_name="sk" value="57"/> <area title="netherlands" mc_name="nl" value="514"/> <area title="slovenia" mc_name="si" value="28"/> <area title="serbia" mc_name="rs" value="68"/> <area title="south Korea" mc_name="kr" value="306"/> <area title="switzerland" mc_name="ch" value="160"/> <area title="trinidad and Tobago" mc_name="tt" value="1"/> <area title="tunisia" mc_name="tn" value="56"/> <area title="united Kingdom" mc_name="gb" value="269"/> <area title="taiwan" mc_name="tw" value="2344"/> <area title="tanzania" mc_name="tz" value="1"/> <area title="vietnam" mc_name="vn" value="56"/> <area title="thailand" mc_name="th" value="62"/> <area title="ukraine" mc_name="ua" value="15"/> <area title="azerbaijan" mc_name="az" value="6"/> <area title="bangladesh" mc_name="bd" value="2"/> <area title="belgium" mc_name="be" value="451"/> <area title="chile" mc_name="cl" value="97"/> <area title="ecuador" mc_name="ec" value="4"/> <area title="estonia" mc_name="ee" value="3"/> <area title="fiji" mc_name="fj" value="1"/> <area title="georgia" mc_name="ge" value="187"/> <area title="greece" mc_name="gr" value="355"/> <area title="hungary" mc_name="hu" value="94"/> <area title="israel" mc_name="il" value="232"/> Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 28

<area title="japan" mc_name="jp" value="535"/> <area title="jersey" mc_name="je" value="65"/> <area title="kazakhstan" mc_name="kz" value="4"/> <area title="malawi" mc_name="mw" value="1"/> <area title="malta" mc_name="mt" value="2"/> <area title="mongolia" mc_name="mn" value="3"/> <area title="niger" mc_name="ne" value="6"/> <area title="palestine" mc_name="ps" value="1"/> <area title="peru" mc_name="pe" value="19"/> <area title="philippines" mc_name="ph" value="3"/> <area title="senegal" mc_name="sn" value="1"/> <area title="south Africa" mc_name="za" value="82"/> <area title="united Arab Emirates" mc_name="ae" value="32"/> <area title="united States" mc_name="us" value="4421"/> <area title="uzbekistan" mc_name="uz" value="1"/> <area title="venezuela" mc_name="ve" value="13"/> <area title="yemen" mc_name="ye" value="1"/> <area title="zambia" mc_name="zm" value="1"/> </areas> </map> Απηόο ν ηξόπνο παξνρήο ησλ δεδνκέλσλ έρεη πνιιά πξνβιήκαηα, θαζώο θάζε θνξά πνπ ζα ελεκεξώλεηαη ε βάζε ζα πξέπεη λα παξάγεηαη έλα ηέηνην αξρείν. Δπίζεο ζηελ πεξίπησζε πνπ ζα ζέιακε λα θάλνπκε κία αλαδήηεζε πάλσ ζηελ Βάζε κε θάπνην open text πεδίν απηό ζα ήηαλ αδύλαην. Από ηα παξαπάλσ κπνξνύκε λα ζπκπεξάλνπκε πσο ζα ήηαλ πνιύ ζεκαληηθό αλ κπνξνύζακε κε θάπνην ηξόπν λα θάλνπκε ην ammap λα ζπλδεζεί live κε ηελ Βάζε καο. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 29

6.2. Live Σύνδεση ammap με την Βάση Δεδομένων Ο ηξόπνο κε ηνλ νπνίν έγηλε εθηθηή ε ζύλδεζε ηνπ ammap κε ηελ Βάζε Γεδνκέλσλ είλαη κε ηελ βνήζεηα ηεο php. Υξεζηκνπνηώληαο php έγηλε εθηθηή ε δπλακηθή δεκηνπξγία, από ηελ Βάζε καο, δεδνκέλσλ ηεο κνξθήο πνπ δέρεηαη ην ammap. Πην ζπγθεθξηκέλα, αο ην δνύκε απηό ζηελ απινύζηεξε κνξθή ηνπ, κε ηνλ πλνιηθό Αξηζκό Papers αλά Υώξα. Σα δεδνκέλα ζα πξέπεη λα έρνπλ ηελ κνξθή πνπ έρνπκε ήδε δεη κόλν πνπ ζην πεδίν value ζα έρνπκε ηνλ πλνιηθό Αξηζκό Papers αλά Υώξα. Δπνκέλσο, εκείο ζέινπκε λα δεκηνπξγήζνπκε δεδνκέλα ηεο κνξθήο απηήο δπλακηθά από ηελ Βάζε καο. Έηζη έρνπκε, <?php include('connect2db.php'); if (!$conn) {exit("connection Failed: ". $conn);} $sql="select CountryName, CountryID, COUNT(ArticleID) AS NumberOfArticles FROM ArticleCountry GROUP BY CountryName, CountryID"; $rs=odbc_exec($conn,$sql); if (!$rs) {exit("error in SQL");} $mystring1 ='<map map_file="maps/world.swf" zoom="100"> <areas>'; echo $mystring1; while (odbc_fetch_row($rs)) { $mystring2 = '<area title="'; $mystring3 = 'mc_name="'; $mystring4 = 'value="'; $mystring5 = '" '; $mystring6 = '"/>'; $CountryName=odbc_result($rs,"CountryName"); $CountryID=odbc_result($rs,"CountryID"); $NumberOfArticles=odbc_result($rs,"NumberOfArticles"); echo $mystring2.trim($countryname).$mystring5; echo $mystring3.trim($countryid).$mystring5; echo $mystring4.$numberofarticles.$mystring6; } $mystring7='</areas> </map>'; echo $mystring7; odbc_close($conn);?> Όπνπ, 1. πλδεόκαζηε κε ηελ Βάζε Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 30

2. Γεκηνπξγνύκε, εθηεινύκε θαη απνζεθεύνπκε ηα απνηειέζκαηα ηνπ sql εξσηήκαηνο πνπ ζέινπκε 3. ηε ζπλέρεηα δεκηνπξγνύκε ην θνκκάηη πνπ εκθαλίδεηαη κόλν κία θνξά ζην αξρείν δεδνκέλσλ, ην <map map_file="maps/world.swf" zoom="100"> <areas> 4. Κε έλα while loop δεκηνπξγνύκε ηα δεδνκέλα πνπ ζέινπκε γηα θάζε εγγξαθή ησλ απνηειεζκάησλ ηνπ sql εξσηήκαηνο. 5. Αθνύ ηειεηώζεη ην loop δεκηνπξγνύκε θαη ηα closing tags </areas> </map> 6. Σέινο, ηεξκαηίδνπκε ηε ζύλδεζε κε ηε Βάζε Ο θώδηθαο απηόο ζα καο δώζεη ην παξαθάησ απνηέιεζκα, πνπ είλαη θαη ην δεηνύκελν καο: <map map_file="maps/world.swf" zoom="100"> <areas><area title="malaysia" mc_name="my" value="79"/><area title="malta" mc_name="mt" value="2"/><area title="norway" mc_name="no" value="132"/><area title="barbados" mc_name="bb" value="1"/><area title="nigeria" mc_name="ng" value="6"/><area title="puerto Rico" mc_name="pr" value="6"/><area title="australia" mc_name="au" value="560"/><area title="moldova" mc_name="md" value="1"/><area title="hungary" mc_name="hu" value="107"/><area title="oman" mc_name="om" value="15"/><area title="italy" mc_name="it" value="899"/><area title="ireland" mc_name="ie" value="76"/><area title="chile" mc_name="cl" value="106"/><area title="egypt" mc_name="eg" value="116"/><area title="pakistan" mc_name="pk" value="27"/><area title="singapore" mc_name="sg" value="318"/><area title="united Arab Emirates" mc_name="ae" value="37"/><area title="new Zealand" mc_name="nz" value="106"/><area title="guam" mc_name="gu" value="2"/><area title="lebanon" mc_name="lb" value="24"/><area title="vietnam" mc_name="vn" value="65"/><area title="jordan" mc_name="jo" value="35"/><area title="austria" mc_name="at" value="207"/><area title="ukraine" mc_name="ua" value="15"/><area title="switzerland" mc_name="ch" value="183"/><area title="iran" mc_name="ir" value="417"/><area title="mauritius" mc_name="mu" value="1"/><area title="bahrain" mc_name="bh" value="5"/><area title="tanzania" mc_name="tz" value="1"/><area title="georgia" mc_name="ge" value="225"/><area title="guinea" mc_name="gn" value="1"/><area title="thailand" mc_name="th" value="68"/><area title="germany" mc_name="de" value="829"/><area title="russia" mc_name="ru" value="92"/><area title="united Kingdom" mc_name="gb" value="291"/><area title="serbia" mc_name="rs" value="72"/><area title="zambia" mc_name="zm" value="1"/><area title="luxembourg" mc_name="lu" value="10"/><area title="tunisia" mc_name="tn" value="68"/><area title="belgium" mc_name="be" value="502"/><area title="netherlands" mc_name="nl" value="599"/><area title="turkey" mc_name="tr" value="910"/><area title="senegal" mc_name="sn" value="1"/><area title="japan" mc_name="jp" value="574"/><area title="greece" mc_name="gr" value="379"/><area title="sweden" mc_name="se" value="173"/><area title="romania" mc_name="ro" value="83"/><area title="botswana" mc_name="bw" value="2"/><area title="uzbekistan" mc_name="uz" value="1"/><area title="guinea-bissau" mc_name="gw" value="1"/><area title="malawi" mc_name="mw" value="1"/><area title="portugal" mc_name="pt" value="211"/><area title="cyprus" mc_name="cy" value="25"/><area title="indonesia" mc_name="id" value="19"/><area title="trinidad and Tobago" mc_name="tt" value="1"/><area title="zimbabwe" mc_name="zw" value="4"/><area title="france" mc_name="fr" value="1055"/><area title="bosnia and Herzegovina" mc_name="ba" value="1"/><area title="brunei" mc_name="bn" value="5"/><area title="fiji" mc_name="fj" value="2"/><area title="czech Republic" mc_name="cz" value="135"/><area title="peru" mc_name="pe" value="21"/><area title="kuwait" mc_name="kw" value="37"/><area title="mexico" mc_name="mx" value="194"/><area title="saudi Arabia" mc_name="sa" value="75"/><area title="south Korea" mc_name="kr" value="333"/><area title="costa Rica" mc_name="cr" value="3"/><area title="slovakia" mc_name="sk" value="62"/><area title="denmark" mc_name="dk" value="142"/><area title="lithuania" mc_name="lt" value="14"/><area title="brazil" mc_name="br" value="376"/><area title="yemen" mc_name="ye" value="1"/><area title="united States" mc_name="us" value="5015"/><area title="belarus" mc_name="by" value="44"/><area title="india" mc_name="in" value="639"/><area title="jamaica" mc_name="jm" value="4"/><area title="estonia" mc_name="ee" value="4"/><area Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 31

title="canada" mc_name="ca" value="1275"/><area title="niger" mc_name="ne" value="6"/><area title="sri Lanka" mc_name="lk" value="1"/><area title="montenegro" mc_name="me" value="33"/><area title="finland" mc_name="fi" value="183"/><area title="hong Kong" mc_name="hk" value="793"/><area title="qatar" mc_name="qa" value="13"/><area title="croatia" mc_name="hr" value="16"/><area title="latvia" mc_name="lv" value="10"/><area title="papua New Guinea" mc_name="pg" value="1"/><area title="morocco" mc_name="ma" value="15"/><area title="mongolia" mc_name="mn" value="3"/><area title="benin" mc_name="bj" value="2"/><area title="iceland" mc_name="is" value="12"/><area title="kazakhstan" mc_name="kz" value="4"/><area title="israel" mc_name="il" value="252"/><area title="spain" mc_name="es" value="1379"/><area title="uruguay" mc_name="uy" value="12"/><area title="syria" mc_name="sy" value="1"/><area title="ecuador" mc_name="ec" value="5"/><area title="philippines" mc_name="ph" value="3"/><area title="cuba" mc_name="cu" value="13"/><area title="belize" mc_name="bz" value="1"/><area title="armenia" mc_name="am" value="1"/><area title="colombia" mc_name="co" value="18"/><area title="palestine" mc_name="ps" value="1"/><area title="jersey" mc_name="je" value="74"/><area title="bulgaria" mc_name="bg" value="14"/><area title="poland" mc_name="pl" value="282"/><area title="mali" mc_name="ml" value="1"/><area title="macau" mc_name="mo" value="16"/><area title="south Africa" mc_name="za" value="87"/><area title="chad" mc_name="td" value="1"/><area title="algeria" mc_name="dz" value="24"/><area title="china" mc_name="cn" value="2506"/><area title="venezuela" mc_name="ve" value="14"/><area title="slovenia" mc_name="si" value="34"/><area title="lesotho" mc_name="ls" value="1"/><area title="bangladesh" mc_name="bd" value="4"/><area title="argentina" mc_name="ar" value="71"/><area title="cameroon" mc_name="cm" value="4"/><area title="taiwan" mc_name="tw" value="2579"/><area title="azerbaijan" mc_name="az" value="6"/></areas></map> 6.3. Παρουσίαση Web Εφαρμογής Έρνληαο αλαιύζεη ηα επηκέξνπο ηκήκαηα ηεο εθαξκνγήο κπνξνύκε λα πξνρσξήζνπκε ζηελ παξνπζίαζε ηεο ηειηθήο web εθαξκνγήο. ε απηή καο δίλεηαη ε δπλαηόηεηα γηα ηελ νπηηθνπνίεζε 5 κεγεζώλ: 1. Αξηζκό Paper αλά Υώξα 2. Αξηζκό Paper αλά Δπηζηεκνληθό Πεξηνδηθό θαη Υώξα 3. αηά Θεθαιήλ Αξηζκόο Papers Θνξπθαίεο 20 Υώξεο 4. Γίθηπα Γηεζλώλ πλεξγαζηώλ 5. Αξηζκό Paper αλά Ιέμε Θιεηδί θαη Υώξα Παξαθάησ ζα αλαιύζνπκε ην θαζέλα μερσξηζηά. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 32

6.3.1. Αριθμός Paper ανά Χώρα Πξόθεηηαη γηα ην βαζηθό κέγεζνο γη απηό θαη εκθαλίδεηαη ζηελ αξρηθή ζειίδα. Αο ξίμνπκε όκσο κηα καηηά. Δηθόλα 4: Αξηζκόο Paper αλά Χώξα Παξαηεξνύκε ηελ ρξσκαηηθή δηαξξύζκηζε, αλάινγα κε ηνλ αξηζκό ησλ papers (όζν πεξηζζόηεξα ηόζν πην ζθνύξν ην ρξώκα). Δπίζεο έρνπκε ηελ δπλαηόηεηα zoom θαη πεξλώληαο κε ηνλ θέξζνξα πάλσ από θάπνηα ρώξα καο εκθαλίδεηαη κία εηηθέηα κε ηνλ αξηζκό ησλ paper από ηελ ρώξα απηή. Δηθόλα 5: Αξηζκόο Paper Διιάδαο Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 33

6.3.2. Αριθμό Paper ανά Επιστημονικό Περιοδικό και Χώρα Πξόθεηηαη γηα έλα πνιύ ελδηαθέξνλ κέγεζνο ην νπνίν έρεη νπηηθνπνηεζεί. Δδώ επηιέγνπκε ην επηζηεκνληθό πεξηνδηθό πνπ καο ελδηαθέξεη από κία drop down list. Ζ ιίζηα απηή δεκηνπξγείηαη δπλακηθά από ηελ Βάζε Γεδνκέλσλ αιιά δελ ζα παξαζέζνπκε ζε απηό ην ζεκείν ηνλ θώδηθα. Αλ ελδηαθέξεη πάλησο νπνηνλδήπνηε ν πιήξεο θώδηθαο ηεο εθαξκνγήο βξίζθεηαη ζην Παξάξηεκα. Δηθόλα 6: Αξηζκόο Paper αλά Δπηζηεκνληθό Πεξηνδηθό θαη Χώξα - Δπηινγή Δπηζηεκνληθνύ Πεξηνδηθνύ Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 34

Αθνύ επηιέμνπκε ην πεξηνδηθό πνπ καο ελδηαθέξεη θαη παηήζνπκε submit έρνπκε Δηθόλα 7: Αξηζκόο Paper αλά Δπηζηεκνληθό Πεξηνδηθό θαη Χώξα 6.3.3. Κατά Κεφαλήν Αριθμός Paper Κορυφαίες Χώρες Πξόθεηηαη γηα έλα αξθεηά ελδηαθέξνλ κέγεζνο ην νπνίν έρεη νπηηθνπνηεζεί θαη ην νπνίν καο δίλεη ησλ αξηζκό ησλ paper αλά έλα εθαηνκκύξην θαηνίθνπο. Δηθόλα 8 Καηά Κεθαιήλ Αξηζκόο Paper Κνξπθαίεο Χώξεο 6.3.4. Δίκτυα Διεθνών Συνεργασιών Ίζσο ην πην ελδηαθέξσλ κέγεζνο θαη από ηελ πιεπξά ηεο πιεξνθνξίαο πνπ καο δίλεη αιιά θαη από ηελ πιεπξά ηεο νπηηθνπνίεζεο απηήο θαζεαπηήο. Απηό ην κέγεζνο καο παξέρεη ηελ πιεξνθνξία ηνπ αξηζκνύ ησλ papers, κηαο ρώξαο πνπ ζα επηιέμνπκε, πνπ έρνπλ γίλεη ζε ζπλεξγαζία κε άιιεο ρώξεο. Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 35

Θαη εδώ επηιέγνπκε ηελ ρώξα πνπ καο ελδηαθέξεη από κία drop down list ε νπνία δεκηνπξγείηαη δπλακηθά από ηελ Βάζε Γεδνκέλσλ. Δηθόλα 9: Γίθηπα Γηεζλώλ Σπλεξγαζηώλ - Δπηινγή Χώξαο Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 36

Αθνύ επηιέμνπκε ηελ ρώξα πνπ καο ελδηαθέξεη θαη παηήζνπκε submit έρνπκε Δηθόλα 10: Γίθηπν Γηεζλώλ Σπλεξγαζηώλ Άνηληζη Δεδομένων Εκδοηικού Οίκος Elsevier και Απεικόνιζη αςηών ζε Διαδπαζηικό Χάπηη 37