Biblioteci digitale pe structuri GRID

Σχετικά έγγραφα
Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

Metode iterative pentru probleme neliniare - contractii

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

5.4. MULTIPLEXOARE A 0 A 1 A 2

Curs 1 Şiruri de numere reale

Curs 4 Serii de numere reale

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

riptografie şi Securitate

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

Metode de interpolare bazate pe diferenţe divizate

Integrala nedefinită (primitive)

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

Subiecte Clasa a VII-a


Geometrie computationala 2. Preliminarii geometrice

Sisteme diferenţiale liniare de ordinul 1

Aplicaţii ale principiului I al termodinamicii la gazul ideal

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

Laborator 11. Mulţimi Julia. Temă

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

MARCAREA REZISTOARELOR

Proiectarea filtrelor prin metoda pierderilor de inserţie

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2

Asupra unei inegalităţi date la barajul OBMJ 2006

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

prin egalizarea histogramei

Capitolul 30. Transmisii prin lant

2. Circuite logice 2.4. Decodoare. Multiplexoare. Copyright Paul GASNER

2CP Electropompe centrifugale cu turbina dubla

2. Sisteme de forţe concurente...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...3

Seminar 5 Analiza stabilității sistemelor liniare

Esalonul Redus pe Linii (ERL). Subspatii.

I X A B e ic rm te e m te is S

Subiecte Clasa a VIII-a

V O. = v I v stabilizator

Modelul entitate-asociere extins prof. dr. ing. Mircea Petrescu

Fundamente ale bazelor de date

Metode Runge-Kutta. 18 ianuarie Probleme scalare, pas constant. Dorim să aproximăm soluţia problemei Cauchy

Capitolul ASAMBLAREA LAGĂRELOR LECŢIA 25

CIRCUITE INTEGRATE MONOLITICE DE MICROUNDE. MMIC Monolithic Microwave Integrated Circuit

3. Momentul forţei în raport cu un punct...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...4

TRANSFORMATOARE MONOFAZATE DE SIGURANŢĂ ŞI ÎN CARCASĂ

BARAJ DE JUNIORI,,Euclid Cipru, 28 mai 2012 (barajul 3)

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

Capitolul 2 - HIDROCARBURI 2.4.ALCADIENE

Capitolul 2 - HIDROCARBURI 2.5.ARENE

Tematica comuna de examen la MODULELE MASTER de APROFUNDARE

a. 11 % b. 12 % c. 13 % d. 14 %

Corectură. Motoare cu curent alternativ cu protecție contra exploziei EDR * _0616*

Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.

Elemente de bază în evaluarea incertitudinii de măsurare. Sonia Gaiţă Institutul Naţional de Metrologie Laboratorul Termometrie

Vectori liberi Produs scalar Produs vectorial Produsul mixt. 1 Vectori liberi. 2 Produs scalar. 3 Produs vectorial. 4 Produsul mixt.

Foarte formal, destinatarul ocupă o funcţie care trebuie folosită în locul numelui

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

Criptosisteme cu cheie publică III

Str. N. Bălcescu nr , Galaţi, Cod , România (+40) (+40) valentin

1 Indicatori de performantele ai calculului paralel

Capitolul 14. Asamblari prin pene

Εμπορική αλληλογραφία Ηλεκτρονική Αλληλογραφία

Examen AG. Student:... Grupa:... ianuarie 2011

4 Metode clasice de planificare şi control a activităţilor şi resurselor proiectului

Modul de calcul al prețului polițelor RCA

Control confort. Variator de tensiune cu impuls Reglarea sarcinilor prin ap sare, W/VA

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Laborator 1: INTRODUCERE ÎN ALGORITMI. Întocmit de: Claudia Pârloagă. Îndrumător: Asist. Drd. Gabriel Danciu

Lectia VII Dreapta si planul

Personal Scrisori. Scrisori - Adresa. Κυρ. Ιωάννου Οδ. Δωριέων 34 Τ.Κ 8068, Λάρνακα

Teme de implementare in Matlab pentru Laboratorul de Metode Numerice

Analiza bivariata a datelor

TEMA 9: FUNCȚII DE MAI MULTE VARIABILE. Obiective:

EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă

SIGURANŢE CILINDRICE

Activitatea A5. Introducerea unor module specifice de pregătire a studenților în vederea asigurării de șanse egale

Sisteme de Recunoastere a Formelor Laborator 3-4 Histograma Orientarilor Gradientilor

Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4)

Examen AG. Student:... Grupa: ianuarie 2016

Profesor Blaga Mirela-Gabriela DREAPTA

GEOMETRIE PLANĂ TEOREME IMPORTANTE ARII. bh lh 2. abc. abc. formula înălţimii

CURS XI XII SINTEZĂ. 1 Algebra vectorială a vectorilor liberi

Algebra si Geometrie Seminar 9

1.3 Baza a unui spaţiu vectorial. Dimensiune

I. Scrie cuvântul / cuvintele dintre paranteze care completează corect fiecare dintre afirmaţiile următoare.

Erori si incertitudini de măsurare. Modele matematice Instrument: proiectare, fabricaţie, Interacţiune măsurand instrument:

5.1. Noţiuni introductive

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

Transcript:

Biblioteci digitale pe structuri GRID Prezentator: Tunde Balint Universitatea Tehnica din Cluj Membrii echipei de cercetare: Universitatea Tehnica din Cluj-Napoca Gheorghe Sebestyen responsabil proiect Doina Banciu coordonator proiect SINRED Ramona Marfievici Bogdan Moscaliuc Anca Hangan

Continut Biblioteci clasice vs. biblioteci digitale Cercetari recente in domeniul bibliotecilor digitale (Digital Libraries - DLs) Obiective si cerinte de proiectare pentru bibliotecile digitale Bibliotecile digitale raportate la Sistemele de management a continutului digital Biblioteci digitale bazate pe ontologie biblioteci semantice Grid-ificarea bibliotecilor digitale Modelul unei Biblioteci digitale bazata pe o infrastructura GRID Rezultate experimentale Cautare pe baza de chei Tehnici de cautare si clasificare semantica Concluzii 2

Biblioteci clasice si digitale Biblioteca clasica o arhiva de cunostinte/informatii pe suport de hartie Masura a gradului de civilizatie a unei societati Biblioteca digitala Nu numai o versiune digitizata a unei biblioteci Un set nou de functionalitati si servicii (controlul accesului, alocarea si managementul resurselor, servicii complexe de cautare si regasire) e) Un mediu pentru schimb de informatii si cooperare Contine o mare varietate de date in diverse formate (text, audio,, video, documente compuse, obiecte digitale si colectii) Bibliotecile digitale sunt sisteme informatice complexe care acopera toate aspectele legate de crearea, stocarea, procesarea, distributia si accesul la la date 3

Tehnologii IT si de comunicatie implicate in implementarea bibliotecilor digitale http://mapageweb.umontreal.ca/turner/meta/english/metamap.html 4

Obiective pentru o biblioteca digitala moderna Viziunea proiectului DELOS sa permita oricarei persoane accesul la orice informatie (cunostinte) oriunde si oricand, intr-un mod prietenos, eficient efectiv si multi-modal modal prin eliminarea barierelor de distanta, limba, si cultura si prin utilizarea de dispozitive interconectate pe Internet Biblioteca digitala = o arhiva de cunostinte si o infrastructura pentru schimbul de informatii care permite generarea, stocarea si accesul usor la date independent de distributia resurselor fizice, a bazelor de date si a persoanelor. Implementarea unei biblioteci digitale necesita infrastructura si servicii de calcul si de comunicatie de inalta performanta 5

Cercetari in domeniul Bibliotecilor digitale Delos Network of Excellence Obiectivul: definirea si implementarea de biblioteci digitale pe tehnologii noi de calcul si de comunicatie Realizari: definirea cerintelor functionale si arhitecturale pentru o biblioteca digitala Proiectul BRICKS Obiectiv: proiectarea unui spatiu orientat pe utilizator si pe servicii s pentru utilizarea in comun a cunostintelor si a resurselor intr-un context multi- cultural Realizari: Definirea unei arhitecturi de biblioteca pentru o comunitate forte mare si eterogena de utilizatori, functii automate de adnotare si indexare a continutului Proiectul OpenDlib Obiectiv: dezvoltarea unui instrument software (toolkit) pentru gererarea de biblioteci digitale dedicate Realizari: instrumente pentru culegerea de continut digital (content harvesting) din resurse existente Fedora, DSpace software de tip open source pentru biblioteci digitale 6

Cercetari in domeniul Bibliotecilor digitale Proiectul Diligent (parte a proiectului EGEE) Obiectiv: utilizarea infrastructurilor Grid pentru implementarea bibliotecilor digitale Realizari: o noua viziune privind conceptul de biblioteca digitala: Biblioteca digitala = un sistem dinamic de de stocare si management ment a continutului digital destinat unui scop bine definit (ex: proiect, curs, colectie de arta, etc. Definirea de servicii generice de biblioteca mapate pe servicii Grid Experiment de catalogare automata a tuturor imaginilor existente pe un portal de imagini un proiect national in cadrul Programului de excelenta Obiectiv: dezvoltarea unui cadru/model national pentru biblioteci destinate domeniilor stiintifice si tehnice Realizari: evaluarea cerintelor, evaluarea produselor software existente dezvoltarea unei infrastructuri Grid, definirea unui model generic de biblioteca digitala, implementare si experimente de cautare si regasire in biblioteci digitale pe Grid Proiectul Sinred un proiect national in cadrul Programului de excelenta 7

Cerinte pentru un sistem de biblioteca digitala Cerinte arhitecturale: Natura distribuita a resurselor de stocare, procesare si de acces Scalabilitate, interoperabilitate si flexibilitate Cerinte functionale: Functii de baza: : stocare, indexare si adnotare, cautare, regasire de continut, managementul utilizatorilor si a resurselor Organizarea continutului trebuie sa reflecte conexiunile semantice existente Facilitati de procesare Servicii de procesare a datelor specializate pentru diferite domenii Identificarea modelelor (pattern-urilor) de cautare si regasirea informatiilor pe baza acestora (de la chei de cautare la cautare semantica) Cerinte de calitate a serviciilor (QoS) Siguranta datelor si a accesului Timp rezonabil de regasire a informatiilor relevante Manamenentul utilizatorilor si controlul accesului Promovarea ideii de Organizatie virtuala 8

Biblioteci digitale si/sau Sisteme de gestiune a continutului digital Sistem de management al continutului: Sistem informatic destinat pentru stocarea, indexarea si clasificarea, carea, vizualizarea si transmiterea datelor relevante pentru un anumit domeniu sau sfera de activitate Gestionarea de formate foarte variate (continut web, multimedia, documente tehnice, rapoarte economice, etc.) Exemple: egovernment and eadministration, Furnizare de continut Multi-media (muzica, film) Date de administrare a companiilor Continut stiintific si tehnic: standarde, conferinte, cursuri (elearning) Biblioteci digitale: Arhiva de continut digital Un tip de Sistem de management a continutului Asigura un acces mai larg si deserveste obiective mai generale (ex:( cel de informare) Cele doua concepte sunt dificil de delimitat In viitor, mai multe biblioteci digitale cu un scop bine definit 9

Schema de principiu a unui SMCD Text Audio Video Text Generare conţinut digital Sistem informatic de catalogare Catalogare Managementul esenţei Extragere automata de caracteristici Managementul metadatelor Acces şi vizualizare 10

Abordarea pe baza de ontologii a Bibliotecilor digitale Ontologie: concepte si relatii intre ele la un nivel mai abstract Ontologie pentru domeniul stiintific si tehnic Concepte de baza: Obiecte digitale: Asociere de continut, metadate si proceduri de prelucrare si de acces a procedurilor Colectii digitale: Asocierea pe baza unui anumit criteriu a mai multor obiecte digitale Evenimente: continut asociat unei anumite manifestari (de scurta durata) Exemple: Conferinte, workshop-uri, seminarii Procese: continut asociat unei activitati de durata Exemple: Proiecte, Cursuri Organizatii virtuale Roluri Utilizatori 11

Taxomonia documentelor digitale in stiinta si tehnica 12

Alte taxonomii 13

Concepte si relatii Rol participa ca Utilizator precizat in Proiect dezvoltat de Organizati e virtuala membru a este o Colectie apartine la prezentat la Eveniment organizat de este un Obiect digital consta din Metadate Date 14

Modelul de Biblioteca digitala Interfete utilizator Managementul metadatelor Managementul continutului Functii de cautare Ontologie OAI-PMH Data Provider Metadata (BD) Management utilizatori Managementul securitatii Procesare cereri Repozitoriu Nivel de prezentare Nivelul logicii de business Nivelul de stocare Nivelul de prezentare - componente care comunica cu lumea in afara sistemului Nivelul logicii de business manipuleaza continutul, utilizatorii si organizatiile vituale Nivelul de stocare stocarea metadatelor si a continutului 15

Servicii de biblioteca digitala pe GRID De ce Biblioteci digitale pe GRID? Un volul imens de documente digitale Acces concurent si motoare multiple de cautare (vezi Google) Furnizare de continut multimedia on-line (Multimedia streaming) Indexare, catalogare si adnotare automata Procesarile complexe de date (ex: recunoasterea si catalogarea automata a continutului multi-media) media) necesita timp de executie prohibitiv de mare Managementul utilizatorilor si alocarea resurselor prin Organizatii virtuale Facilitati de distribuire a sarcinilor oferite de serviciile Grid 16

Grid-ificarea modelului de biblioteca digitala Distribuirea continutului si replicare Controlul accesului la date prin: Organizatii virtuale, Certificarea si autentificarea utilizatorilor Atribuirea de roluri Executia paralela a procedurilor de cautare si clasificare Aceeasi procedura de cautare aplicata in paralel pe mai multe documente, pe mai multe noduri Grid Distribuirea fazelor de executie ale unei proceduri de cautare (parsare, calculul vectorilor de caracteristici, identificare si selectie, clasificare)???? 17

Modelul de Biblioteca digitala pe o infrastructura Grid Biblioteca digitala Managementul si catalogarea metadatelor Managementul colectiilor Procesarea datelor Managementul utilizatorilor Managementul obiectelor digitale Vizualizarea datelor Servicii Grid Procesare Distributia si replicarea datelor Managementul organizatiilor virtuale Distributia Task-urilor Managementul resurselor Resurse de calcul, de stocare si de comunicatie 18

Experimente Implementarea unei biblioteci digitale pe platforma Alchemi Grid (Microsoft) Distributia sarcinilor la nivel de fire de executie (thread-uri) Programare Grid explicita Experimente de furnizare in paralel de continut multimedia (multimedia content streaming) Implementarea unei biblioteci digitale pe platforma Condor Grid (Open source) Distributia sarcinilor la nivel de task-uri Distributia sarcinilor si a datelor este transparenta pentru aplicatia de biblioteca (distributia se face prin script-uri) Experimente de cautare de documente pe baza de cuvinte cheie (cautare in continut si nu in catalogul de metadate) Timpul de executie scade cu numarul de noduri executoare utilizate te Pentru mai mult de 5 executoare timpul de planificare si comunicatie devine comparabil cu cel de procesare Cautare statistica si semantica 19

Experimente Execution time v. s. number of executor nodes Time (s) 8000 7000 6000 5000 4000 3000 2000 1000 Search execution time Scheduling and communication time (case 1) Scheduling and communication time (case 2) Total time (case1) 0 1 2 3 4 5 Nodes Total time (case2) 20

Cautare statistica si semantica Ideea: regasirea sau catalogarea unor documente pe baza unor documente date ca exemplu Regasire prin similaritate Algoritmi: Algoritm de cautare de tip Naive Bayesian Algoritm Topic-Based Vector Space Model (TVSM) 21

Algoritmul Naive Bayes 1 Scop: Clasificarea datelor neetichetate cu ajutorul unor estimari folosind date de antrenare etichetate Conform cu teorema Bayes se poate obtine probabilitatea posterioara cunoscand probabilitatea anterioara probabilitatea ca un document apartine la un subiect datele pentru antrenarea unui clasificator (evidence) Probabilitatea ca un document ar fi fost generat considerand ca apartine (sau nu) la un anumit subiect D documentul P( D T ) P( D T ) P( T ) = * P( D T ) P( D T ) P( T ) T faptul ca D apartine unui topic T 22

Algoritmul Naive Bayes 2 Estimarea acestor probabilitati se face prin masurarea frecventei de aparitie a cuvintelor intr-un set de documente de antrenare. P( D T ) P( w = P( D T ) P( w 1, 1, w w 2... 2... w w n n T ) T ) P( w P( w T ) P( w * T ) P( w w este cuvantul k din cele n cuvinte ale documententului D T ) P( w *...* T ) P( w Documentele neetichetate se folosesc pentru a imbunatati setul de documente de antrenare Cuvintele din document sunt independente de context 1 1 2 2 n n T ) T ) 23

Topic-Based Vector Space Model Scop (TVSM) - 1 Clasificarea documentelor folosind o abordare bazata pe spatii vectoriale Termeni folositi: Stopword-list acesti termeni nu influenteaza sensul documentului Exemple: si, in, ca, pana, cand, Substitutia tezaurului de cuvinte inlocuirea sinonimelor cu un cuvant cheie Stemming reducerea formei cuvintelor Exemplu: software -> soft 24

Topic-Based Vector Space Model Descriere algoritm: (TVSM) - 2 Utilizatorul defineste un profil prin asocieaza unor documente la clase predefinite Restul documentelor se clasifica in concordanta cu documentele similares Documentele noi clasificate imbunatatesc profilul Se presupune ca termenii (cuvintele) sunt elementele atomice ale unui document Similaritatea dintre doi termeni: Sim(i,j) = cos ω i,j є [0,1]. ω i,j i,j unghiul dintre vectorii termenilor i si j Cuvintele care apartin unui subiect anume au lungimea de vector aproape de 1 25

Topic-Based Vector Space Model (TVSM) - 3 Axele reprezinta subiecte elementare pot avea doar valori pozitive Fiecarui document k i se asocieaza un vector d k Asemanarea bazata pe subiect sim(k,l) ) dintre doua documente k si l este dat de produsul scalar dintre vectorii documentelor respective Beneficiile implementarii acestor algoritmi folosind sisteme Grid: Performante mai bune la timpul de procesare Distributia documentelor 26

Concluzii Bibliotecile digitale sunt sisteme informatice complexe de management a continutului care extind functionalitatile bibliotecilor clasice: Mediu pentru schimb de informatii si cooperare Organizarea semantica a unor informatii diverse ca format Acces controlat la date distribuite Infrastructurile Grid pot sa ofere un suport de implementare fezabil pentru bibliotecile digitale Pentru distribuirea automata a datelor si a sarcinilor de procesare Pentru transfer eficient de date si sincronizare Pentru managementul utilizatorilor si controlul accesului Probleme: Multe platforme GRID adopta un stil de procesare de tip prelucrare pe loturi (batch) in care lipseste interactivitatea Programatorul aplicatiei de biblioteca este implicat in mica masura in procesul de grid-ificare ificare (executie pe Grid). 27

Multumesc pentru atentie! Intrebari? 28