ﺹﻭﺼﻨﻟﺍ ﻥﻤ ﹰﺎﻗﻼﻁﻨﺍ ﺔﻴﺒﺭﻋ ﺔﻴﺠﻭﻟﻭﻁﻨﺃ ﺀﺎﺸﻨﺇ ﻰﻠﻋ ﺩﻋﺎﺴﻤ ﻡﺎﻅﻨ ﺓﺍﻭﻨ ﺀﺎﻨﺒ

Σχετικά έγγραφα
Ακαδημαϊκός Λόγος Εισαγωγή

Εμπορική αλληλογραφία Παραγγελία

با نها خماسية حيث: Q q الدخل. (Finite Automaton)

( ) / ( ) ( ) على. لتكن F دالة أصلية للدالة f على. I الدالة الا صلية للدالة f على I والتي تنعدم في I a حيث و G دالة أصلية للدالة حيث F ملاحظات ملاحظات

Isomorphism-invariants and their applications in testing for isomorphism between finitely presented groups

X 1, X 2, X 3 0 ½ -1/4 55 X 3 S 3. PDF created with pdffactory Pro trial version

( ) ( ) ( ) ( ) v n ( ) ( ) ( ) = 2. 1 فان p. + r بحيث r = 2 M بحيث. n n u M. m بحيث. n n u = u q. 1 un A- تذآير. حسابية خاصية r

ی ا ک ل ا ه م ی ل ح ر

ر ک ش ل ن س ح ن د م ح م ب ن ی ز ن. ل و ئ س م ه د ن س ی و ن ( ی ر ک ش ل &

( ) ( ) ( ) ( ) ( )( ) z : = 4 = 1+ و C. z z a z b z c B ; A و و B ; A B', A' z B ' i 3

() 1. ( t) ( ) U du RC RC dt. t A Be E Ee E e U = E = 12V ن ن = + =A ن 1 RC. τ = RC = ن

( D) .( ) ( ) ( ) ( ) ( ) ( ) الا سقاط M ( ) ( ) M على ( D) النقطة تعريف مع المستقيم الموازي للمستقيم على M ملاحظة: إذا آانت على أ- تعريف المستقيم ) (

- سلسلة -2. f ( x)= 2+ln x ثم اعط تأويل هندسيا لهاتين النتيجتين. ) 2 ثم استنتج تغيرات الدالة مع محور الفاصيل. ) 0,5

المادة المستوى المو سسة والكيمياء الفيزياء تمارة = C ت.ع : éq éq ] éq ph

بحيث ان فانه عندما x x 0 < δ لدينا فان

ی ن ل ض ا ف ب ی ر غ ن ق و ش ه ی ض ر م ی ) ل و ئ س م ه د ن س ی و ن ( ا ی ن ل ض ا ف ب ی ر غ 1-

ATLAS green. AfWA /AAE

ة من ي لأ م و ة بي ال ع ج 2 1

(1) (2) على. 0.2f c. .(curvature ductility) f y

ﻉﻭﻨ ﻥﻤ ﺔﺠﻤﺩﻤﻟﺍ ﺎﻴﺠﻭﻟﻭﺒﻭﺘﻟﺍ

Immigration Studying ا ود التسجيل في الجامعة. ا ود التقدم لحضور مقرر. ما قبل التخرج ما بعد التخرج دكتوراه بدوام كامل بدوام جزي ي على الا نترنت

=fi Í à ÿ ^ = È ã à ÿ ^ = á _ n a f = 2 k ÿ ^ = È v 2 ح حم م د ف ه د ع ب د ا ل ع ز ي ز ا ل ف ر ي ح, ه ف ه ر س ة م ك ت ب ة ا مل ل ك ف ه د ا ل و

Contents مقدمة. iii. vii. xxi

قوانين التشكيل 9 الةي ر السام ظزري 11/12/2016 د. أسمهان خضور سنستعمل الرمز (T,E) عوضا عن قولنا إن T قانون تشكيل داخلي يعرف على المجموعة E

PDF created with pdffactory Pro trial version

الجزء الثاني: "جسد المسيح الواحد" "الجسد الواحد )الكنيسة(" = "جماعة المؤمنين".

و ر ک ش ر د را ن ندز ما ن تا ا س ی یا را

( ) [ ] الدوران. M يحول r B و A ABC. 0 2 α فان C ABC ABC. r O α دورانا أو بالرمز. بالدوران r نكتب -* النقطة ' M إلى مثال لتكن أنشي 'A الجواب و 'B

Προσωπική Αλληλογραφία Επιστολή

ت خ ی م آ ر ص ا ن ع ز ا ن ا گ د ن ن ک د ی د ز ا ب ی د ن م ت ی ا ض ر ی س ر ر ب د

Tronc CS Calcul trigonométrique Cours complet : Cr1A Page : 1/6

يط... األعداد المركبة هذه التمارين مقترحة من دورات البكالوريا من 8002 إلى التمرين 0: دورة جوان 8009 الموضوع األول التمرين 8: دورة جوان

تصميم الدرس الدرس الخلاصة.

Using Artificial Neural Networks in Multiple Linear Regression. Abstract

مادة الرياضيات 3AC أهم فقرات الدرس (1 تعريف : نعتبر لدينا. x y إذن

الا شتقاق و تطبيقاته

١٤ أغسطس ٢٠١٧ العمليات الحسابية الا ساسية مع الا شع ة ٢ ٥

( ) تعريف. الزوج α أنشطة. لتكن ) α ملاحظة خاصية 4 -الصمود ليكن خاصية. تمرين حدد α و β حيث G مرجح

Le travail et l'énergie potentielle.

الموافقة : v = 100m v(t)

ﻩﺫﻴﻔﻨﺘﻭ S RM (6/8) ﺓ ﺭ ﻤ ﻴﻐﺘ ﺔﻴﺴ ﺎ ﻴﻁ ﻨﻐﻤ ﺔﻤ ﻭﺎﻘﻤ ﻱﺫ ﻙﺭﺤﻤ ﺓﺩﺎﻴﻘﻟ ﻡﺎﻅﻨ ﻡﻴﻤﺼﺘ ﺏﻭﺴﺎﺤﻟﺍ ﻡﺍﺩﺨﺘﺴﺎﺒ

المتغير الربيعي التباين نسبي والتفرطح المعياري

)الجزء األول( محتوى الدرس الددراتالمنتظرة

ﺔﻴﻭﻀﻌﻟﺍ ﺕﺎﺒﻜﺭﻤﻟﺍ ﻥﻴﺒ ﺕﻼﻴﻭﺤﺘﻟﺍ لﻭﺤ ﺔﻴﺯﻴﺯﻌﺘ ﺔﻗﺎﻁﺒ

مقدمة (ISO) العالمي. ١٩٨٦ وهي: الا جنبية.

ا ت س ا ر د ر ا ب غ و د ر گ ه د ی د پ ع و ق و د ن و ر ی ی ا ض ف ل ی ل ح ت ی ه ا ب ل و ت ب ن

- سلسلة -3 ترين : 1 حل التمرين : 1 [ 0,+ [ f ( x)=ln( x+1+ x 2 +2 x) بما يلي : وليكن (C) منحناها في معلم متعامد ممنظم

Business عزيزي السيد الري يس سيدي المحترم سيدتي المحترمة سيدي المحترم \ سيدتي المحترمة السادة المحترمون ا لى م ن يهم ه الا مر عزيزي السيد ا حمد

تمارين توازن جسم خاضع لقوتين الحل

د ا ر م د و م ح م ر ی ا ر ی ح ب د ی م ح ن ن ا م ر ه ق ا ر ا س د

ءﺎﺼﺣﻹا ﻒﻳرﺎﻌﺗ و تﺎﺤﻠﻄﺼﻣ - I

-1 المعادلة x. cosx. x = 2 M. و π. π π. π π. π π. حيث π. cos x = إذن حيث. 5π π π 5π. ] [ 0;π حيث { } { }

Οι 6 πυλώνες της πίστης: Μέρος 6 Πίστη Θειο διάταγμα (Κάνταρ Πεπρωμένο) اإليمان بالقدر. Άχμαντ Μ.Ελντίν

المستوى المادة مسلك والكيمياء الفيزياء المو سسة تمارة + + éq 3 éq= xéq. x m. m = CV x. Q r [ RCOOH] RCOOH

نظام استرجاع معلومات للغة العربية

Μετανάστευση Έγγραφα ا ين يمكنني ا يجاد استمارة ل ا ين تم ا صدار [مستند] الخاص متى تنتهي صلاحية هويتك هل يمكنك مساعدتي في ملء الاستمارة

********************************************************************************** A B

مجلة الباحث - عدد 2012 / 10

ن ا ر ا ن چ 1 ا ی ر و ا د ی ل ع د م ح م ر ی ا ف و ی د ه م ی

2) CH 3 CH 2 Cl + CH 3 O 3) + Br 2 4) CH 3 CHCH 3 + KOH.. 2- CH 3 CH = CH 2 + HBr CH 3 - C - CH C 2 H 5 - C CH CH 3 CH 2 OH + HI

الملخص مقدمة. من الطرق هما الطرق المباشرة Direct methods. Lamotte وBourliere (1975) حيث اعتبرا أن. متقاربة,convergent بينما تتميز طريقة Ben

AR_2001_CoverARABIC=MAC.qxd :46 Uhr Seite 2 PhotoDisc :έϯμϟ έϊμϣ ΔϟΎϛϮϟ ˬϲϠϨϴϛ. : Ω έύδθϟ ϰϡϋ ΔΜϟΎΜϟ ΓέϮμϟ

( ) ( ) [ [ ( ) ( ) ( ) =sin2xcosx ( ) lim. lim. α; ] x حيث. = x. x x نشاط 3 أ- تعريف لتكن. x نهاية l في x 0 ونرمز لها ب ب- خاصية نهاية على اليمين في

ج ن: روحا خل ل ب وج یم ع س ن

BINOMIAL & BLCK - SHOLDES

تمرين 1. f و. 2 f x الجواب. ليكن x إذن. 2 2x + 1 لدينا 4 = 1 2 أ - نتمم الجدول. g( x) ليكن إذن

ﻲﺠﺎﺠﺯﻟﺍ لﻤ ﺎﻜﻟﺍ ﻑ ﺯﺨﻟﺍ ﻡ ﺎﻅﻨﻟ ﻲ ﺌﺎﻬﻨﻟﺍ ﻥﻭ ﻠﻟﺍ

**********************************************************************************

Οι 5 πυλώνες της πίστης: Μέρος 2 Πίστη στους αγγέλους

الدورة العادية 2O16 - الموضوع -

( ) ( ) ( ) = ( 1)( 2)( 3)( 4) ( ) C f. f x = x+ A الا نشطة تمرين 1 تمرين تمرين = f x x x د - تمرين 4. نعتبر f x x x x x تعريف.

( ) ( ) ( ) - I أنشطة تمرين 4. و لتكن f تمرين 2 لتكن 1- زوجية دالة لكل تمرين 3 لتكن. g g. = x+ x مصغورة بالعدد 2 على I تذآير و اضافات دالة زوجية

( ) ( ) ( ) ( ) تمرين 03 : أ- أنشيء. ب- أحسب ) x f ( بدلالة. ب- أحسب ) x g ( تعريف : 1 = x. 1 = x = + x 2 = + من x بحيث : لتكن لكل. لكل x من.

2 - Robbins 3 - Al Arkoubi 4 - fry

المادة المستوى رياضية علوم والكيمياء الفيزياء = 1+ x f. V ph .10 COOH. C V x C. V

بحيث = x k إذن : a إذن : أي : أي :

1/ الزوايا: المتت امة المتكاملة المتجاورة

ﻡﻴـ ﻠ ﻌﹾﻟﺍ ﹶﺕـﻨ ﺃ ﻙـﱠﻨ ﺇ ﺎﹶﻨﹶﺘ ﻤﱠﻠ ﻋ ﺎ ﻤ ﱠﻻ ﺇ ﺎﹶﻨﹶﻟ ﻡﹾﻠ ﻋ ﹶﻻ ﻙﹶﻨﺎ ﺤ ﺒ ﺴ

األستاذ: بنموسى محمد ثانوية: عمر بن عبد العزيز المستوى: 1 علوم رياضية

ANTIGONE Ptolemaion 29Α Tel.:

. ) Hankins,K:Power,2009(

ر گ ش د ر گ ت ع ن ص ة ع س و ت ر ب ن آ ش ق ن و ی ی ا ت س و ر ش ز ر ا ا ب ت ف ا ب ی ز ا س ه ب )

التفسير الهندسي للمشتقة

پژ م ی عل ام ه ص لن ف

ا قرار تعاريف المصادر 1-1 بينها.

Acceptance Sampling Plans. مقدمة المستهلك.

V - a - - b - الشكل (4-10): الداي رة الكهرباي ية المغلقة.

مثال: إذا كان لديك الجدول التالي والذي يوضح ثلاث منحنيات سواء مختلفة من سلعتين X و Yوالتي تعطي المستهلك نفس القدر من الا شباع


[ ] [ ] ( ) ( ) ( ) ( ) ( ) I و O B بالنسبة ل AC) ( IO) ( بالنسبة C و S M M 1 -أنشطة: ليكن ABCD معين مرآزه O و I و J منتصفي

رباعيات األضالع سابعة أساسي. [


مقدمة: التحليل الخاص باإلنتاج والتكاليف يجيب عن األسئلة المتعلقة باإلنتاج الكميات المنتجة واألرباح وما إلى ذلك.

ﺔﺠﻤﺭﺒﻠﻟ ﻲﺒﺭﻌﻟﺍ ﻕﻴﺭﻔﻟﺍ ﺕﺎﻴﺩﺘﻨﻤ ﻲﻓ ﺔﻤﺩﻘﻤ OpenGL ﺎﻴﻨﺍﺩ ﺔﺴﺩﻨﻬﻤ : ﻟﺍ ﺩﺍﺩﻋﺇ - ٢٠٠٥ ﺹ - ﻤﺤ ﺎﻴﺭﻭﺴ

أسئلة استرشادية لنهاية الفصل الدراسي الثاني في مادة الميكانيكا للصف الثاني الثانوي العلمي للعام الدراسي

ی ن ا م ز ا س ی ر ت ر ا ت ی و ه ر ی ظ ن ( ن ا ر ظ ن ب ح ا ص و

The Impact of Oil Revenues Fluctuations on Macroeconomic Indicators and Financial Markets Performance of Arab-Gulf Countries

Phonétique Transcription 1 -علم الا صوات اللغوية ووظيفته

א א א א א توافق الزاوية 1 و 2 توافقها اللحظة.

ه ش ر ا د ی ا پ ت ال ح م د ر ک ی و ر ر ب د ی ک ا ت ا ب ی ر ه ش ت ال ح م ی ر ا د ی ا پ ش ج ن س )

Transcript:

مجلة جامعة دمشق للعلوم الهندسية المجلد التاسع والعشرون- العدد الا ول- 2013 غنيم- صافي- السيد علي بناء نواة نظام مساعد على ا نشاء ا نطولوجية عربية انطلاقا من النصوص د. * ندى غنيم م. ** وسيم صافي م. *** مو يد السيد علي الملخص معظم تطبيقات معالجة اللغات الطبيعية تحتاج ا لى التعامل مع المستوى الدلالي للغة. ولهذا السبب ظهرت عدة محاولات لبناء ا دوات معالجة دلالية للنصوص من خلال بناء الشبكات الدلالية كالا نطولوجية وشبكة الكلمات وشبكة الا طر وشبكة الا فع ال. نعرض في هذا البحث المنهجية المعتمدة في بناء منصة ArOntoLearn وهي بيي ة عمل تساعد على بناء ا نطولوجية عربية اعتمادا على النصوص في الوب وا هم سمات هذه البيي ة ا نها تدعم اللغة العربية وتستخدم المعرفة السابقة في ا جراي يات التعلم فضلا عن ا نها تمثل الا نطولوجية الناتجة باستخدام نموذج الا نطولوجية الاحتمالي (POM) Probabilistic Ontology Model الذي يمكن ترجمته ا لى ا ي صيغة تمثيل للمعرفة. يقوم النظام بتحليل الموارد النصية العربية يقابلها مع نماذج مفرادتية-نحوية بهدف تعل م مفاهيم وعلاقات جديدة. ا ن دعم اللغة العربية ليس سهلا نظرا لكون ا دوات المعالجة اللغوية المتوافرة غير فع الة كفاية لمعالجة النصوص العربية غير المشكولة التي كذلك نادرا ما تتضمن علامات الترقيم الصحيحة المساعدة على التحليل الصحيح للجمل. لذلك حاولنا بناء بيي ة عمل مرنة يمكن ا عدادها بسهولة بحيث ت ع د ل ا دوات التحليل المستخدمة فيها وت س ت ب د ل با خرى ا كثر تطورا عند توافرها. الكلمات المفتاحية: تعلم الا نطولوجية المعالجة الا لية للغة العربية استحصال المعرفة نموذج الا نطولوجية الاحتمالي. 185 * المعهد العالي للعلوم التطبيقية والتكنولوجية- دمشق. ** المعهد العالي للعلوم التطبيقية والتكنولوجية- دمشق. *** قسم الذكاء الصنعي-كلية المعلوماتية-جامعة دمشق.

بناء نواة نظام مساعد على إنشاء أنطولوجیة عربیة انطلاقا من النصوص Protégé للا نطولوجية وهي تعتمد بصورة كبيرة على 1.مقدمة ا ساسا البنية الداخلية للجمل وتستخدم التحليل اللغوي تحتاج ا غلب تطبيقات معالجة اللغات الطبيعية ا لى التعامل الاسمية لاستنتاج معارف الا نطولوجية من النصوص. يركز لهذا السبب ظهرت عدة مع المستوى الدلالي للغة. [11] OntoLearn على مسا لة ا زالة اللبس في ا طار العمل محاولات لبناء ا دوات معالجة دلالية للنصوص من خلال معاني الكلمات ويعرض خوارزمية جديدة SSI تعتمد على بناء شبكات دلالية كالا نطولوجية وشبكة الكلمات بنية الا نطولوجية. ينجز ا طار العمل [5] Text2Onto العديد [2][3] "FrameNet" [4] وشبكة الا طر "WordNet" لتعلم الخوارزميات التي تتعلق بالمهام الجزي ية من وشبكة الا فع ال "VerbNet" [1]. term الا نطولوجية مثل استخلاص المصطلحات نعرض في هذه الورقة المنهجية المعتمدة لبناء بيي ة عمل taxonomy construction وا نشاء التصانيف extraction بهدف المساعدة على ا نشاء ا نطولوجية ArOntoLearn وتقانات تعلم العلاقات بين المفاهيم. عربية اعتمادا على النصوص في الوب. نعرض في هذه الورقة بيي ة العمل خاصتنا التي تستخدم توصيفا معينا مجالا توصف التي النصوص تتضمن نماذج مفرادتية-نحوية ومذي لا دلاليا annotator.semantic كاملا ا و جزي يا لهذا المجال ا ي ا ن النصوص هي تعبير لما كان دعم اللغة العربية ليس ا مرا سهلا نظرا ا لى ا ن الذي المجال عن لديه التي الا نطولوجية عن المو لف ا دوات المعالجة اللغوية المتوافرة غير فع الة كفاية لمعالجة النصوص العربية غير المشكولة التي نادرا ما تتضمن علامات الترقيم الصحيحة لذلك فقد حاولنا بناء بيي ة عمل يكتب عنه باستخدام اللغة التي يتقنها. فا ذا استطعنا ا يجاد طريقة تعكس هذه العملية ا ي تقوم باستنتاج ا نطولوجية من النصوص ا و تعل مها نكون قد ا سهمنا بتسريع عملية ا دوات التحليل ت ع د ل مرنة يمكن ا عدادها بسهولة بحيث بناء الا نطولوجية. المستخدمة فيها وت س ت ب د ل با خرى ا كثر تطورا عند توافرها. تتا لف دورة حياة نظام تعلم الا تطولوجية عموما من ا ربع بنيان النظام 2. Import/Reuse مراحل ري يسة. تبدا دورة الحياة باستيراد يمكن تقسيم بنيان النظام ا لى ثلاث وحدات: نموذج ا نطولوجيات مطورة مسبقا ا و ا عادة استخدامها ثم مرحلة Probabilistic Ontology Model الا نطولوجية الاحتمالي استخراج الا نطولوجية Extract ا ذ ت طب ق خورازميات التعلم (POM) المتحكم بالخوارزمياتController Algorithms وت ع ال ج بهدف بناء نموذج تكراري على المعطيات ووحدة معالجة اللغة العربية Arabic NLP tool (الشكل 1). وتزايدي يمث ل الا نطولوجية التي يجري تعلمها وفي المرحلة الثالثة تجري عملية تشذيب Prune للا نطولوجية المستخرجة ا ذ قد تكون كبيرة الحجم وغير متسقة ا م ا المرحلة الا خيرة فتجري فيها عمليات تصحيح.Refine عند استعراض البحوث الجارية في هذا المجال التي في مجملها لا تدعم اللغة العربية نجد [8] Mo k workbench الذي يعتمد طريقة التعلم التلقاي ي غير المشرف عليه لاستنتاج هرميات المفاهيم من مجموعات النصوص. من جهة ا خرى هناك ا داة [10] OntoLT المدموجة في محرر الشكل (1) بنيان نظام ArOntoLeam 186

مجلة جامعة دمشق للعلوم الهندسية المجلد التاسع والعشرون- العدد الا ول- 2013 غنيم- صافي- السيد علي يخزن POM نتاي ج مختلف خوارزميات تعلم الا نطولوجية التي يجري تهيي تها وتفعيلها من قبل المتحكم 187 POM Controller الذي يقوم بتنظيم العمل ضمن نطاق النظام ا ذ يستخدم وحدة معالجة اللغات الطبيعية باعتماد منصة العملEngineering General Architecture for Text (GATE) في عمليات المعالجة الا ولية اللغوية للمعطيات ومن ثم يقوم بتنفيذ خوارزميات الا نطولوجية وفق الترتيب الذي حدده مدير النظام. تعلم في النهاية يجري عرض نتاي ج التعلم لمدير النظام ضمن واجهة بيانية كما يمكن تصدير نموذج الا نطولوجية ا لى لغة تمثيل معيارية مثل لغة ا نطولوجية الوب Web (OWL) Ontology Language الا نطولوجية. (a نموذج الا نطولوجية الاحتمالي باستخدام وحدة كتابة يمكن التعبير عن نموذج الا نطولوجية الاحتمالي POM [5] با ن ه مجموعة من كيانات instantiated modeling primitives النمذجة ذات القيمة المستقلة عن لغة تمثيل ا نطولوجية معينة. كيانات النمذجة التي استخدمناها في نظامنا هي: (1) المفاهيم (2) concepts المنتسخات concept inheritance الوراثة في المفاهيم (3) instances (4) (subclass-of) انتساخ المفاهيم concept.(instance-of) instantiation لا يعد كيان نمذجة في POM احتماليا بالمعنى الرياضي ولكن يا خذ كل قيمة ا يجاد هذا المنتسخ. تبي ن مدى ثقة الخوارزمية المستخدمة ويهدف هذا الاحتمال ا لى تسهيل التفاعل مع المستخدم وتمكينه من ترشيح POM واختيار المنتسخات الصحيحة. (b وحدة معالجة اللغة العربية تعتمد هذه الوحدة على منصة العمل [6] وقد GATE جرى اعتمادها لسببين: الا ول مرونتها من حيث مجموعة الخوارزميات اللغوية المستخدمة والثاني هو استخدام تمثيل يوفر محولا (JAPE) Java Annotation Patterns Engine الذي منتهي الحالات لتمييز النماذج المفرداتية - النحوية اعتمادا على التعابير النظامية regular.expression يبدا العمل في GATE (الشكل 2) بالتقطيع ا ذ يقوم بتقسيم النص ا لى مجموعة من الجمل عن طريق متابعة علامات الترقيم ومن ثم ت قس م كل جملة ا لى كتل بسيطة كالا رقام وعلامات الترقيم والكلمات وذلك اعتمادا على مجموعة من قواعد التقطيع ليكون الناتج دخلا ا لى محلل صرفي ومحدد ا نماط كلام [7] Part of Speech Tagger يحدد لكل مفردة نمطها ومجموعة تا شيرات annotation فمثلا لدينا لكلمة الدخل "الطفولة" الخرج الا تي: ا خرى,الطفولة= token POS-tag= common_noun,, طفل = root, الفعولة = pattern, طفولة = stem فعولة = pattern stem هذه التا شيرات الناتجة ستكون دخلا للمحلل النحوي (وقد استخدمنا لذلك المحلل النحوي سي سن د الصنف النحوية للجملة. ([9] Stanford النحوي ا لى المفردات ويبني يجري بعد ذلك تنفيذ محول الذي الشجرة JAPE على المدونة التي جرى تا شير مفرداتها بهدف مطابقة مجموعة من النماذج المفرداتية-النحوية المطلوبة في خوارزميات تعلم الا نطولوجية.

بناء نواة نظام مساعد على إنشاء أنطولوجیة عربیة انطلاقا من النصوص الا نطولوجية مما يسمح بتطبيق خوارزميات مركبة ومن ثم معالجة نتاي جها قبل وصولها ا لى نموذج الا نطولوجية. ا ن تنفيذ ا ية خوارزمية يتم عبر ثلاث مراحل تبدا بمرحلة التبليغ حين ت بل غ الخوارزمية بتغييرات نصية حدثت ضمن المدونات مثل ا ضافة حذف ا و تعديل وثيقة تليها مرحلة الحساب حيث تقوم الخوارزمية بحساب تا ثير هذه التغييرات في المفاهيم والعلاقات الموجودة لديها وا خيرا تقوم الخوارزمية بتوليد طلبات تغيير في نموذج الا نطولوجية لتعكس التغييرات في المفاهيم والعلاقات فمثلا قد تطلب الخوارزمية ا ضافة مفهوم جديد ا و ا حداث علاقة جديدة بين مفهومين في نموذج الا نطولوجية. نستعرض فيما يا تي الخوارزمية المستخدمة في ا جراي ية التعلم ونفص ل المنهجية المستخدمة لحساب احتمال كيان نمذجة ما: 1- خوارزميات استخراج المفاهيم والمنتسخات :instances مثال عن نماذج الشكل (2) تسلسل التطبيقات ضمن GATE JAPE المستخدمة: Pattern 1: is-a relation (syntaxnode.type =NP): instance ({هي احدى احد هو} ({Token.name in (syntaxnode.type = NP): concept يسعى هذا النموذج ا لى مطابقة جمل مثل "دمشق ا حدى المدن" "السيارة "سورية هي ا حدى عربة" الدول" دمشق "جامعة "دمشق هي يعب ر عن علاقة is-a بين المنتسخ والمفهوم. وقد قمنا بتطوير نواة من لالتقاط علاقات الجمل العربية. 15 is-a (c وhas-a المتحكم بالخوارزميات نموذجا هي جامعة". عاصمة" وهو مفرداتيا -نحويا ضمن ا شكال مختلفة من هذه الوحدة تقود عملية التعلم وتنظم العمل ضمن كامل النظام منصة العمل ا ذ يقوم المتحكم باستدعاء المعالجة الا ولية ضمن التسلسل الذي يحدده GATE ثم ت ن ف ذ خوارزميات التعلم وفق المستخدم ويا خذ من هذه الخوارزميات طلبات التعديل الموجهة ا لى نموذج الا نطولوجية ليقوم بتنفيذ هذه التعديلات ا ن ا ذ الخوارزميات لا يسمح لها بالتعديل المباشر على نموذج نفذنا مجموعة من الخوارزميات لحساب المعايير الا تية: - :RTF وهو معيار لقياس تكرار المفاهيم المرشحة rtf ( i) Rtf ( w) ضمن المدونة له الصيغة الا تية: = rtf ( all) ا ذ :Rtf(i) تكرار المفهوم المرشح ضمن الوثيقة. :Rtf(all) تكرار المفهوم المرشح ضمن وثاي ق المدونة كل ها. - :TFIDF وهو معيار ا حصاي ي يعب ر عن ا همية المفهوم المرشح في الوثيقة ضمن المدونة [12] ا ذ تزداد ا همية المفهوم المرشح كلما ظهر ا كثر ضمن الوثيقة. وله N tfidf ( W) = tf ( w).log( الصيغة للا تية: ) df ( w) ا ذ :Tf(w) عدد مرات تكرار المفهوم المرشح ضمن الوثيقة. Tokenize r Sentence Splitter Morph POS-tagger Syntactical Analyzer Semantic Annotator Lexico-syntactic Patterns Matcher 188

مجلة جامعة دمشق للعلوم الهندسية المجلد التاسع والعشرون- العدد الا ول- 2013 غنيم- صافي- السيد علي :Df(w) المرشح. عدد الوثاي ق التي تحتوي على المفهوم N: العدد الكلي للوثاي ق ضمن المدونة. :Tfidf(w) الوثيقة w. - الا نتروبي الا همية النسبية للمفهوم المرشح ضمن :Entropy المعلومات [13] له الصيغة وهو مو شر لقياس كمية الا تية: DR DR E ( w) = *log( ) tr tr - :C-Value/NC-Value مقياس ا حصاي ي يعطي ا همية لتداخل المفاهيم المرشحة [14] وله الصيغة الا تية: 1 c value = log/ c /.( f ( c)) f ( Tc) nbc tcε C: المفهوم المرشح لدخول الا نطولوجية. :F(c) تكرار المفهوم المرشح. c. مجموعة المفاهيم التي تحوي المفهوم المرشح :TC :Nbc عدد عناصر مجموعة المفاهيم التي تحوي المفهوم المرشح c. من ا جل المعايير السابقة جميعها ح س ب ت القيمة النظامية normalized ضمن المجال [1..0] وا س ت خ د مت هذه القيمة كاحتمال للمفهوم ضمن نموذج الا نطولوجية الاحتمالي.POM 2 -خوارزميات استخراج العلاقات: لحساب وثوقية العلاقات خوارزميات منها: - التصنيف باعتماد علاقة التخصيص المستخرجة قمنا بتنفيذ عدة Hyponym في :WordNet نستخدم ا نطولوجية AWN باعتبار ا ن هيكليتها تعتمد على العلاقة IS-A ا ذ نقوم بتحديد مكان المفهومين طرفي العلاقة ضمن AWN ثم نقوم بحساب ا قصر طريق يصل بين المفهومين عبر شجرة مفاهيم AWN وبناء على عدد الوصلات في هذا الطريق ت سن د قيمة الوثوقية ا لى العلاقة بين المفهومين [15] كما هو موض ح في الشكل (3) فا ن حساب وثوقية العلاقة بين "دمشق" و"مدينة" يتحدد بحساب وزن ا قصر طريق بين المفهومين مقسوما على عدد الوصلات (في الشكل هو 0.9). الشكل (3) مقتطف من ا نطولوجية AWN - التصنيف باعتماد نماذج مفهوم-منتسخ Concept- :instance تعتمد على التكرار النسبي للعلاقات التي ا س ت خر ج ت عن طريق النماذج المفرداتية- النحوية فكلما ازداد تكرار العلاقة ضمن وثاي ق المدونة ازدادت معها الثقة بصحة العلاقة ا ذ نقوم بحساب تكرار العلاقة المرشحة ضمن الوثيقة (i N(rab وحساب تكرار العلاقة المرشحة ضمن كاملة المدونة all) N(rab ومن ثم ن طب ق العلاقة الا تية: N( rabi) Rtf ( ra, b) = N( raball) - التصنيف باعتماد البحث في غوغل :Google تستخدم هذه الخوارزمية محرك البحث غوغل للتا كد من نتاي ج عملية التعلم ا ذ ي نف ذ استعلام للعلاقة ضمن محرك البحث ومن ثم ي س ت خ د م عدد النتاي ج التي يعيدها محرك البحث في حساب وثوقية العلاقة التي تزداد بزيادة عدد النتاي ج في محرك البحث. فمثلا : لحساب وثوقية العلاقة: (دمشق عاصمة) Is-a 189

بناء نواة نظام مساعد على إنشاء أنطولوجیة عربیة انطلاقا من النصوص ت ول د الاستعلامات الا تية: "دمشق هي عاصمة" (عدد نتاي جها 19,700) و"دمشق عاصمة" (عدد نتاي جها.(239,000 ولحساب وثوقية العلاقة: (دمشق فاكهة) Is-a يتم توليد الاستعلامات التالية: "دمشق هي فاكهة" (عدد نتاي جها 0) "دمشق فاكهة" (عدد نتاي جها 4). ولذلك فمن الواضح ا ن العلاقة الاولى ا كثر موثوقية من العلاقة الثانية. - تشابه السياق :Context Similarity ا ذ نقوم بحساب تشابه السياق بين كياني العلاقة المرشحة لدخول الا نطولوجية. هذه الخوارزمية خاصة بعلاقة التشابه بين المفاهيم وقد تستخدم ا نطولوجية شبكة الكلمات AWN لحساب تشابه السياق كما يمكن الاعتماد على التشابه المفرداتي بين المفهومين. 3. النتاي ج لاختبار النظام قمنا بتطبيقه على مجموعة من النصوص مستخلصة من الويكيبديا العربية. قمنا باختيار 125 وثيقة في مجال الدول والمدن في الوطن العربي. استخدمنا شبكة الكلمات العربية AWN كا نطولوجية مساعدة. وضعنا 15 نموذجا مفرداتيا-نحويا (5 من نمط instance-of و 10 علاقات.(subclass-of ركزنا في الاختبارات على علاقة instance-of واعتمدنا على الخوارزمية Classification) (Pattern Concept-instance في حساب وثوقية العلاقات. لما كان تطبيق محلل ستانفورد التركيبي Stanford Syntactic Parser على الجمل العربية يتطلب ا ن تكون هذه الجمل جيدة الصياغة وهذا ليس محققا تماما في جمل ويكيبيديا على المدونة كلها (12779 جملة). جرى تقسيم النتاي ج وفقا لعتبة ثقة تساوي 0.5 وكانت النتاي ج كما يا ي:ت a) باستخدام المحلل الصرفي فقط: عدد العلاقات التي كانت الثقة فيها ا على من 0.5 هو 68. بعد ا جراء التحقق اليدوي فيها تبي ن ا ن 26 علاقة منها صحيحة و 42 منها مغلوط فيها. ا م ا عدد العلاقات التي كانت الثقة بها ا قل من 0.5 فهو 40. بعد ا جراء التحقق اليدوي منها تبي ن ا ن 28 علاقات منها صحيحة و 12 منها مغلوط فيها. بالنتيجة فا ن دقة precision هذه النتاي ج (ا ي نسبة النتاي ج الصحيحة من النتاي ج المعادة) هي 0.5. الشكل (4) نتاي ج الاختبارات باستخدام المحلل الصرفي b) باستخدام محلل ستانفورد التركيبي ا يضا : عدد العلاقات التي كانت الثقة فيها ا على من 0.5 هو 10. بعد ا جراء التحقق اليدوي منها تبي ن ا ن 8 علاقات منها صحيحة و 2 منها مغلوط فيها. ا م ا عدد العلاقات التي كانت الثقة بها ا قل من 0.5 فهو 2. بعد ا جراء التحقق اليدوي منها تبي ن ا ن العلاقتين صحيحتان. بالنتيجة فا ن دقة هذه النتاي ج هي 0.83. الشكل (5) نتاي ج الاختبارات باستخدام المحلل النحوي العربية ا جرينا نوعين من الاختبارات: الا ول باستخدام محلل ستانفورد التركيبي على عدد محدود من الجمل (34 جملة) والثاني باستخدام محلل صرفي فقط [7] 190

مجلة جامعة دمشق للعلوم الهندسية المجلد التاسع والعشرون- العدد الا ول- 2013 غنيم- صافي- السيد علي نلاحظ ا ن استخدام محلل ستانفورد قد رفع من دقة النظام لا ن با مكاننا استخدام التا شيرات النحوية للجمل في النماذج المفرداتية-النحوية. محلل ستانفورد على كامل المدونة لسوء الحظ لم نستطع تنفيذ لا ن ه يتطلب جملا بسيطة جيدة الصياغة. سيجري في المرحلة المقبلة لاحقا ا جراء عملية الاختبارات عليها. الجمل تنقيح المدونة الكاملة السابقة وا جراء صرفي 12779 نحوي 34 191 10 8 2 2 2 0 68 26 42 40 28 12 >= 0.5 True False < 0.5 True False الشكل (6) النتاي ج الكلية لاختبارات النظام خاتمة: يعد تعل م الا نطولوجية من النصوص الحل الا برز لمشكلة بناء الا نطولوجية التي يحتاج ا ليها الوب الدلالي في تطبيقاته المختلفة لكن عملية التعل م بشكل ا لي مهما بلغت دقتها فا نها لن تعطي نتاي ج نهاي ية كاملة وصحيحة لذا لابد من مرحلة لاحقة لتعديل هذه النتاي ج واستكمالها والتوافق عليها من قبل الخبراء. تعد النتاي ج التي تعطيها النواة كافية لبعض تطبيقات الوب الدلالي مثل العنقدة (Clustering) واستخراج المعلومات ولكن هذه النواة تعد مرحلة من مراحل مشروع متكامل لبناء تطبيقات الوب الدلالي للمحتوى العربي. لذا لابد من استكمال بناء النواة واختبارها ولابد ا يضا من بناء باقي الا جزاء التي تحتاج ا دوات تخزين الا طن الوثاي ق بالا نطولوجية ا ليها تطبيقات الوب الدلالي مثل ولوجية والبحث فيها وا دوات وسم ontology-based document annotation وتصنيف هذه الوثاي ق اعتمادا الوسم وا دوات عرض الا نطولوجية وغيرها. على هذا

بناء نواة نظام مساعد على إنشاء أنطولوجیة عربیة انطلاقا من النصوص 13. R. M. Gray. Entropy and Information Theory. Springer, 1990. 14. J. Tsuji K. Frantzi, S. Ananiadou. The c- value/nc-value method of automatic recognition for multi -word terms. In Proceedings of the ECDL, pages585 604, 1998. 15. G. Miller. WordNet Hyponym Classification: A lexical database for English. Communications of the ACM, 38(11):39 41, 1995. مسرد المصطلحات مذي ل دلالي semantic annotator تشذيب Prune تصحيح Refine استخلاص المصطلحات term extraction ا نشاء التصانيف taxonomy construction التعابير النظامية regular expression Probabilistic Ontology نموذج الا نطولوجية الاحتمالي Model POM المتحكم بالخوارزميات Algorithms Controller وحدة معالجة اللغة العربية Arabic NLP tool instantiated modeling كيانات النمذجة ذات القيمة primitives 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. المراجع :. VerbNet, from the site: http://verbs.colorado.edu/~mpalmer/projects/ verbnet/downloads.html John.son, C., Fillmore, C., Petruck, M. Baker, C., Ellsworth, M., Ruppenhofer, J., and Wood, E. 2002. FrameNet: Theory and Practice, from http://www.icsi.berkeley.edu / framenet. Josef Ruppenhofer, MichaelEllsworth, Miriam R. L. Petruck, Christopher R. Johnson, Jan Scheffczyk. "Frame Net II :Extended Theory and Practice", 2006. WordNet. Retrieved June 2009, from http//:www.globalwordnet.org P. Cimiano and J. Volker. Text2onto a framework for ontology learning and datadriven change discovery, Proc. NLDB 2005, Lecture Notes in Computer Science, vol. 3513, Springer, Alicante, 2005, pp. 227-238. H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan. GATE: A framework and graphical development environment for robust NLP tools and applications, 2002, In Proceedings of the 40th Annual Meeting of the ACL. R. Sonbol, N. Ghneim, M. Desouki, Arabic Morphological Analysis: a new approach, ICTTA 2008, Damascus, Syria. G. Bisson, c. Nedellec, and L.canamero. Designing clustering methods for ontology building The Mo K workbench. In proceedings of the ECAI ontology Learning Workshop, pages 13-19, 2000. Arabic Stanford parser, Retrieved October 2,2008, from : http//www.nlp.stanford.edu/software/parserfaq.shtml. P. Buitelaar, D. Olejnik, and M. Sintek. OntoLT: A protégé plug-in for ontology extraction from text, 2003, In Proceeding of the international Semantic Web Conference, (ISWC). P. Velardi, R. Navigli, A. Cuchiarelli, and F. Neri. Evaluation of ontolearn, a methodology for automatic population of domain Ontologies, 2005, In P. Buitelaar. G. Salton. Developments in automatic text retrieval. 253:974 979, 1991. 192 تاريخ ورود البحث ا لى مجلة جامعة دمشق 2011/10/19.