Review of software applications for deriving collocations

Σχετικά έγγραφα
From corpus-based collocation frequencies to readability measure

ΓΑΤΕ 2019 Ινφορmατιον Βροχηυρε

Χοmπαρινγ εξπλιχιτ ανδ ιmπλιχιτ φεεδβαχκ τεχηνιθυεσ φορ ωεβ ρετριεϖαλ: ΤΡΕΧ 10 ιντεραχτιϖε τραχκ ρεπορτ

O'Gorman, Kevin D. (2008) Review of the International Dictionary of Hospitality Management. [Review], Strathprints

Ριχηαρδ Φεψνµαν (1999) τελλσ τηατ κνοωινγ ιτσ ναµε ανδ κνοωινγ ωηατ ιτ ισ αρε τωο διφφερεντ τηινγσ. Ιτ ρεπρεσεντσ ωελλ τηε χασε οφ προβλεµ φινδινγ.

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

Ρε εξαmινινγ τηε Ποτεντιαλ Εφφεχτιϖενεσσ οφ Ιντεραχτιϖε Θυερψ Εξπανσιον

Ρεγδ. Οφφιχε : Αακαση Τοωερ, Πλοτ Νο. 4, Σεχτορ 11, Dωαρκα, Νεω Dεληι Πη. : Φαξ : ΑΝΣWΕΡΣ & ΗΙΝΤΣ φορ WΒϑΕΕ 2011

Kent Academic Repository

Permanent Link:

Χοµε, Ο Ψε Σαιντσ ανδ Χουντ Ψουρ Μανψ Βλεσσινγσ

Α ΧΟΜΠΑΡΑΤΙςΕ ΑΝΑΛΨΣΙΣ ΟΦ ΡΥΣΣΙΑΝ ΑΝ ΗΥΝΓΑΡΙΑΝ ΣΟΜΑΤΙΧ ΠΗΡΑΣΕΟΛΟΓΙΣΜΣ

ΟΧΤ. 02, 2002 ςερσιον 0.2

! # % & (( )% + & (( #,,,(.)&,

1.7. Τελετραφφιχ Τηεορψ

Permanent Link:

3. Part A carries a total of 100 marks. Part B also carries a total of 100 marks.

Strathprints Institutional Repository

This is a repository copy of The impact of digital image processing artefacts mimicking pathological features associated with restorations.

UK (2009) 30 (3) ISSN

ΣΙΜΥΛΑΤΙΟΝ ΟΦ ΤΗΕ ΣΜΑΛΛ ΠΥΝΧΗ ΧΡΕΕΠ ΤΕΣΤ WΙΤΗ ΧΟΝΣΙDΕΡΑΤΙΟΝ ΟΦ ςαριατιον ΟΦ ΜΑΤΕΡΙΑΛ ΠΡΟΠΕΡΤΙΕΣ

G.R.S. (2003) A 13 (3/4) ISSN

ΧΕΕD 2017 Θυεστιον Παπερ

Law, Derek (2002) An apology of a life: [a Presidential address]. Scottish Libraries, 17. pp , Strathprints

Αυγυστ Αmαζον Wεβ Σερϖιχεσ Οϖερϖιεω οφ Σεχυριτψ Προχεσσεσ Αυγυστ 2015

Please refer to the usage guidelines at or alternatively contact

Σεχυριτψ Μοδελσ φορ Τρυστινγ Νετωορκ Αππλιανχεσ

Ρανκινγ εξπανσιον τερmσ ωιτη παρτιαλ ανδ οστενσιϖε εϖιδενχε

(2009) 4 (4) ISSN

Ωιντερ Ωραπ Υπ ΠΑΡΤΙΤΥΡ. Μψ Λιττλε Πονψ Φριενδσηιπ Ισ Μαγιχ. Χηορ 1. µοντησ οφ ωιν τερ χοολ νεσσ ανδ αωε σοµε ηο λι δαψ, Πινκιεπιε. Τηρεε.

Access from the University of Nottingham repository:

Kent Academic Repository

Α στυδψ φορ τηε Εθυαλ Οππορτυνιτιεσ Χοmmισσιον (Σχοτλανδ)

(2004) ISSN

Download from Powered by JbigDeaL Quantitative Math Preparation

(2007) 64 (1) ISSN

Ρεγδ. Οφφιχε : Αακαση Τοωερ, Πλοτ Νο. 4, Σεχτορ 11, Dωαρκα, Νεω Dεληι Πη. : Φαξ : ΑΝΣWΕΡΣ & ΗΙΝΤΣ φορ WΒϑΕΕ 2010

ΒΛΨ1Α. Γενεραλ Χερτιφιχατε οφ Σεχονδαρψ Εδυχατιον Σπεχιµεν Παπερ. Υνιτ 1α Βιολογψ (Ηυµαν Βιολογψ) ΒΙΟΛΟΓΨ. ατε ανδ Τιµε. Τιµε αλλοωεδ: 30 µινυτεσ

(2005) : 6 (1) ISSN

This is a repository copy of Children s development and parental input: evidence from the UK Millennium Cohort Study.

Scottish Government (Funder) (2009) Acquisition and retention of DNA and fingerprint data in Scotland. [Report], Strathprints

# %# & # # ( # # ) ) # +)# # ) #,. /! % # //:/! 7 1;. /!# < # 6 # / : = =0 ; 0

Τηε πλαχε ωηερε το δεσχενδ τηε βανκ ωε χαµε Ωασ αλπινε, ανδ φροµ ωηατ ωασ τηερε, µορεοϖερ, Οφ συχη α κινδ τηατ εϖερψ εψε ωουλδ σηυν ιτ.

! # % &! ( ) ++,. #. / 0 1 # 2.(!3# 4. ( 0! 3 3 #

This is a repository copy of Predictive analytics and the targeting of audits.

DΕΠΑΡΤΜΕΝΤ ΟΦ ΕΧΟΝΟΜΙΧΣ ΡΕ ΕΞΑΜΙΝΙΝΓ ΤΗΕ ΧΟΝΣΥΜΠΤΙΟΝ WΕΑΛΤΗ ΡΕΛΑΤΙΟΝΣΗΙΠ: ΤΗΕ ΡΟΛΕ ΟΦ ΜΟDΕΛ ΥΝΧΕΡΤΑΙΝΤΨ

Φορεχαστινγ ανδ Εστιmατινγ Μυλτιπλε Χηανγε ποιντ ΜοδελσωιτηανΥνκνοωνΝυmβεροφΧηανγε ποιντσ

URL:

(2007) 56 (7) ISSN

Πεερ το Πεερ Χολλαβορατιον Υσινγ Χοννεξιονσ

εσχριπτιον οφ ωορκ Θυαντιτψ

Liner Shipping Hub Network Design in a Competitive Environment

J.S. (2003) 83 (4) ISSN

3. Part A carries a total of 100 marks. Part B also carries a total of 100 marks.

Τιmε ςαρψινγ ςαρσ ωιτη Ινεθυαλιτψ Ρεστριχτιονσ

This is an author produced version of Small-b and fixed-b asymptotics for weighted covariance estimation in fractional cointegration.

Ρεθυεστ φορ Προποσαλ Φορ

Strathprints Institutional Repository

9THEME 9. Statistics. on Science and Technology. in Europe. Part2. Data PANORAMA OF THE EUROPEAN UNION 2003 EDITION EUROPEAN COMMISSION

Γενεραλ Απτιτυδε ΓΑ Σετ 4. Σελεχτ τηε mοστ συιταβλε σεντενχε ωιτη ρεσπεχτ το γραmmαρ ανδ υσαγε. (Α) Τηε πριχε οφ αν αππλε ισ γρεατερ τηαν αν ονιον.

This is a repository copy of Extending McKinsey s 7S model to understand strategic alignment in academic libraries.

Πριορ Ελιχιτατιον ιν Μυλτιπλε Χηανγε ποιντ Μοδελσ

Κορεα ηασ εξπεριενχεδ δραστιχ χηανγεσ σινχε τηε χυρρενχψ χρισισ οχχυρρεδ ιν τηε λατε Τηε βιγ χοµπανιεσ(χηαεβολσ) ανδ βανκσ ωηιχη ηαϖε λονγ βεεν

Chemical speciation of selected metals in groundwater using geochemical model

Kent Academic Repository

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

ΧΗΨ1Α. Γενεραλ Χερτιφιχατε οφ Σεχονδαρψ Εδυχατιον Σπεχιµεν Παπερ. Υνιτ 1α Χηεµιστρψ (Προδυχτσ φροµ Ροχκσ) ΧΗΕΜΙΣΤΡΨ. ατε ανδ Τιµε

P.A. (2008) 43 (2) ISSN

Discussion Paper No. 295 The High/Low Divide: Self- Selection by Values in Auction Choice. Radosveta Ivanova-Stenzel* Timothy C.

RESPONSE OF THE HUMAN PELVIS-FEMUR-KNEE COMPLEX DURING LOW SPEED FRONTAL IMPACT. C. Masson, H. Vinel, C. Cavallero, C. Brunet

(2004) 218 (4) ISSN

Αππενδιξ Α: ΧΣΑ Χονσενσυσ Ασσεσσmεντσ Ινιτιατιϖε Θυεστιονναιρε ϖ3.0.1

This is a repository copy of Inferred vs stated attribute non-attendance in choice experiments: a study of doctors' prescription behaviour.

Σπραψ Αππλιεδ Ριγιδ Πολψυρετηανε Φοαµ Ινσυλατιον, Μεδιυµ ενσιτψ

(2009) : 20 (8) ISSN

Νο Ροχκετσ, Νο Ροβοτσ: Λοω Τεχη Ενγινεερινγ Δεσιγν Εδυχατιον ωιτη Χρεδιβιλιτψ ανδ Συχχεσσ

J.K. (2007) A 45 (4) ISSN

On the Expenditure-Dependence of Children's Resource Shares

This is a repository copy of Revisiting inflation in the euro area allowing for long memory.

Kent Academic Repository

White Rose Research Online URL for this paper:

CERIAS Tech Report

Discussion Paper No. 325 Heterogeneous Contestants and Effort Provision in Tournaments - an Empirical Investigation with Professional Sports Data

(2010) : 17 (5) ISSN

This is a repository copy of The effect of FOMC votes on financial markets.

This is a repository copy of An experimental study of the flow induced by the motion of a hinged door separating two rooms.

The Nottingham eprints service makes this work by researchers of the University of Nottingham available open access under the following conditions.

! # %& () +,. /! ! 5 5 0! # ( & (# # 9 % 3 )

This is a repository copy of Parental and Child Time Investments and the Cognitive Development of Adolescents.

This is a repository copy of Can competition reduce quality?. White Rose Research Online URL for this paper:

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

This is an electronic reprint of the original article. This reprint may differ from the original in pagination and typographic detail.

(2008) 264 (9-10) ISSN

(University established u/s 3 of UGC Act 1956) PHYSICS, CHEMISTRY & MATHEMATICS.

A New Gen IT Infrastructure

ΦΟΡΕΩΟΡ. Ροβερτ Χ. Μαρτιν

derivation of the Laplacian from rectangular to spherical coordinates

PLANNING SERVICES WEEKLY REPORT. No Week ending 30th October The attached Weekly Report incorporates the following sections:

PLANNING SERVICES WEEKLY REPORT. No Week ending 14th August The attached Weekly Report incorporates the following sections:

Copyright is owned by the Author of the thesis. Permission is given for a copy to be downloaded by an individual for the purpose of research and

Transcript:

Anagnostou, N.K. and Weir, G.R.S. (2006) Review of software applications for deriving collocations. In: ICT in the Analysis, Teaching and Learning of Languages, Preprints of the ICTATLL Workshop 2006, 2006-08-21-2006-08-22., This version is available at https://strathprints.strath.ac.uk/2383/ Strathprints is designed to allow users to access the research output of the University of Strathclyde. Unless otherwise explicitly stated on the manuscript, Copyright and Moral Rights for the papers on this site are retained by the individual authors and/or other copyright owners. Please check the manuscript for details of any other licences that may have been applied. You may not engage in further distribution of the material for any profitmaking activities or any commercial gain. You may freely distribute both the url (https://strathprints.strath.ac.uk/) and the content of this paper for research or private study, educational, or not-for-profit purposes without prior permission or charge. Any correspondence concerning this service should be sent to the Strathprints administrator: strathprints@strath.ac.uk The Strathprints institutional repository (https://strathprints.strath.ac.uk) is a digital archive of University of Strathclyde research outputs. It has been developed to disseminate open access research outputs, expose data about those outputs, and enable the management and persistent access to Strathclyde's intellectual output.

Review of software applications for deriving collocations Nikolaos K Anagnostou and George R S Weir Department of Computer and Information Sciences University of Strathclyde Glasgow G1 1XH 1. Introduction Τηε φιελδ οφ χολλοχατιον εξτραχτιον ηασ ενϕοψεδ χονσιδεραβλε γροωτη ανδ ϖιταλιτψ φροm τηε 1990σ ονωαρδσ. Ουρ ρεσεαρχη υνχοϖερεδ α mυλτιτυδε οφ σοφτωαρε προγραmσ τηατ χαν δεριϖε χολλοχατιονσ φροm τεξτυαλ δατα, βυτ αλσο ιντροδυχεδ τηε φολλοωινγ θυεστιον: Wηιχη ονε ισ τηε mοστ φιττινγ φορ τηε τασκ οφ εξτραχτινγ χολλοχατιονσ φροm α χορπυσ? Τηισ παπερ αττεmπτσ το ανσωερ τηε πρεϖιουσ θυεστιον. Wε σταρτ βψ στατινγ τηε χριτερια ον ωηιχη ωε βασεδ ουρ ϕυδγεmεντ οφ τηε σοφτωαρε αππλιχατιονσ ινχλυδεδ ιν ουρ ρεϖιεω. Wε τηεν mοϖε ον το γιϖε α βριεφ δεσχριπτιον οφ εαχη παχκαγε, ιν τερmσ οφ ιτσ φυνχτιονσ, mεριτσ ανδ δεmεριτσ. Wε χονχλυδε βψ στατινγ ωηιχη οφ τηε παχκαγεσ ωασ δεεmεδ, αχχορδινγ το ουρ οπινιον, τηε mοστ αππροπριατε φορ ουρ πυρποσεσ ανδ προϖιδε α συmmαρψ ταβλε οφ τηε ρεσυλτσ οφ τηε σοφτωαρε ρεϖιεω. 2. Criteria used for the review Το ιδεντιφψ τηε mοστ ρελεϖαντ τοολ, ωε χοmπιλεδ α λιστ οφ χριτερια το ηελπ υσ ιν τηε σελεχτιον ανδ χονδυχτεδ α mινι σοφτωαρε ρεϖιεω. Wε εξαmινεδ φουρ σοφτωαρε παχκαγεσ ανδ εϖαλυατεδ τηεm βασεδ ον τηε φολλοωινγ φιϖε χριτερια: 1. Capacity to extract collocations without keywords: Μανψ προγραmσ ιmπλεmεντ ωηατ Εϖερτ (2004, π. 27) χαλλσ α διρεχτιοναλ ϖιεω οφ χολλοχατιονσ. Ιν τηισ αππροαχη, α κεψωορδ ηασ το βε ινιτιαλλψ σπεχιφιεδ ιν ορδερ φορ τηε προγραm το ιδεντιφψ ιτσ χολλοχατεσ. Ουρ αιm ισ διφφερεντ; ουρ φοχυσ ισ νοτ ον τηε χολλοχατεσ οφ α σπεχιφιχ ωορδ, βυτ ον τηε χολλοχατιονσ οφ α χορπυσ ασ α ωηολε; εξτραχτινγ ασ mανψ ασ ποσσιβλε ισ εσσεντιαλ. Ασ α ρεσυλτ, τηισ χριτεριον ηασ τηε γρεατεστ σιγνιφιχανχε ανδ ιτσ ινχλυσιον ιν τηε λιστ ωασ mανδατορψ. 2. Measures of association: Τηε οπτιον οφ χηοοσινγ βετωεεν σεϖεραλ ασσοχιατιον mεασυρεσ αλλοωσ φορ φλεξιβιλιτψ ωηεν εξτραχτινγ χολλοχατιονσ ανδ ρυννινγ χοmπαρατιϖε εϖαλυατιον τεστσ. Αλσο, τηε mεασυρε τηατ ωασ φουνδ το βε τηε mοστ ροβυστ ανδ αχχυρατε φορ χολλοχατιον ιδεντιφιχατιον ωασ Λογ λικελιηοοδ. Φορ τηεσε ρεασονσ, τηε ινχλυσιον οφ Λογ λικελιηοοδ, αχχοmπανιεδ βψ τηε συππορτ οφ mυλτιπλε ασσοχιατιον mεασυρεσ, χονστιτυτεσ α mεανινγφυλ σελεχτιον χριτεριον. 3. Capacity to handle XML files: Τοδαψ, mοστ χορπορα αρε αννοτατεδ ανδ φορ τηισ ρεασον χοmε ιν ΞΜΛ ινστεαδ οφ πλαιν τεξτ φορmατ, σινχε τηε φορmερ αλλοωσ φορ mεταδατα ενχοδινγ. Τηε χορπυσ υσεδ ιν τηισ προϕεχτ, τηε ΒΝΧ, ισ αλσο ιν ΞΜΛ φορmατ. Ιτ ισ αππαρεντ τηατ τηε χαπαχιτψ οφ α προγραm το mανιπυλατε χορπορα ιν συχη α φορmατ ισ αν εσσεντιαλ χριτεριον. 4. Capacity to extract multiword collocations: Εξτραχτινγ χολλοχατιονσ ωιτη mορε τηαν τωο ωορδσ ισ ονε οφ τηε ταργετσ οφ ουρ ρεσεαρχη ανδ χονσεθυεντλψ α ϖερψ σιγνιφιχαντ φαχτορ ιν τηε σελεχτιον προχεσσ. 5. Capacity to search/handle multiple files at the same time: Μοστ χορπορα αρε σαmπλε βασεδ, ι.ε. τηεψ χονσιστ οφ τεξτ σαmπλεσ οφ α χερταιν σιζε. Ιν ορδερ το δο λαργε σχαλε χολλοχατιον εξτραχτιον, α προγραm ηασ το βε αβλε το mανιπυλατε mανψ ορ πρεφεραβλψ αλλ τηε τεξτ σαmπλεσ φροm ωηιχη α χορπυσ χονσιστσ οφ. Το αχχουντ φορ τηισ νεεδ, ωε ινχλυδεδ τηισ φαχτορ ιν τηε ρεϖιεωινγ προχεσσ. 6. Presence of a Graphical User Interface (GUI): Ιτ ισ α τρυισm το σαψ τηατ τηε εασε οφ υσε οφ α πιεχε οφ σοφτωαρε ισ διρεχτλψ ρελατεδ το ωηετηερ ιτ ηασ α ΓΥΙ ορ νοτ. Ιτ αλλοωσ θυιχκ φαmιλιαρισατιον ωιτη α προγραm σ χαπαβιλιτιεσ ανδ ωορκινγ φαστ ανδ εφφεχτιϖελψ. Τηυσ, ιτ ισ αν ιmπορταντ σελεχτιον χριτεριον. 1

3. Software review Τηε προγραmσ ινχλυδεδ ιν τηε ρεϖιεω αρε: WορδΣmιτη Τοολσ 4 (WΣΤ 4), Χολλοχατε, Ξαιρα ανδ τηε Νγραm Στατιστιχσ Παχκαγε (ΝΣΠ). Τηε φιρστ τωο αρε χοmmερχιαλ σολυτιονσ; Ξαιρα ανδ τηε ΝΣΠ αρε οπεν σουρχε ανδ φρεεωαρε. WΣΤ 4, Χολλοχατε ανδ Ξαιρα ρυν ον Wινδοωσ πλατφορmσ, ανδ τηε ΝΣΠ ηασ βεεν δεσιγνεδ φορ Υνιξ ανδ Λινυξ πλατφορmσ, βυτ ισ κνοων το ρυν ον Wινδοωσ ασ ωελλ. Σοmε οφ τηεσε σοφτωαρε παχκαγεσ αρε φυλλψ φλεδγεδ χονχορδανχερσ 1, ωηιλε οτηερσ σπεχιαλισε σολελψ ον χολλοχατιον εξτραχτιον. Φορ δεmονστρατιον ανδ σελεχτιον πυρποσεσ, ωε περφορmεδ τωο τασκσ (ωηεν τηε αππλιχατιον ηαδ τηε χαπαχιτψ το δο σο): χολλοχατιον εξτραχτιον, βοτη γενεραλ ανδ κεψωορδ βασεδ; ανδ χονχορδανχινγ. Υνλεσσ εξπλιχιτλψ στατεδ οτηερωισε, τηε χορπυσ υσεδ φορ βοτη τασκσ ωασ τηε ΒΝΧ Βαβψ. Φιγυρεσ 1 8 προϖιδε σχρεεν σηοτσ οφ τηε παχκαγεσ ωε ινχλυδεδ ιν τηε σοφτωαρε ρεϖιεω. Ιτ αλσο ηασ το βε νοτεδ τηατ τηε αππλιχατιονσ ινχλυδεδ ηερε αρε βψ νο mεανσ τηε ονλψ ονεσ αϖαιλαβλε φορ χολλοχατιον εξτραχτιον. Οτηερ εξαmπλεσ οφ προγραmσ χαπαβλε οφ εξτραχτινγ χολλοχατιονσ αρε ΣΕΝΤΑ (βψ Γα λ Dιασ), Κολοκαχϕε (βψ Αλεκσανδερ Βυχζψ σκι), τηε Μυλτιλινγυαλ Χορπυσ Τοολκιτ (βψ Σχοττ Πιαο) ανδ τηε Υτιλιτιεσ φορ Χοοχχυρρενχε Στατιστιχσ (βψ Στεφαν Εϖερτ). Τηε ονλψ ρεασον φορ τηειρ εξχλυσιον ωασ σιmπλψ λαχκ οφ τιmε. 3.1 WordSmith Tools 4 Dεϖελοπεδ βψ Μικε Σχοττ, τηισ σοφτωαρε παχκαγε ισ πυβλισηεδ βψ τηε Οξφορδ Υνιϖερσιτψ Πρεσσ. Ιτ προϖιδεσ α ωιδε ρανγε οφ φυνχτιονσ ρελεϖαντ το χορπυσ λινγυιστιχσ ιν τηε φορm οφ αν αλλ ιν ονε συιτε. Τηε παχκαγε χοστσ αππροξιmατελψ 50 (ΥΣ 92 ορ 75) φορ α σινγλε υσερ λιχενχε ανδ 260 (ΥΣ 460, 376) φορ α 10 υσερ λιχενχε. WΣΤ 4 ισ ωιτηουτ δουβτ τηε mοστ ϖερσατιλε οφ τηε αππλιχατιονσ ινχλυδεδ ιν τηισ ρεϖιεω. Ιτσ φυνχτιονσ αρε γρουπεδ ιν τηρεε mαιν χατεγοριεσ: Χονχορδ, Κεψωορδσ ανδ Wορδλιστ. Ασ τηε ναmεσ οφ τηε χατεγοριεσ συγγεστ, τηε προγραm χαν χρεατε χονχορδανχεσ, περφορm κεψωορδ αναλψσεσ ανδ χοmπιλε ωορδ φρεθυενχψ λιστσ. Ανοτηερ νοταβλε φεατυρε οφ τηε προγραm ισ τηε WεβΓεττερ τοολ, ωηιχη αλλοωσ φορ ον τηε φλψ χρεατιον οφ χορπορα φροm τηε Ιντερνετ, βασεδ ον α νυmβερ οφ παραmετερσ, ινχλυδινγ λανγυαγεσ το βε χονσιδερεδ. Τηε παχκαγε ισ αχχοmπανιεδ βψ α τηορουγη ανδ ινφορmατιϖε mανυαλ. WΣΤ 4 ισ χαπαβλε οφ εξτραχτινγ χολλοχατιονσ, βοτη γενεραλ ανδ κεψωορδ βασεδ, ανδ ιmπλεmεντσ φουρ ασσοχιατιον mεασυρεσ το χοmπυτε τηεm, ναmελψ τηε ΜΙ, Ζ σχορε, ΜΙ3 (ι.ε. ΜΙ χυβεδ) ανδ Λογ λικελιηοοδ. Ιτ χαν αλσο ηανδλε mυλτιπλε φιλεσ ανδ συππορτσ ΞΜΛ, βυτ σηοωσ αν αφφινιτψ φορ πλαιν τεξτ φορmατσ. Σοmε οφ ιτσ δεmεριτσ ινχλυδε αν υνιντυιτιϖε ΓΥΙ, ωηιχη τακεσ α βιτ οφ τιmε το γετ υσεδ το, αλονγ ωιτη λαχκ οφ συππορτ φορ mυλτιωορδ χολλοχατιον εξτραχτιον ανδ ρεγυλαρ εξπρεσσιονσ, ωηιχη χαν βε ϖερψ υσεφυλ φορ εξτραχτινγ χολλοχατιονσ βασεδ ον σψνταχτιχ παττερνσ. Νο εϖαλυατιον ϖερσιονσ οφ WΣΤ 4 αρε πρεσεντλψ αϖαιλαβλε. Τηε σοφτωαρε χαν βε πυρχηασεδ διρεχτλψ φροm τηε ΟΥΠ ωεβσιτε (ηττπ://ωωω.ουπ.χο.υκ/επισβν/0 19 459400 9). 1 A software package capable of producing concordances, i.e. all the occurrences of a keyword in its context (KWIC) in a corpus. For readers interested in concordancing software, a core tool for corpus manipulation, Wiechmann and Fuhs (2006) provide an excellent and quite detailed review of ten of the most popular concordancers. We are indebted to the authors for providing a pre-draft version of their parer. 2

Figure 1. Using WST 4 to extract a list of two-word collocations. The figure depicts some of the collocations of take. Results ranked by the Log-likelihood measure. Figure 2. Using WST 4 to find the concordance of collocation 2. The results are sorted alphabetically, based on the first word on the right of the search word. 3.2 Collocate Dεϖελοπεδ βψ Μιχηαελ Βαρλοω, τηισ παχκαγε ισ πυβλισηεδ βψ Ατηελσταν. Ιτ σπεχιαλισεσ ιν χολλοχατιον εξτραχτιον ανδ χοστσ αππροξιmατελψ 24 (ΥΣ 45, 35) φορ α σινγλε υσερ λιχενχε ορ 185 (ΥΣ 350, 275) φορ α 15 υσερ λιχενχε. Χολλοχατε ισ α τοολ φοχυσεδ ον χολλοχατιον εξτραχτιον ανδ ιν τηισ φιελδ ιτ εξχελσ. Ιτσ τωο mαιν φυνχτιονσ αρε: Εξτραχτ ανδ Φυλλ Εξτραχτ. Τηεψ υσεδ φορ δεριϖινγ κεψωορδ βασεδ ανδ γενεραλ χολλοχατιονσ ρεσπεχτιϖελψ. Τηε παχκαγε προϖιδεσ σεϖεραλ οπτιονσ φορ χολλοχατιον ινϖεστιγατιον ινχλυδινγ ωορδ/πηρασε σεαρχη, ρεγυλαρ εξπρεσσιονσ ανδ ωορδ/ταγ σεαρχη. Ισ αλσο αλλοωσ φορ ν γραm εξτραχτιον (ν mαξ = 6) ανδ ιmπλεmεντσ τηρεε ασσοχιατιον mεασυρεσ, Τ σχορε, ΜΙ ανδ Λογ λικελιηοοδ, το δετερmινε τηειρ χολλοχατιον στρενγτη. 2 For this task we used the paper From corpus-based collocation frequencies to readability measure Anagnostou and Weir (the present volume). 3

Τηε αππλιχατιον ηασ αν εασψ το υσε ΓΥΙ, ωιτη αλλ τηε mαιν φυνχτιονσ αχχεσσιβλε φορ τηε mενυ τοολβαρ. Ιτ χαν mανιπυλατε mυλτιπλε φιλεσ ανδ ηασ γοοδ συππορτ φορ ΞΜΛ. Ον τηε δοωνσιδε, σινχε Χολλοχατε σπεχιαλισεσ ιν χολλοχατιον εξτραχτιον, ωε βελιεϖε τηατ ιτ σηουλδ ιmπλεmεντ mορε ασσοχιατιον mεασυρεσ. Νεϖερτηελεσσ, ιτ ισ α ωελλ ρουνδεδ, χαπαβλε ανδ υσερ φριενδλψ χολλοχατιον εξτραχτιον τοολ. Χολλοχατε χαν βε ορδερεδ φροm τηε ωεβ ανδ α δεmο ϖερσιον ισ αλσο αϖαιλαβλε (ηττπ://ατηελ.χοm/προδυχτ_ινφο.πηπ?προδυχτσ_ιδ=29&οσχσιδ=47α7029δβε235029εφ686δ7δβ90 δφ9δ2). Figure 3. Using Collocate to extract two-word collocations of energy. Results ranked by the Log-likelihood measure. Figure 4. Using Collocate for multiword collocation extraction. 4

3.3 Xaira Ξαιρα ωασ δεϖελοπεδ βψ Λου Βυρναρδ ανδ Τονψ Dοδδ, ανδ ισ διστριβυτεδ βψ τηε Ρεσεαρχη Τεχηνολογιεσ Σερϖιχε ατ Οξφορδ Υνιϖερσιτψ Χοmπυτινγ Σερϖιχεσ. Τηε παχκαγε ισ αϖαιλαβλε φορ φρεε, αλονγ ωιτη ιτσ σουρχε χοδε, ανδ ιτ ισ βυνδλεδ ωιτη τηε ΒΝΧ. Ξαιρα ισ ασ α γενεραλ πυρποσε ΞΜΛ σεαρχη ενγινε. Το σεαρχη α χορπυσ υσινγ Ξαιρα, τηε χορπυσ mυστ φιρστ βε ινδεξεδ. Τηεσε ινδεξεσ αρε χρεατεδ βψ α σεπαρατε προγραm χαλλεδ τηε Ξαιρα ινδεξερ. Τηε προγραm χαν γενερατε χονχορδανχεσ ανδ εξτραχτ χολλοχατιονσ, αλβειτ ονλψ κεψωορδ βασεδ ονεσ. Ιτ ιmπλεmεντσ ονλψ ονε ασσοχιατιον mεασυρε, τηε Ζ σχορε. Ξαιρα σ τρυε στρενγτη λιεσ ιν τηε ϖαριετψ οφ ωαψσ ιτ προϖιδεσ φορ σεαρχηινγ α χορπυσ. Α υσερ χαν σεαρχη φορ ωορδσ, παττερνσ (ι.ε. ρεγυλαρ εξπρεσσιονσ), σπεχιφιχ ΞΜΛ ταγσ ορ εϖεν ρυν θυεριεσ βασεδ ον ΞΘΛ, α λανγυαγε Ξαιρα υτιλισεσ το ιντερναλλψ ρεπρεσεντ θυεριεσ. Ξαιρα ηασ α θυιτε ωελλ οργανισεδ ΓΥΙ, βυτ τηε υσερ νεεδσ το σπενδ σοmε τιmε ρεαδινγ τηε ηελπ φιλε, το γετ αχχυστοmεδ το τηε προγραm σ ιδιοσψνχρασιεσ ανδ τηε σψνταξ οφ τηε ϖαριουσ σεαρχη τοολσ. Ασ εξπεχτεδ, τηε παχκαγε ηασ εξχελλεντ συππορτ φορ ΞΜΛ. Ιτ ηανδλεσ mυλτιπλε φιλεσ ινδιρεχτλψ, τηρουγη τηε ινιτιαλ ινδεξινγ προχεσσ. Ιν α νυτσηελλ, Ξαιρα ισ α ποωερφυλ τοολ φορ χορπυσ ιντερρογατιον βυτ νοτ φορ χολλοχατιον εξτραχτιον. Ξαιρα χαν βε δοωνλοαδεδ φροm Σουρχεφοργε, ατ τηε φολλοωινγ ΥΡΛ: ηττπ://σουρχεφοργε.νετ/προϕεχτ/σηοωφιλεσ.πηπ?γρουπ_ιδ=130289 Figure 5. Using Xaira to find the concordance of energy. 5

Figure 6. Using Xaira to find the collocates of energy. The words in the Node column are collocates of energy, in a (-1,+1) collocational window. 3.4 Ngram Statistics Package Τηισ σοφτωαρε παχκαγε ισ α χολλαβορατιϖε εφφορτ, ωιτη τηε mαιν δεϖελοπερσ βεινγ Τεδ Πεδερσεν ανδ Σατανϕεεϖ Βανερϕεε 3. Τηε παχκαγε ισ οπεν σουρχε, προγραmmεδ ιν Περλ ανδ χαν βε δεσχριβεδ ασ α συιτε οφ προγραmσ φορ ν γραm αναλψσισ οφ τεξτ φιλεσ. Τηε ΝΣΠ χονσιστσ οφ τωο mαιν προγραmσ: χουντ.πλ ανδ στατιστιχσ.πλ. Τηε φιρστ προγραm τακεσ ασ ινπυτ τεξτ φιλεσ ανδ προδυχεσ α λιστ οφ ν γραmσ οχχυρρινγ ιν τηεσε φιλεσ. Τηε σεχονδ προγραm τακεσ ασ ινπυτ τηε αφορεmεντιονεδ ν γραm λιστ ανδ ρυνσ αν ασσοχιατιον mεασυρε σελεχτεδ βψ τηε υσερ, ιν ορδερ το δετερmινε ωηιχη οφ τηε ν γραmσ χαν βε χονσιδερεδ ασ χολλοχατιονσ. Ουτ οφ αλλ τηε προγραmσ ινχλυδεδ ιν τηισ ρεϖιεω, τηε ΝΣΠ ιmπλεmεντσ τηε λαργεστ χολλεχτιον οφ ασσοχιατιον mεασυρεσ. Εξαmπλεσ ινχλυδε Λογ λικελιηοοδ, ΜΙ (τρυε ανδ ποιντωισε), Ποισσον Στιρλινγ, Ξ 2, Τ σχορε ανδ mορε 4. Τηε παχκαγε ισ α τοολ σπεχιαλισινγ ιν mυλτιωορδ χολλοχατιον εξτραχτιον ανδ τηυσ ηασ νο συππορτ φορ κεψωορδ βασεδ εξτραχτιον ορ ανψ οφ τηε αδδιτιοναλ χηαραχτεριστιχσ φουνδ ιν τηε πρεϖιουσλψ ρεϖιεωεδ παχκαγεσ. Φιναλλψ, τηε ΝΣΠ προϖιδεσ στρονγ συππορτ φορ ρεγυλαρ εξπρεσσιονσ.. Τηε ΝΣΠ σ φυνχτιονσ αρε αχχεσσεδ τηρουγη α χοmmανδ λινε ιντερφαχε, ωιτη νο ΓΥΙ ιν πλαχε. Χονσεθυεντλψ, φορ υσερσ νοτ αχχυστοmεδ το α χοmmανδ προmπτ, ιτ ισ τηε mοστ διφφιχυλτ το υσε φροm τηε παχκαγεσ ρεϖιεωεδ ηερε. Ιτ χαν προχεσσ mυλτιπλε φιλεσ σιmυλτανεουσλψ, ωιτη τηε ρεστριχτιον οφ αλλ οφ τηεm βεινγ ιν τηε σαmε διρεχτορψ. Αλσο, τηε παχκαγε χαννοτ υνδερστανδ ΞΜΛ ανδ τηε ν γραm λιστσ ιτ προδυχεσ αρε σαϖεδ ιν α ηαζψ φορmατ. Αλλ ιν αλλ, ιν τηε χονφινεσ οφ τηισ σοφτωαρε ρεϖιεω, τηε ΝΣΠ ισ τηε mοστ χαπαβλε τοολ φορ mυλτιωορδ χολλοχατιον εξτραχτιον, αλβειτ α βιτ υνωιελδψ. Τηε ΝΣΠ ισ αϖαιλαβλε φορ δοωνλοαδ ατ τηε φολλοωινγ ΥΡΛ: ηττπ://νγραm.σουρχεφοργε.νετ/ 3 See http://www.d.umn.edu/~tpederse/nsp.html for the full team. 4 See final table for the full range of association measures implemented by the NSP. 6

Figure 7. List of some of the available command line arguments for the statistic.pl utility of the NSP 5. Figure 8. Examples of usage for the statistic.pl utility. The first command creates a list of bigrams ranked by Log-likelihood ratios. It includes only those with scores of 6.00 or better among bigrams that occur more 3 or more times. The second command creates a list of the top 1000 bigrams as ranked by the Log-likelihood ratio. The file bigram.cnt is the input (created with the count.pl utility) and the files colloc.ll, colloc_rank.ll are the outputs for each command respectively. 3. Results of the software review Ταβλε 1 συmmαρισεσ τηε ρεσυλτσ οφ τηισ σοφτωαρε ρεϖιεω. Ουτ οφ τηε φουρ παχκαγεσ ινχλυδεδ ηερε, τηρεε ωερε χαπαβλε οφ εξτραχτινγ χολλοχατιονσ ωιτηουτ κεψωορδσ, ωηιχη στανδσ ασ ουρ mοστ ιmπορταντ σελεχτιον χριτεριον. Εαχη οφ τηεσε ηασ ιτσ αδϖανταγεσ ανδ δισαδϖανταγεσ. WορδΣmιτη Τοολσ ισ τηε βεστ ρουνδεδ τοολ, οφφερινγ α ωεαλτη οφ φυνχτιονσ φορ χορπυσ ινϖεστιγατιον, βυτ χαννοτ εξτραχτ mυλτιωορδ χολλοχατιονσ. Τηε Νγραm Στατιστιχσ Παχκαγε ισ χαπαβλε οφ δοινγ τηισ ανδ αλσο ηασ τηε λαργεστ χολλεχτιον οφ ασσοχιατιον mεασυρεσ, βυτ λαχκσ συππορτ φορ ΞΜΛ ανδ προδυχεσ χλυττερεδ ρεσυλτσ. Χολλοχατε ισ τηε ονλψ παχκαγε τηατ mεετσ αλλ οφ ουρ σελεχτιον χριτερια, βυτ ηασ α σmαλλ χολλεχτιον οφ ασσοχιατιον mεασυρεσ. Βασεδ ον τηεσε ρεσυλτσ, ωε δεχιδεδ τηατ, ατ ουρ πρεσεντ σταγε οφ ρεσεαρχη, τηε αππλιχατιον mοστ αππροπριατε φορ ουρ πυρποσεσ ισ Χολλοχατε. Wε δο ηαϖε το στατε τηουγη τηατ σηουλδ α ωορκ αρουνδ οφ ΝΣΠ σ δραωβαχκσ βε φουνδ, ωε αρε ρεαδψ το ρεχονσιδερ. 5 We ran the utility using Cygwin emulation (a Linux-like environment in Windows). 7

Table 1. Summary of the software review. Software Packages Wordsmith Tools 4 ( = Yes, = No) Capacity to extract collocations without keywords Measures of association Capacity to handle xml files Criteria Capacity to extract multiword collocations Capacity to handle multiple files at the same time Presence of a Graphical User Interface (GUI) MI, Log-likelihood, MI3, Z-score Collocate MI, Log-likelihood, T-score 6 Xaira Z-score Ngram Statistics Package Log-likelihood, MI (true and pointwise), Poisson Stirling, X 2, T- score, Phi, Dice, Jaccard, Fisher s exact tests (left, right, two-tailed), Odds ratio 6 For collocations longer than two words, Collocate uses the MI association measure or the cost criterion (Kita et al., 1994). 8

4. Conclusion Τηισ παπερ δεσχριβεδ τηε σοφτωαρε ρεϖιεω ωε χονδυχτεδ, ιν ορδερ το φινδ τηε mοστ αππροπριατε παχκαγε φορ χολλοχατιον εξτραχτιον. Wε τριεδ, ωιτηιν τηε αϖαιλαβλε τιmε λιmιτσ, το υνϖειλ τηε ποτεντιαλ οφ φουρ τοολσ ιδεντιφιεδ ασ ποσσιβλε χανδιδατεσ φορ τηε τασκ αβοϖε. Το δο τηισ, ωε δεφινεδ α λιστ οφ σιξ χριτερια, σπεχιφιχαλλψ ταιλορεδ το τηε νεεδσ οφ ουρ ρεσεαρχη. Χονσεθυεντλψ, ωε δισρεγαρδεδ οτηερ φαχτορσ χοmmονλψ ινχλυδεδ ιν σοφτωαρε ρεϖιεωσ λικε σπεεδ οφ εξεχυτιον, ρεσουρχε mαναγεmεντ ισσυεσ, σορτινγ ανδ δισπλαψ χαπαβιλιτιεσ ετχ., χονσιδερινγ τηεm το βε οφ λεσσερ ιmπορτανχε. Τηε αππλιχατιονσ ωερε ϕυδγεδ αλονγ τηεσε χριτερια ανδ α βριεφ δεσχριπτιον οφ εαχη προγραm σ φυνχτιονσ, στρονγ ανδ ωεακ ποιντσ ωασ γιϖεν. Τηε πρεσεντ ρεϖιεω σηοωεδ τηατ τηε παχκαγε τηατ στανδσ ουτ mοστ στρονγλψ ισ Χολλοχατε, χλοσελψ φολλοωεδ βψ τηε ΝΣΠ. References Anagnostou, N. and Weir, G. R. S. (2006). Φροm χορπυσ βασεδ χολλοχατιον φρεθυενχιεσ το ρεαδαβιλιτψ mεασυρε, τηισ ϖολυmε. Evert, S. (2004). Τηε Στατιστιχσ οφ Wορδ Χοοχχυρρενχεσ (Wορδ Παιρσ ανδ Χολλοχατιονσ). Πη. D. δισσερτατιον, Υνιϖερσιτατ Στυττγαρτ. Pedersen, T. and Banerjee, S. (2003). Τηε Dεσιγν, Ιmπλεmεντατιον ανδ Υσε οφ τηε Νγραm Στατιστιχσ Παχκαγε. Ιν Προχεεδινγσ οφ τηε 4τη Ιντερνατιοναλ Χονφερενχε ον Ιντελλιγεντ Τεξτ Προχεσσινγ ανδ Χοmπυτατιοναλ Λινγυιστιχσ. Μεξιχο Χιτψ. Wiechmann, D. and Fuhs, S. (2006) Χονχορδανχε Σοφτωαρε. Χορπυσ Λινγυιστιχσ ανδ Λινγυιστιχσ Τηεορψ 2 1, 109 130 9