Spanish corpora from a linguist user perspective

Authors

  • Carlota de Benito Moreno Universidad de Zúrich (Switzerland)

Abstract

This work compares the most important corpora of Spanish (Biblia Medieval, Post Scriptum, CORDE, CREA, CDH, CORDIAM, Corpus del Español, CODEA+ 2015, COSER, PRESEEA, ESLORA, CORPES XXI and Val.Es.Co) with regard to their web interface, addressing two main aspects: the search tool and the access provided to both concordances and texts. The comparison takes the perspective of researchers who are both linguists and users of these corpora, with the goal of proposing future ways.

Keywords

Electronic Corpus Design, User interface, Tidy data, Manual annotation

References

ANTHONY, Laurence (2015): «A Critical Look at Software Tools in Corpus Linguistics», Linguistic Research, 30, 2, pp. 141–161. https://doi.org/10.17250/khisli.30.2.201308.001

BARCALA, Mario, Eva DOMÍNGUEZ, Alba FERNÁNDEZ, Raquel RIVAS, María Paula SANTALLA, Victoria VÁZQUEZ y Rebeca VILLAPOL (2018): «El corpus ESLORA de español oral: diseño, desarrollo y explotación», CHIMERA: Romance Corpora And Linguistic Studies, 5, 2, pp. 217-237. doi:http://dx.doi.org/10.15366/chimera2018.5.2.003

DE BENITO MORENO, Carlota, F. Javier PUEYO MENA e Inés FERNÁNDEZ-ORDÓÑEZ (2016): «Creating and designing a corpus of rural Spanish», en Procceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), pp. 78-83.

BERTOLOTTI, Virginia y Concepción COMPANY COMPANY (2014): «El corpus diacrónico y diatópico del español de América (CORDIAM). Propuesta de tipología textual», Cuadernos del ALFAL, 6, pp. 130-148.

BIBER, Douglas y Randi REPPEN (eds.) (2012): Corpus Linguistics. London: SAGE Publications.

CRAWFORD, William J. y Eniko CSOMAY (2016): Doing Corpus Linguistics. New York/London: Routledge.

DAVIES, Mark (2002): «Un corpus anotado de 100.000.000 palabras del español histórico y moderno», Procesamiento del Lenguaje Natural, 29, pp. 21-27.

DAVIES, Mark (2009): «Creating Useful Historical Corpora: a Comparison of CORDE, the Corpus del Español and the Corpus do Português», en Andrés Enrique-Arias (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 137–166.

ENRIQUE-ARIAS, Andrés (2016). «Ventajas e inconvenientes del uso de Biblia medieval (un corpus paralelo y alineado de textos bíblicos) para la investigación en lingüística histórica del español» en Andrés Enrique-Arias (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 269–284.

KILGARRIFF, Adam y Iztok KOSEM (2013): «Corpus Tools for Lexicographers», Electronic Lexicography, pp. 1–37. https://doi.org/10.1093/acprof:oso/9780199654864.003.0003

KÜBLER, Sandra y Heike ZINSMEISTER (2015): Corpus Linguistics and Linguistically Annotated Corpora. London: Bloomsbury Academic.

LE ROUX, Joseph, Benoît SAGOT y Djamé SEDDAH (2012): «Statistical Parsing of Spanish and Data Driven Lemmatization», en ACL 2012 Joint Workshop on Statistical Parsing and Semantic Processing of Morphologically Rich Languages. Jeju, pp. 56-61.

LÜDELING, Anke y Merja KYTÖ (2008): Corpus linguistics: An international handbook. Berlin: De Gruyter.

MAMBRINI, Francesco, Marco PASSAROTTI y Caroline SPORLEDER (eds.) (2011): «Annotation of Corpora for Research in the Humanities», Journal for Language Technology and Computational Linguistics, 26.

MIGUEL FRANCO, Ruth y Pedro SÁNCHEZ-PRIETO BORJA (2016): «CODEA: A “Primary” Corpus of Spanish Historical Documents», Variants, 12-13, pp. 211-230.

MORENO FERNÁNDEZ, Francisco (2005): «Corpus para el estudio del español en su variación geográfica y social. El corpus PRESEEA», Oralia, 8, pp. 123–140.

O'KEEFFE, Anne y Michael MCCARTHY (2010): The Routledge Handbook of Corpus Linguistics. London: Routledge.

PADRÓ, Lluís, Miquel COLLADO, Samuel REESE, Marina LLOBERES e Irene CASTELLÓN (2010): «FreeLing 2.1: Five years of open-source language processing tools», en Proceedings of the 7th International Conference on Language Resources and Evaluation, pp. 931–936.

REPPEN, Randi (2010): «Building a Corpus. What Are the Key Considerations?», en Anne O’Keeffe y Michael McCarthy (eds.), The Routledge Handbook of Corpus Linguistics. New York: Routledge, pp. 31–37.

RODRÍGUEZ MOLINA, Javier y Álvaro OCTAVIO DE TOLEDO Y HUERTA (2017): «La imprescindible distinción entre texto y testimonio: el CORDE y los criterios de fiabilidad lingüística», Scriptum Digital, 6, 5-68.

ROJO, Guillermo (2016): «Citius, maius, melius: del CREA al CORPES XXI», en Johannes Kabatek (ed.), Lingüística de corpus y lingüística histórica iberorrománica. Berlin/Boston: De Gruyter, pp. 197–212.

SMITH, Nicholas, Sebastian HOFFMANN y Paul RAYSON (2008): «Corpus Tools and Methods, Today and Tomorrow: Incorporating Linguists’ Manual Annotations», Literary and Linguistic Computing, 23, 2, pp. 163–180. https://doi.org/10.1093/llc/fqn004

STRAKA, Milan, Jan HAJIČ y Jana STRAKOVÁ (2016): «UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing», en Proceedings of LREC 2016, pp. 4290–4297.

STULIC-ETCHEVERS, Ana y Soufiane ROUISSI (2009): «Pensando un corpus en modo colaborativo: hacia el prototipo del corpus judeoespañol digital», en Andrés Enrique-Arias (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 117–134.

TORRUELLA, Joan (2016): «Tres propuestas en el ámbito de la lingüística de corpus», en Johannes Kabatek (ed.), Lingüística de corpus y lingüística histórica iberorrománica. Berlín/Boston: De Gruyter, pp. 90-112.

TORRUELLA, Joan y Joaquim LLISTERRI (1999): «Diseño de corpus textuales y orales», en José Manuel Blecua, Gloria Clavería, Carlos Sánchez y Joan Torruella (eds.), Filología e Informática. Nuevas Tecnologías En Los Estudios Lingüísticos. Barcelona: Milenio, pp. 45–77.

VAAMONDE, Gael (2018): «Escritura epistolar, edición digital y anotación de corpus», Cuadernos del Instituto Historia de la Lengua, 11, pp. 139-164.

VELA DELFA, Cristina y Lucía CANTAMUTTO (2015): «Problemas de recogida y fijación de muestras del discurso digital», CHIMERA. Romance Corpora and Linguistic Studies, 2, pp. 131–155.

Published

15-10-2019

Downloads

Download data is not yet available.