Los corpus del español desde la perspectiva del usuario lingüista
Resumo
En este trabajo se realiza una comparación de los corpus más importantes del español (Biblia Medieval, Post Scriptum, CORDE, CREA, CDH, CORDIAM, Corpus del Español, CODEA+ 2015, COSER, PRESEEA, ESLORA, CORPES XXI y Val.Es.Co) en lo que se refiere a su interfaz web, abordando dos aspectos fundamentales: la herramienta de búsqueda y el acceso a las concordancias y textos. La perspectiva adoptada es la del investigador lingüista y usuario de dichos corpus, con el objetivo de proponer caminos para el futuro.
Palavras-chave
diseño de corpus electrónicos, interfaz de usuario, datos ordenados, anotación manualReferências
ANTHONY, Laurence (2015): «A Critical Look at Software Tools in Corpus Linguistics», Linguistic Research, 30, 2, pp. 141–161. https://doi.org/10.17250/khisli.30.2.201308.001
BARCALA, Mario, Eva DOMÍNGUEZ, Alba FERNÁNDEZ, Raquel RIVAS, María Paula SANTALLA, Victoria VÁZQUEZ y Rebeca VILLAPOL (2018): «El corpus ESLORA de español oral: diseño, desarrollo y explotación», CHIMERA: Romance Corpora And Linguistic Studies, 5, 2, pp. 217-237. doi:http://dx.doi.org/10.15366/chimera2018.5.2.003
DE BENITO MORENO, Carlota, F. Javier PUEYO MENA e Inés FERNÁNDEZ-ORDÓÑEZ (2016): «Creating and designing a corpus of rural Spanish», en Procceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), pp. 78-83.
BERTOLOTTI, Virginia y Concepción COMPANY COMPANY (2014): «El corpus diacrónico y diatópico del español de América (CORDIAM). Propuesta de tipología textual», Cuadernos del ALFAL, 6, pp. 130-148.
BIBER, Douglas y Randi REPPEN (eds.) (2012): Corpus Linguistics. London: SAGE Publications.
CRAWFORD, William J. y Eniko CSOMAY (2016): Doing Corpus Linguistics. New York/London: Routledge.
DAVIES, Mark (2002): «Un corpus anotado de 100.000.000 palabras del español histórico y moderno», Procesamiento del Lenguaje Natural, 29, pp. 21-27.
DAVIES, Mark (2009): «Creating Useful Historical Corpora: a Comparison of CORDE, the Corpus del Español and the Corpus do Português», en Andrés Enrique-Arias (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 137–166.
ENRIQUE-ARIAS, Andrés (2016). «Ventajas e inconvenientes del uso de Biblia medieval (un corpus paralelo y alineado de textos bíblicos) para la investigación en lingüística histórica del español» en Andrés Enrique-Arias (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 269–284.
KILGARRIFF, Adam y Iztok KOSEM (2013): «Corpus Tools for Lexicographers», Electronic Lexicography, pp. 1–37. https://doi.org/10.1093/acprof:oso/9780199654864.003.0003
KÜBLER, Sandra y Heike ZINSMEISTER (2015): Corpus Linguistics and Linguistically Annotated Corpora. London: Bloomsbury Academic.
LE ROUX, Joseph, Benoît SAGOT y Djamé SEDDAH (2012): «Statistical Parsing of Spanish and Data Driven Lemmatization», en ACL 2012 Joint Workshop on Statistical Parsing and Semantic Processing of Morphologically Rich Languages. Jeju, pp. 56-61.
LÜDELING, Anke y Merja KYTÖ (2008): Corpus linguistics: An international handbook. Berlin: De Gruyter.
MAMBRINI, Francesco, Marco PASSAROTTI y Caroline SPORLEDER (eds.) (2011): «Annotation of Corpora for Research in the Humanities», Journal for Language Technology and Computational Linguistics, 26.
MIGUEL FRANCO, Ruth y Pedro SÁNCHEZ-PRIETO BORJA (2016): «CODEA: A “Primary” Corpus of Spanish Historical Documents», Variants, 12-13, pp. 211-230.
MORENO FERNÁNDEZ, Francisco (2005): «Corpus para el estudio del español en su variación geográfica y social. El corpus PRESEEA», Oralia, 8, pp. 123–140.
O'KEEFFE, Anne y Michael MCCARTHY (2010): The Routledge Handbook of Corpus Linguistics. London: Routledge.
PADRÓ, Lluís, Miquel COLLADO, Samuel REESE, Marina LLOBERES e Irene CASTELLÓN (2010): «FreeLing 2.1: Five years of open-source language processing tools», en Proceedings of the 7th International Conference on Language Resources and Evaluation, pp. 931–936.
REPPEN, Randi (2010): «Building a Corpus. What Are the Key Considerations?», en Anne O’Keeffe y Michael McCarthy (eds.), The Routledge Handbook of Corpus Linguistics. New York: Routledge, pp. 31–37.
RODRÍGUEZ MOLINA, Javier y Álvaro OCTAVIO DE TOLEDO Y HUERTA (2017): «La imprescindible distinción entre texto y testimonio: el CORDE y los criterios de fiabilidad lingüística», Scriptum Digital, 6, 5-68.
ROJO, Guillermo (2016): «Citius, maius, melius: del CREA al CORPES XXI», en Johannes Kabatek (ed.), Lingüística de corpus y lingüística histórica iberorrománica. Berlin/Boston: De Gruyter, pp. 197–212.
SMITH, Nicholas, Sebastian HOFFMANN y Paul RAYSON (2008): «Corpus Tools and Methods, Today and Tomorrow: Incorporating Linguists’ Manual Annotations», Literary and Linguistic Computing, 23, 2, pp. 163–180. https://doi.org/10.1093/llc/fqn004
STRAKA, Milan, Jan HAJIČ y Jana STRAKOVÁ (2016): «UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing», en Proceedings of LREC 2016, pp. 4290–4297.
STULIC-ETCHEVERS, Ana y Soufiane ROUISSI (2009): «Pensando un corpus en modo colaborativo: hacia el prototipo del corpus judeoespañol digital», en Andrés Enrique-Arias (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 117–134.
TORRUELLA, Joan (2016): «Tres propuestas en el ámbito de la lingüística de corpus», en Johannes Kabatek (ed.), Lingüística de corpus y lingüística histórica iberorrománica. Berlín/Boston: De Gruyter, pp. 90-112.
TORRUELLA, Joan y Joaquim LLISTERRI (1999): «Diseño de corpus textuales y orales», en José Manuel Blecua, Gloria Clavería, Carlos Sánchez y Joan Torruella (eds.), Filología e Informática. Nuevas Tecnologías En Los Estudios Lingüísticos. Barcelona: Milenio, pp. 45–77.
VAAMONDE, Gael (2018): «Escritura epistolar, edición digital y anotación de corpus», Cuadernos del Instituto Historia de la Lengua, 11, pp. 139-164.
VELA DELFA, Cristina y Lucía CANTAMUTTO (2015): «Problemas de recogida y fijación de muestras del discurso digital», CHIMERA. Romance Corpora and Linguistic Studies, 2, pp. 131–155.
Publicado
Downloads
Direitos de Autor (c) 2019 Carlota de Benito Moreno
Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição-CompartilhaIgual 4.0.