El "Old Spanish Textual Archive", diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical
Resumo
Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.
Palavras-chave
diseño de corpus electrónicos, anotación de corpus, corpus digitalizado del castellano antiguo, español medievalReferências
CARRERAS, Xavier, Isaac CHAO, Lluís PADRÓ y Muntsa PADRÓ (2004): «FreeLing: An Open-Source Suite of Language Analyzers», Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04). [En línea] <http://nlp.lsi.upc.edu/publications/papers/carreras04.pdf>
CHARTA (2013): Criterios de edición de documentos hispánicos (Orígenes-siglo XIX) de la red internacional CHARTA. [En línea] <http://www.redcharta.es/criterios-de-edicion>
GAGO JOVER, Francisco (2015): «La Biblioteca Digital de Textos del Español Antiguo (BiDTEA)», Scriptum Digital, 4, pp. 5-36.
GAGO JOVER, Francisco (1997): «Diccionario de términos militares del castellano medieval», Doctoral Dissertation. University of Wisconsin-Madison.
HERRERA, María Teresa, et al. (1996): Diccionario español de textos médicos antiguos. 2 vols. Madrid: Arco/Libros.
KASTEN, Lloyd A. y John J. NITTI (2002): Diccionario de la prosa castellana del Rey Alfonso X. New York: Hispanic Seminary of Medieval Studies.
MACKENZIE, David (1977): A manual of manuscript transcription for the Dictionary of the Old Spanish Language. Madison: Hispanic Seminary of Medieval Studies.
MACKENZIE, David y Ray HARRIS-NORTHALL (1997): A manual of manuscript transcription for the Dictionary of the Old Spanish Language. 5.ª edición. Madison: Hispanic Seminary of Medieval Studies. [En línea] <http://hispanicseminary.org/manual-es.htm>
NITTI, John (1978): «Computers and the Old Spanish Dictionary», Computers and the Humanities, 12, pp. 43-52.
PADRÓ, Lluís y Evgeny STANILOVSKY (2012): «FreeLing 3.0: Towards Wider Multilinguality», Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. Istanbul, Turkey. May. [En línea] <http://nlp.lsi.upc.edu/publications/papers/padro12.pdf>
PADRÓ, Lluís (2011): «Analizadores Multilingües en FreeLing», Linguamatica, 3.2, pp. 13-20. [En línea] <http://nlp.lsi.upc.edu/publications/papers/padro11.pdf>
SÁNCHEZ, María Nieves (2000): Diccionario español de documentos alfonsíes. Madrid: Arco/Libros.
SÁNCHEZ-MARCO, Cristina, Gemma BOLEDA, y Lluís PADRÓ (2011): «Extending the tool, or how to annotate historical language varieties», Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pp. 1-9, Portland, OR, USA, 24 June 2011. [En línea] <http://nlp.lsi.upc.edu/papers/sanchezmarco11.pdf>
Publicado
Downloads
Direitos de Autor (c) 2018 Francisco Gago Jover, Francisco Javier Pueyo Mena

Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição-CompartilhaIgual 4.0.