El "Old Spanish Textual Archive", diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical

Autores/as

  • Francisco Gago Jover College of the Holy Cross (USA)
  • Francisco Javier Pueyo Mena College of the Holy Cross (USA)

Resumen

Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de  Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.

Palabras clave

diseño de corpus electrónicos, anotación de corpus, corpus digitalizado del castellano antiguo, español medieval

Citas

CARRERAS, Xavier, Isaac CHAO, Lluís PADRÓ y Muntsa PADRÓ (2004): «FreeLing: An Open-Source Suite of Language Analyzers», Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04). [En línea] <http://nlp.lsi.upc.edu/publications/papers/carreras04.pdf>

CHARTA (2013): Criterios de edición de documentos hispánicos (Orígenes-siglo XIX) de la red internacional CHARTA. [En línea] <http://www.redcharta.es/criterios-de-edicion>

GAGO JOVER, Francisco (2015): «La Biblioteca Digital de Textos del Español Antiguo (BiDTEA)», Scriptum Digital, 4, pp. 5-36.

GAGO JOVER, Francisco (1997): «Diccionario de términos militares del castellano medieval», Doctoral Dissertation. University of Wisconsin-Madison.

HERRERA, María Teresa, et al. (1996): Diccionario español de textos médicos antiguos. 2 vols. Madrid: Arco/Libros.

KASTEN, Lloyd A. y John J. NITTI (2002): Diccionario de la prosa castellana del Rey Alfonso X. New York: Hispanic Seminary of Medieval Studies.

MACKENZIE, David (1977): A manual of manuscript transcription for the Dictionary of the Old Spanish Language. Madison: Hispanic Seminary of Medieval Studies.

MACKENZIE, David y Ray HARRIS-NORTHALL (1997): A manual of manuscript transcription for the Dictionary of the Old Spanish Language. 5.ª edición. Madison: Hispanic Seminary of Medieval Studies. [En línea] <http://hispanicseminary.org/manual-es.htm>

NITTI, John (1978): «Computers and the Old Spanish Dictionary», Computers and the Humanities, 12, pp. 43-52.

PADRÓ, Lluís y Evgeny STANILOVSKY (2012): «FreeLing 3.0: Towards Wider Multilinguality», Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. Istanbul, Turkey. May. [En línea] <http://nlp.lsi.upc.edu/publications/papers/padro12.pdf>

PADRÓ, Lluís (2011): «Analizadores Multilingües en FreeLing», Linguamatica, 3.2, pp. 13-20. [En línea] <http://nlp.lsi.upc.edu/publications/papers/padro11.pdf>

SÁNCHEZ, María Nieves (2000): Diccionario español de documentos alfonsíes. Madrid: Arco/Libros.

SÁNCHEZ-MARCO, Cristina, Gemma BOLEDA, y Lluís PADRÓ (2011): «Extending the tool, or how to annotate historical language varieties», Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pp. 1-9, Portland, OR, USA, 24 June 2011. [En línea] <http://nlp.lsi.upc.edu/papers/sanchezmarco11.pdf>

Publicado

15-10-2018

Descargas

Los datos de descargas todavía no están disponibles.