El "Old Spanish Textual Archive", diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical

Autores

  • Francisco Gago Jover College of the Holy Cross (USA)
  • Francisco Javier Pueyo Mena College of the Holy Cross (USA)

Resumo

Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de  Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.

Palavras-chave

diseño de corpus electrónicos, anotación de corpus, corpus digitalizado del castellano antiguo, español medieval

Referências

CARRERAS, Xavier, Isaac CHAO, Lluís PADRÓ y Muntsa PADRÓ (2004): «FreeLing: An Open-Source Suite of Language Analyzers», Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04). [En línea] <http://nlp.lsi.upc.edu/publications/papers/carreras04.pdf>

CHARTA (2013): Criterios de edición de documentos hispánicos (Orígenes-siglo XIX) de la red internacional CHARTA. [En línea] <http://www.redcharta.es/criterios-de-edicion>

GAGO JOVER, Francisco (2015): «La Biblioteca Digital de Textos del Español Antiguo (BiDTEA)», Scriptum Digital, 4, pp. 5-36.

GAGO JOVER, Francisco (1997): «Diccionario de términos militares del castellano medieval», Doctoral Dissertation. University of Wisconsin-Madison.

HERRERA, María Teresa, et al. (1996): Diccionario español de textos médicos antiguos. 2 vols. Madrid: Arco/Libros.

KASTEN, Lloyd A. y John J. NITTI (2002): Diccionario de la prosa castellana del Rey Alfonso X. New York: Hispanic Seminary of Medieval Studies.

MACKENZIE, David (1977): A manual of manuscript transcription for the Dictionary of the Old Spanish Language. Madison: Hispanic Seminary of Medieval Studies.

MACKENZIE, David y Ray HARRIS-NORTHALL (1997): A manual of manuscript transcription for the Dictionary of the Old Spanish Language. 5.ª edición. Madison: Hispanic Seminary of Medieval Studies. [En línea] <http://hispanicseminary.org/manual-es.htm>

NITTI, John (1978): «Computers and the Old Spanish Dictionary», Computers and the Humanities, 12, pp. 43-52.

PADRÓ, Lluís y Evgeny STANILOVSKY (2012): «FreeLing 3.0: Towards Wider Multilinguality», Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. Istanbul, Turkey. May. [En línea] <http://nlp.lsi.upc.edu/publications/papers/padro12.pdf>

PADRÓ, Lluís (2011): «Analizadores Multilingües en FreeLing», Linguamatica, 3.2, pp. 13-20. [En línea] <http://nlp.lsi.upc.edu/publications/papers/padro11.pdf>

SÁNCHEZ, María Nieves (2000): Diccionario español de documentos alfonsíes. Madrid: Arco/Libros.

SÁNCHEZ-MARCO, Cristina, Gemma BOLEDA, y Lluís PADRÓ (2011): «Extending the tool, or how to annotate historical language varieties», Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pp. 1-9, Portland, OR, USA, 24 June 2011. [En línea] <http://nlp.lsi.upc.edu/papers/sanchezmarco11.pdf>

Publicado

15-10-2018

Downloads

Não há dados estatísticos.