Oralia diacrónica del español: a new corpus of the modern age

Authors

  • Miguel Calderón Campos Universidad de Granada (Spain)
  • Gael Vaamonde Dos Santos Universidad de Granada (Spain)

Abstract

Almost two decades after the appearance of big historical corpora, accessing large databases in a quick and easy way has already become part of the standard methodology. However, in recent years a more demanding approach has been imposed, which has led to the construction of smaller specialized historical corpora (Enrique-Arias 2009; Kabatek 2016).  This article presents the corpus Oralia diacrónica del español (ODE), composed of inventories of goods, witness statements and surgeons’ certifications. Regarding the methodology, transcriptions of unpublished manuscripts have been processed on the TEITOK platform (Janssen 2016), which is specially designed to tokenize, standardize and annotate texts in the XML-TEI format. The final result is a product that combines the digital edition, the facsimile image and the linguistically annotated corpus, making ODE, as such, a useful electronic resource for palaeographers, philologists, linguists and historians.

Keywords

Electronic corpus design, 16th-19th centuries, Corpus annotation, Historical dialectology, XML-TEI

References

ARIAS ÁLVAREZ, Beatriz y Juan Antonio HERNÁNDEZ MENDOZA (2013): «Importancia de la incorporación de los parámetros diastráticos y diafásicos en la elaboración del corpus electrónico del español colonial mexicano», Scriptum Digital, 2, pp. 5-20. http://www.scriptumdigital.org/documents/01_Arias_y_Hernndez_DEF_Wok.pdf [Consulta: 19/10/2020].

ARRABAL RODRÍGUEZ, Pilar (en prep.): Variación morfológica y corpus lingüístico: los diminutivos -ico, -ito, -illo en la provincia de Almería (ss. XVIII y XIX). Granada: Universidad de Granada. Tesis Doctoral dirigida por Miguel Calderón Campos.

BARON, Alistair, Paul RAYSON y Dawn ARCHER (2009): «Word frequency and key word statistics in historical corpus linguistics», Anglistik: International Journal of English Studies, 20, 1, pp. 41-67.

BLANCHE-BENVENISTE, Claire (1994): «The construct of oral and written language: Theoretical issues and educational implications», en Ludo Verhoeven (ed.), Functional Literacy. Amsterdam: John Benjamins, pp. 61-74.

BURNARD, Lou (2014): «Introduction», en What is the Text Encoding Initiative? How to add intelligent markup to digital resources [en línea]. Marseille: OpenEdition Press. http://books.openedition.org/oep/679 ISBN: 9782821834606. DOI: https://doi.org/10.4000/books.oep.679 [Consulta: 08/10/2020].

CALDERÓN CAMPOS, Miguel (2015): El español del reino de Granada en sus documentos (1492-1833). Oralidad y escritura. Berna: Peter Lang (Fondo Hispánico de Lingüística y Filología, 22).

CALDERÓN CAMPOS, Miguel (2018): «Las declaraciones de esencia del siglo XVIII: un tipo textual para el estudio de la terminología anatómica», Dynamis, 38, 2, pp. 427-452.

CALDERÓN CAMPOS, Miguel (2019): «La configuración de la variedad meridional en el reino de Granada», en Eugenio Bustos Gisbert y Juan P. Sánchez Méndez (eds.), La configuración histórica de las normas del castellano. Valencia: Tirant Humanidades (Diachronica Hispanica), pp. 109-134.

CED = A Corpus of English Dialogues (1560-1760), 2006. Compilado bajo la supervisión de Merja Kytö (Universidad de Uppsala) y Jonathan Culpeper (Universidad de Lancaster). https://cqpweb.lancs.ac.uk/ [Consulta: 19/10/2020].

CEEC = Corpus of Early English Correspondence (1410-1681) https://www.helsinki.fi/en/researchgroups/varieng/corpus-of-early-english-correspondence [Consulta: 19/10/2020].

CHARTA = Red CHARTA: Corpus Hispánico y Americano en la Red: Textos Antiguos. https://www.redcharta.es/ [Consulta: 19/10/2020].

Cíbola Project = Proyecto dirigido por Jerry Craddock en que se editan documentos relacionados a la exploración y la conquista del Suroeste hispano de los Estados Unidos en la época colonial (siglos XVI-XVIII). https://escholarship.org/uc/rcrs_ias_ucb_cibola [Consulta: 19/10/2020].

CODEA = Corpus de Documentos Españoles Anteriores a 1700. www.textoshispanicos.es [Consulta: 19/10/2020].

CODEA+ 2015 = GITHE (Grupo de Investigación Textos para la Historia del Español): Corpus de documentos españoles anteriores a 1800. http://corpuscodea.es/ [Consulta: 19/10/2020].

CODEA+ 2020 = GITHE (Grupo de Investigación Textos para la Historia del Español):Corpus de Documentos Españoles Anteriores a 1900. http://textoshispanicos.es/index.php?title=Corpus_de_documentos_espa%C3%B1oles_anteriores_a_1900_(CODEA%2B_2020),_FFI1017-82770-P [Consulta: 19/10/2020].

CORDEREGRA = Corpus diacrónico del español del Reino de Granada (1492-1833) http://corpora.ugr.es/ode/ [Consulta: 19/10/2020].

COREECOM = Grupo de Estudio del Español Colonial Mexicano (GEECOM): Banco de datos Corpus Electrónico del Español Colonial Mexicano. Beatriz Arias Álvarez (coord.), México: IIFL-UNAM (Instituto de Investigaciones Filológicas, Universidad Nacional Autónoma de México) http://www.iifilologicas.unam.mx/coreecom/ DOI: 10.19130/coreecom.clh.2019 [Consulta: 19/10/2020].

CorLexIn = MORALA RODRÍGUEZ, José Ramón (dir.), Corpus Léxico de Inventarios (CorLexIn), http://web.frl.es/CORLEXIN.html [Consulta: 16/09/2020].

CULPEPER, Jonathan y Merja KYTÖ (2010): Early Modern English Dialogues: Spoken Interaction as Writing. Cambridge: Cambridge University Press.

DEJ (2016) = REAL ACADEMIA ESPAÑOLA (2016): Diccionario del español jurídico. https://dej.rae.es/ [Consulta: 26/3/2020].

DI TULLIO, Ángela y Gabriela RESNIK (2019): «Diario de un soldado: una fuente para la reconstrucción de la oralidad rioplatense del siglo XIX», comunicación presentada en Documentos y monumentos para la historia de la lengua española. VI Congreso de la Red Internacional CHARTA, Sevilla, 11/08/2019.

EGIDO, Mª. Cristina (2019): «La variación diatópica: un reto para el estudio de la Morfosintaxis histórica del español», en Viorica Codita y Marcela de la Torre (eds.), Tendencias y perspectivas en el estudio de la morfosintaxis histórica hispanoamerica. Madrid/Fráncfort: Iberoamericana/Vervuert (Lingüística Iberoamericana, 76), pp. 127-151.

EGIDO, Mª. Cristina (en este volumen): «Variación diatópica en documentos notariales del s. XVII: asturleonés y aragonés», en Miriam Bouzouita y Antoine Primerano (eds.), Actas del V Congreso Internacional de Corpus Diacrónicos en Lenguas Iberorrománicas (CoDiLI5). Scriptum Digital, 8, pp.].

ENRIQUE-ARIAS, Andrés (coord.) (2009): Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus. Madrid/Fráncfort: Iberoamericana/Vervuert.

FERNÁNDEZ ALCAIDE, Marta (2009): Cartas de particulares en Indias del siglo XVI: edición y estudio discursivo. Madrid/Fráncfort: Iberoamericana/Vervuert.

FONTANELLA DE WEINBERG, Beatriz (1992): «La evolución de los usos americanos de segunda persona singular», Lingüística, 4, pp. 7-25.

JANSSEN, Maarten (2012): «NeoTag: A POS Tagger for Grammatical Neologism Detection», en Proceedings of the 8th Language Resources and Evaluation Conference (LREC 2012) ELRA. Estambul, Turquía, mayo de 2012, pp. 2118-2124.

JANSSEN, Maarten (2014): TEITOK – a Tokenized TEI environment. http://www.teitok.org/ [Consulta: 27/03/2020].

JANSSEN, Maarten (2016): «TEITOK: Text-Faithful Annotated Corpora», en Proceedings of the 10th Language Resources and Evaluation Conference (LREC 2016) ELRA. Portoroz, Eslovenia, mayo de 2016, pp. 4037-4043.

KABATEK, Johannes (ed.) (2016): Lingüística de corpus y lingüística histórica iberorrománica. Berlín: De Gruyter.

LEECH, Geoffrey y Andrew WILSON (1996): Recommendations for the Morphosyntactic Annotation of Corpora. EAGLES Document EAG-TCWG-MAC/R, marzo de 1996. http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html [Consulta: 26/3/2020].

LÓPEZ-COUSO, María José (2016): «Corpora and online resources in English historical linguistics», en Merja Kytö y Päivi Pahta (eds.), The Cambridge Handbook of English Historical Linguistics, Cambridge: Cambridge University Press, pp. 127-145.

MARQUILHAS, Rita (1998): «Mãos inábeis nos arquivos da Inquisicão. Fontes para o estudo fonológico de português do século XVII», en Dieter Kremer (ed.), Homenaxe a Ramón Lorenzo, III. Vigo: Galaxia, pp. 761-767.

MORALA, José Ramón (2012): «Léxico e inventarios de bienes en los Siglos de Oro», en Gloria Clavería Nadal, Margarita Freixas, Marta Prat Sabater y Joan Torruella (eds.), Historia del léxico: perspectivas de investigación, Madrid/Fráncfort: Iberoamericana/Vervuert, pp. 199-218.

MORALA, José Ramón (2018): «El proyecto CorLexIn y la variación diatópica en el léxico del Siglo de Oro», en Dolores Corbella Díaz, Alejandro Fajardo Aguirre y Jutta Langenbacher-Liebgott (eds.), Historia del léxico español y Humanidades digitales, Berlín: Peter Lang, pp. 397-417.

MORALA, José Ramón y Hermógenes PERDIGUERO (2019): «La isoglosa de la aspiración de /f/ en el siglo XVII», en Mónica Castillo Lluch y Elena Díez del Corral Areta (eds.), Reescribiendo la historia de la lengua española a partir de la edición de documentos, Berna: Peter Lang, pp. 175-199.

OCTAVIO DE TOLEDO Y HUERTA, Álvaro y Lola PONS RODRÍGUEZ (2017): Textos para la historia del español: queja política y escritura epistolar durante la Guerra de la Independencia: documentación de la Junta Suprema Central en el AHN. Selección, edición y estudio lingüístico. Alcalá de Henares: Universidad de Alcalá de Henares.

ODE = CALDERÓN CAMPOS, Miguel y María Teresa GARCÍA-GODOY (2010-2019): Oralia Diacrónica del Español (ODE). http://corpora.ugr.es/ode [Consulta: 19/10/2020].

Old Bailey Corpus = MAGNUS HUBER, Magnus Nissel y Karin PUGA (2016). Old Bailey Corpus 2.0. hdl:11858/00-246C-0000-0023-8CFB-2 [Consulta: 19/10/2020].

PÉREZ TORAL, Marta (2017): «¿Escribo como hablo? Variaciones gráficas en el vocalismo tónico en documentos del XVII», Revista Española de Lingüística, 47, 2, pp. 49-69.

P.S. Post Scriptum = CLUL (ed.). 2014. P.S. Post Scriptum. Arquivo Digital de Escrita Quotidiana em Portugal e Espanha na Época Moderna. http://ps.clul.ul.pt [Consulta: 19/10/2020].

RAUMOLIN-BRUNBERG, Helena y Terttu NEVALAINEN (2007): «Historical Sociolinguistics: The Corpus of Early English Correspondence», en Joan C. Beal, Karen P. Corrigan y Hermann C. Moisl (eds.), Creating and Digitizing Language Corpora: Diachronic Databases, vol. 2, Houndmills: Palgrave, pp. 148-171.

RODRÍGUEZ PUENTE, Paula (2018): «En busca de lo hablado en lo escrito en los corpus diacrónicos del español: una comparativa con los corpus anglosajones», E-Scripta Romanica, 5, pp. 89-127.

SÁNCHEZ-MARCO, Cristina, Josep Maria FONTANA y Judith DOMINGO (2012): «Anotación automática de textos diacrónicos del español», en Emilio Montero Cartelle y Carmen Manzano Rovira (coords.), Actas del VIII Congreso Internacional de Historia de la Lengua Española. Vol. 2, Santiago de Compostela: Asociación de la Historia de la Lengua Española, pp. 1709-1720.

SÁNCHEZ-PRIETO BORJA, Pedro, y Delfina VÁZQUEZ BALONGA (2017): «Hacia un corpus de beneficencia en Madrid (siglos XVI-XIX)», Scriptum Digital, 6, pp. 83-103. http://www.scriptumdigital.org/documents/06_SD06_03_SanchezPrieto_VazquezBalonga.pdf [Consulta: 19/10/2020].

SÁNCHEZ-PRIETO BORJA, Pedro y Delfina VÁZQUEZ BALONGA (2019): La beneficencia madrileña. Lengua y discurso en los documentos de los siglos XVI al XIX. Madrid: Ediciones Complutense.

RIVADENEIRA, Marcela (en prensa), «Tratamientos nominales en la Relación autobiográfica de Úrsula Suárez (1666-1749)», Rilce: Revista de Filología Hispánica.

VAAMONDE, Gael (2015): «P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana», Procesamiento del Lenguaje Natural, 55, pp. 57-64.

VAAMONDE, Gael (2018a): «Escritura epistolar, edición digital y anotación de corpus», Cuadernos del Instituto Historia de la Lengua, 11, pp. 139-164.

VAAMONDE, Gael (2018b): «La multidisciplinariedad en la creación de corpus históricos. El caso de Post Scriptum», Artnodes, 22, pp. 118-127.

Published

15-10-2020

Downloads

Download data is not yet available.