COLFI: a corpus of Spanish movies and tv series

Authors

Abstract

To date, film and television corpora have been developed exclusively for English and Italian. Spanish, by contrast, lacks comparable corpora, and major existing corpora have not incorporated this type of material. To fill this gap, Corpus oral de coloquialidad ficticia (COLFI) has been developed, consisting of transcriptions of Spanish films and television series produced from the 1950s to the present day. This article outlines the key aspects of COLFI’s design and composition. It begins by addressing preliminary issues such as legal requirements, the corpus title, and the content of the files. It then details the criteria applied in selecting the audiovisual works. Subsequently, it describes the metadata sheets for both the works and the characters, as well as the transcription system. The article concludes with reflections on the scope and limitations of the corpus.

Keywords

Corpus, Films, TV series, Communicative immediacy, Colloquial, Fiction

References

ALVAREZ-PEREYRE, Michael (2011): «Using film as linguistic specimen: Theoretical and practical issues», en Roberta Piazza, Monika Bednarek y Fabio Rossi (eds.), Telecinematic Discourse: Approaches to the Language of Films and Television Series. Amsterdam: John Benjamins (Pragmatics & Beyond New Series 211), pp. 47–67.

AMERESCO = Marta Albelda Marco, María Estellés Arguedas (eds.) (2010-): AMERESCO. América y España. Español coloquial. https://esvaratenuacion.es/ameresco.

ANDROUTSOPOULOS, Jannis (2012): «Introduction: Language and society in cinematic discourse», Multilingua, 31, 2-3, pp. 139-154.

BEDNAREK, Monika A. (2010): The Language of Fictional Television: Drama and Identity. London: Continuum.

BEDNAREK, Monika A. (2023): Language and Characterisation in Television Series. A corpus-informed approach to the construction of social identity in the media. Amsterdam/Philadelphia: John Benjamins Publishing Company.

BERTOLOTTI, Virginia, Concepción COMPANY (2024): «Corpus históricos del español. Avances y tareas pendientes». Studia linguistica romanica, 12, pp. 1-17. https://doi.org/10.25364/19.2024.12.1.

BRIZ GÓMEZ, Antonio (1998): El español coloquial en la conversación. Esbozo de pragmagramática. Barcelona: Ariel.

BRIZ GÓMEZ, Antonio (2010): «El registro como centro de la variedad situacional. Esbozo de la propuesta del grupo Val.Es.Co. sobre las variedades diafásicas», en Irene Fonte Zarabozo y Lidia Rodríguez Alfano (eds.), Perspectivas dialógicas en estudios del lenguaje. México: Editorial de la Universidad Autónoma Metropolitana-Iztapalapa, pp. 21-54.

BRIZ GÓMEZ, Antonio (2022): «Tres hipótesis explicativas del cambio dialectal: el caso del habla de la comarca de Requena-Utiel (Valencia, España)», en Carmen Díaz (ed.), Studia philologica in honorem José Antonio Samper. Madrid: Arco-Libros, pp. 173-184.

BRIZ GÓMEZ, Antonio y Marta Albelda Marco (2009): «Estado actual de los corpus de lengua española hablada y escrita: I+D», en Instituto Cervantes (ed.), El español en el mundo: anuario del Instituto Cervantes. Madrid: Instituto Cervantes, pp. 165-226.

BRIZ, Antonio y Andrea CARCELÉN GUERRERO (2019): «El futuro iberoamericano del español: la investigación del español oral y en español», en Instituto Cervantes (ed.), El español en el mundo: anuario del Instituto Cervantes. Madrid: Instituto Cervantes, pp. 189-217.

BRUMME, Jenny (2008a): La oralidad fingida: obras literarias: descripción y traducción. Madrid: Iberoamericana/Francfort del Meno.

BRUMME, Jenny (2008b): La oralidad fingida: descripción y traducción. Teatro, cómic y medios audiovisuales. Madrid: Iberoamericana/Francfort del Meno.

BUBLITZ, Wolfram (2017): «Oral features in fiction», en Miriam A. Locher y Andreas H. Jucker (eds.), Pragmatics of Fiction. Berlin: De Gruyter, pp. 235–264.

CAES = Guillermo Rojo, Ignacio Palacios (eds.) (2022): Corpus de aprendices de español L2. http://galvan.usc.es/caes.

CALDERÓN CAMPOS, Miguel y Gael VAAMONDE DOS SANTOS, G. (2020): «Oralia diacrónica del español: un nuevo corpus de la edad moderna», Scriptum Digital, 9, pp. 167–189. https://doi.org/10.5565/rev/scriptum.108

CANO AGUILAR, Rafael (2012): «Diálogo y oralidad ficticia en las Crónicas medievales», en Victoria Béguelin-Argimón, Gabriela Cardone y Mariela de la Torre (eds.), En pos de la palabra viva: huellas de la oralidad en textos antiguos. Estudios en honor al profesor Rolf Eberenz. Bern: Peter Lang. pp. 351-370.

CARCELÉN, A. y G. UCLÉS (2019): «Diseño y construcción de un corpus oral multidialectal. El corpus Ameresco», Normas, 9, pp. 17-36. doi: https://doi.org/10.7203/Normas.v9i1.16007

CdE = Mark Davies (ed.) (2016): Corpus del español. https://www.corpusdelespanol.org/.

CDH = Instituto de Investigación Rafael Lapesa de la Real Academia Española: Corpus del Nuevo diccionario histórico. https://apps.rae.es/CNDHE/view

CHARTA = Pedro SÁNCHEZ-PRIETO BORJA (ed.) (2011-): Corpus hispánico y americano en la red. https://www.redcharta.es.

CHIERICHETTI, Luisa (2024): «Patria, del guion a la serie: la oralidad representada y escenificada en la reescritura telecinemática», Artifara, 24.2., pp. 221-238.

CODEA+ 2022 = Pedro SÁNCHEZ-PRIETO BORJA (ed.) (2022): CODEA+ 2022. Corpus de documentos españoles anteriores a 1900. https://www.corpuscodea.es.

COLA = Annette Myre Jørgensen (ed.) (2023): Corpus oral de lenguaje adolescente. https://blogg.hiof.no/colam-esp.

C-ORAL-ROM= CRESTI, E. y MONEGLIA, M. (eds.) (2005): CORAL-ROM Integrated Reference Corpora for Spoken Romance Languages. Amsterdam, John Benjamins.

CORDIAM = Concepción Company Company, Virginia Bertolotti (eds.) (2016-): Corpus diacrónico y diatópico del español de América. https://www.cordiam.org/.

CorDisDial = Santiago Del Rey Quesada (ed.) (en preparación): Corpus del discurso dialógico en la historia de las lenguas romances. Universidad de Sevilla.

CORLEC= Marcos Marín, F. (dir.): Corpus Oral de Referencia de la Lengua Española Contemporánea. http://www.lllf.uam.es/ESP/Corlec.html.

CORMA= Enghels, Renata, Fien De Latte, Linde Roels, Nele Van Den Driessche, María Elena Azofra Sierra (2024): El Corpus Oral de Madrid (CORMA). Gante: Universidad de Gante.

CORPES XXI = Real Academia Española (ed.) (2023-): Corpus del español del siglo XXI. https://www.rae.es/corpes/.

COSER = Fernández-Ordóñez, Inés (ed.) (2005-): Corpus oral y sonoro del español rural. http://www.corpusrural.es.

COUPLAND, Nikolas, Jacob THØGERSEN y Janus MORTENSEN (2016): «Introduction: Style, media and language ideologies», en Jacob Thøgersen, Nikolas Coupland y Janus Mortensen (eds.), Style, Media and Language Ideologies. Oslo: Novus Press, pp. 11–49.

COVJA= AZORÍN, Dolores (2002) (ed.): Corpus del español hablado en Alicante. Alicante: Publicaciones de la Universidad de Alicante.

CREA = Real Academia Española (ed.) (2008): Corpus de referencia del español actual. https://corpus.rae.es/creanet.html.

CULPEPER, Jonathan (2001): Language and Characterisation: People in Plays and other Texts. London: Longman Pearson Education.

DEL REY QUESADA, Santiago (2019): «Variantes de la oralidad elaborada en la segunda mitad del siglo XIX: dos traducciones coetáneas de Los cautivos de Plauto», Oralia 22(2), pp. 283-326.

DEL REY QUESADA, Santiago y Elena CARMONA YANES (2024): «Los corpus digitales en el proyecto DiacOralEs», Studia linguistica romanica, 12, pp. 86-106. https://doi.org/10.25364/19.2024.12.5.

DYNEL, Marta (2011): «”You talking to me?” The viewer as a ratified listener to film discourse», Journal of Pragmatics, 43(6), pp. 1628–44.

ESLORA = Vázquez Rozas, Victoria (ed.) (2007-): Corpus para el estudio del español oral. http://eslora.usc.es.

GANCEDO RUIZ, Marta (2022): «De nuevo, reflexiones metodológicas sobre el empleo del teatro como corpus para los estudios de pragmática histórica», SOPRAG, 10 (1), pp. 70-88.

GARCÍA AGUILAR, Alberto (2018): «El cochecito, de Rafael Azcona: El guion cinematográfico como obra literaria», Revista Latente, 16, pp. 83-95.

GONZÁLEZ GOSÁLBEZ, Rafael (2016): Actores españoles en primera persona: el oficio de cómico en sus testimonios. Tesis Doctoral. Alacant: Universitat d’Alacant.

HUERTA FLORIANO, Miguel Ángel (2012): «Contexto cinematográfico del tardofranquismo: síntesis de las cualidades estético-narrativas (1966-1975)», en Miguel Ángel Huerta Floriano y Ernesto Pérez Morán, El cine de barrio tardofranquista. Reflejo de una sociedad. Madrid: Biblioteca Nueva, pp. 33-40.

HUERTA FLORIANO, Miguel Ángel y Ernesto PÉREZ MORÁN (eds.) (2012): El «cine de barrio» tardofranquista. Reflejo de una sociedad. Madrid: Biblioteca Nueva.

HumCor= Repede, Doina (2024-): Corpus Oral Multimodal de Humor en Español. https://humcor.snlt.es/

HumText= Repede, Doina (2024-): Corpus de humor escrito. https://humtext.snlt.es/

JUCKER, Andreas H. (2021): «Features of orality in the language of fiction: A corpus-based investigation», Language and Literature: International Journal of Stylistics, 30(4), pp. 341–60.

JUCKER, Andreas y Daniela LANDERT (2023): «The diachrony of im/politeness in American and British movies (1930–2019)», Journal of Pragmatics, 209, pp. 123–141. https://doi.org/10.1016/j.pragma.2023.02.020.

KAILUWEIT, Rolf y Steffien DOMINIQUE (2023): «Acomodación fonética en conversaciones entre protagonistas argentinxs y españoles en las películas Truman (2015) y Bar «El Chino» (2003)», en Rolf Kailuweit, Sandra Schlumpf, Eva Staudinger (eds.), Migración, pluricentrismo y acomodación: nuevas perspectivas desde la lengua española. Freiburg: Nomos, pp. 251-277.

KAILUWEIT, Rolf (2015): «Voces de inmigrantes. La literaricidad potenciada de Roberto Arlt», en Rolf Kailuweit, Volker Jaeckel y Ángela di Tullio (eds.), Roberto Arlt y el lenguaje literario argentino. Madrid/Frankfurt am Main: Iberoamericana/Vervuert, pp. 87–102.

KOCH, Peter y Wulf Oesterreicher ([1990] 2007): Lengua hablada en la Romania: español, francés, italiano. Madrid: Gredos (Biblioteca Románica Hispánica, Estudios y ensayos, 448). [Versión española de Araceli López Serena del original alemán Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch. Tübingen: Max Niemeyer, 1990].

KOZLOFF, Sarah (2000): Overhearing Film Dialogue. Berkeley: University of California Press.

LLOPIS CARDONA, Ana (2024): «Culturas juveniles, contracultura y procesos de difusión en el español coloquial: reflexiones previas y contribuciones», Spanish in Context, 21, 1-22.

LLOPIS CARDONA, Ana y Marlies JANSEGERS (2024): «Del rollo como sustantivo comodín contracultural al rollo aproximador en el español coloquial actual», Spanish in Context, 21, 159-189.

LLOPIS CARDONA, Ana y Salvador PONS BORDERÍA (2024): «Fases y factores socioculturales en la difusión de tío/tía como vocativos: “juvenilización” del español coloquial actual», Spanish in Context, 21, 23-50.

LLOPIS CARDONA, Ana (2025): «La reconfiguración de la expresión del acuerdo en el registro coloquial en la segunda mitad del siglo XX», en Andrzej Zieliński y Silvia Iglesias Recuero (eds.), Estudios de (des)cortesía verbal en la historia del español: actos de habla, modulación del discurso y formas de tratamiento. Wilmington: Vernon Press, pp. 121 - 155.

LÓPEZ SERENA, Araceli (2007a): Oralidad y escrituralidad en la recreación literaria del español coloquial. Madrid: Gredos.

LÓPEZ SERENA, Araceli (2007ba): «El concepto de ‘español coloquial’: vacilación terminológica e indefinición del objeto de estudio», Oralia. Análisis del discurso oral, 10, pp. 161-191.

LÓPEZ SERENA, Araceli (2022): «Discursividad y mímesis de la oralidad en Paquita Salas. Tras las huellas de la improvisación dialógica en la ficción televisiva contemporánea», en Víctor Pérez Béjar y María Méndez Orense (eds.), Perspectivas integradas para el análisis de la oralidad. Sevilla: Editorial Universidad de Sevilla, pp. 57-84.

LÓPEZ SERENA, Araceli (2024): «La modelización de la situación comunicativa en la teorización sobre la variación lingüística», Círculo de Lingüística Aplicada a la Comunicación, 97, pp. 1-14. https://dx.doi.org/10.5209/clac.93487

MANCERA RUEDA, Ana (2009): «La oralidad simulada en la narrativa contemporánea», Verba, 36, pp. 419-436.

MARTÍNEZ, Josu (2023): «El euskera en el cine de los años 80: entre la falta de apoyo, la falta de realismo y la condena de la diglosia», Zer 28(55), pp. 241-265.

MC ENERY, Tony y Andrew WILSON (1996): Corpus linguistics. Edinburgh: Edinburgh University Press.

MORENO FERNÁNDEZ, Francisco (2022): «De Hollywood a Netflix. Las variedades del Español en el cine y la televisión», en Instituto Cervantes (ed.), Nuevo mundo. El impacto del audiovisual en la difusión internacional de la lengua y de la cultura en español, pp. 349-386.

ODE = Calderón Campos, Miguel, María T. García Godoy (2019-): Oralia diacrónica del español. http://corpora.ugr.es/ode.

OESTERREICHER, Wulf (1996): «Lo hablado en lo escrito. Reflexiones metodológicas y aproximación a una tipología»”, en Thomas Kotschi, Wulf Oesterreicher y Klaus Zimmermann (eds.), El español hablado y la cultural oral en España e Hispanoamérica. Frankfurt am Main: Iberoamericana Vervuert, pp. 317-340.

PCFD= Pavesi, Maria et al. (2005- ): Pavia Corpus of Film Dialogue. Pavia: Universidad de Pavia.

PÉREZ BÉJAR, Víctor y María MÉNDEZ ORENSE (eds.) (2022): Perspectivas integradas para el análisis de la oralidad. Sevilla: Editorial Universidad de Sevilla.

PLANCHENAULT, Gaëlle. (2017): «Doing dialects in dialogues: Regional, social and ethnic variation in fiction», en Miriam A. Locher y Andreas H. Jucker (eds.), Pragmatics of Fiction. Berlin: De Gruyter Mouton, pp. 265-296.

POLLAROLO, Giovanna (2011): «El guion cinematográfico, ¿texto literario?», Lexis, 35 (1), pp. 289-318.

PONS BORDERÍA, Salvador (2023): «Del corpus Val.Es.Co. 3.0 a los futuros corpus diacrónicos orales: perspectivas de futuro», Scriptum Digital, 12, pp. 39-53.

Post Scriptum = Centro de lingüística da Universidade de Lisboa (ed.) (2014): Post Scriptum. Archivo digital de escritura cotidiana en Portugal y España en la Edad moderna. http://teitok.clul.ul.pt/postscriptum/index.php.

PRESEEA = Moreno Fernández, Francisco, Ana Cestero Mancera (eds.). Proyecto para el estudio sociolingüístico del español de España y de América. https://preseea.uah.es.

PUSCH, Claus (en prensa): «Les interrogatives dans l’oralité fictionnelle médiatisée. Une analyse de données du français québécois»

QUAGLIO, Paulo (2009): Television dialogue: The sitcom Friends vs. natural conversation. Amsterdam/Philadelphia: John Benjamins.

Real Decreto 1591/2010, de 26 de noviembre, por el que se aprueba la Clasificación Nacional de Ocupaciones 2011. Boletín Oficial del Estado, n.º 306, 10 de diciembre de 2010.

Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el texto refundido de la Ley de Propiedad Intelectual, regularizando, aclarando y armonizando las disposiciones legales vigentes sobre la materia. Boletín Oficial del Estado, n.º 97, 22 de abril de 1996.

RIAMBAU, Esteve (2023): «El periodo socialista (1982-1992)», en Roman Gubern et al., Historia del cine español. Madrid: Cátedra, pp. 399-454.

RICHARDSON, Kay (2010): Television Dramatic Dialogue. A Sociolinguistic Study. Oxford: Oxford University Press.

ROJO, Guillermo (2024): «El futuro de los corpus de referencia», Studia linguistica romanica, 12, pp. 18-33. https://doi.org/10.25364/19.2024.12.2.

ROSSI, Fabio (2011): «Discourse analysis of film dialogues: Italian comedy between linguistic realism and pragmatic non-realism», en Roberta Piazza, Monika Bednarek and Fabio Rossi (eds.), Telecinematic Discourse: Approaches to the Language of Films and Television Series. Amsterdam: John Benjamins, pp. 21-46.

SABANÉS, Diego (2022): «Elogio de lo imperfecto. Berlanga y Azcona hablan sobre la comedia, la confusión de los géneros y la sociedad española», Factoría del guion, https://factoriadelguion.es/elogio-de-lo-imperfecto/

SÁNCHEZ NORIEGA, José Luis (2002): Historia del Cine. Teoría y géneros cinematográficos, fotografía y televisión. Madrid: Alianza editorial.

SÁNCHEZ-ESCALONILLA, Antonio (2016): Del guion a la pantalla: lenguaje visual para guionistas y directores de cine. Barcelona: Ariel.

STADLER, Jane y Kelly MCWILLIAM (2009): Screen media. Analysing film and television. New York: Routledge.

SydTV= Bednarek, Monika (2018-): Sydney Corpus of Television Dialogue. https://www.syd-tv.com/

TOVAR, Julio (2022): «Entrevista a Fernando Colomo “El único problema de rodar es el guion”», Jot Down Cultural Marazin, https://www.jotdown.es/2022/01/fernando-colomo/

TV Corpus/Movies Corpus= Davies, Mark (2021-): TV Corpus/Movies Corpus. https://www.english-corpora.org/

Val.Es.Co. = BRIZ, Antonio y Grupo Val.Es.Co. (2002): Corpus de conversaciones coloquiales. Madrid: Arco Libros.

Val.Es.Co. 3.0. = Grupo Val.Es.Co. (ed.) (2024): Corpus Val.Es.Co. 3.0. http://www.valesco.es.

Published

19-12-2025

How to Cite

Llopis Cardona, A. (2025). COLFI: a corpus of Spanish movies and tv series. Scriptum Digital, 14, 145–176. https://doi.org/10.5565/rev/scriptum.148

Downloads

Download data is not yet available.

Funding data