PDF of Uso de Corpus en Clase de Ele Wendy Elvira Garcia Full Chapter Ebook
PDF of Uso de Corpus en Clase de Ele Wendy Elvira Garcia Full Chapter Ebook
PDF of Uso de Corpus en Clase de Ele Wendy Elvira Garcia Full Chapter Ebook
Elvira García
Visit to download the full and correct content document:
https://ebookstep.com/product/uso-de-corpus-en-clase-de-ele-wendy-elvira-garcia/
More products digital (pdf, epub, mobi) instant
download maybe you interests ...
https://ebookstep.com/product/agencia-ele-1-libro-de-clase-nueva-
edicion-1st-edition-manuela-gil-toresano-berges-jose-amenos-pons-
ines-soria-pastor/
https://ebookstep.com/product/guide-du-corpus-des-connaissances-
en-management-de-projet-pmbok-guide-project-management-institute/
https://ebookstep.com/product/ninos-heroes-de-la-guerra-del-
pacifico-elvira-valenzuela/
Le Standard pour le management de projet et Guide du
Corpus des connaissances en management de projet Guide
PMBOK Seventh Edition Project Management Institute
https://ebookstep.com/product/le-standard-pour-le-management-de-
projet-et-guide-du-corpus-des-connaissances-en-management-de-
projet-guide-pmbok-seventh-edition-project-management-institute/
https://ebookstep.com/product/sirvienta-empleada-trabajadora-de-
hogar-genero-clase-e-identidad-en-el-franquismo-y-la-transicion-
a-traves-del-servicio-domestico-1939-1995-eider-de-dios-
fernandez/
https://ebookstep.com/product/la-restauration-du-monastere-saint-
martin-de-tournai-corpus-christianorum-in-translation-32-1st-
edition-heriman-de-tournai/
https://ebookstep.com/product/nudos-en-uso-nudos-curvas-
enganches-azotes-y-empalmes-4th-edition-colin-jarman/
https://ebookstep.com/product/antenas-da-floresta-a-saga-das-tvs-
da-amazonia-1st-edition-elvira-lobato-de-araujo/
cuadernos de didáctica
Es e v i d e n t e q u e la p a r t i c u l a r i d a d
principal de los corpus como interfaces
de investigación reside en su naturaleza
t e c n o l ó g i c a . C o m o i n s t r u m e n t o de
t r a b a j o va m á s allá d e los útiles
tradicionales d e la investigación
lingüística y abre un campo de
p o s i b i l i d a d e s i m p e n s a b l e hace solo
pocas generaciones. De alguna manera,
el c o n c e p t o de c o r p u s se ha h e c h o
equiparable, c o m o forma de acceso al
conjunto infinito de p r o d u c c i o n e s de
la l e n g u a , a o t r o s i n s t r u m e n t o s más
prestigiosos y con mayor presencia en
nuestro día a día, como el diccionario o
la gramática.
WENDY ELVIRA-GARCÍA
PROLOGO PREFACIO LINGÜISTICA DE CORPUS Y EL
PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO ¿QUÉ ES LA
LINGÜÍSTICA DE CORPUS? CÓMO HABLAR DE CORPUS:
CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE
CORPUS TIPOLOGÍA Y DISEÑO DE CORPUS APLICACIONES
DE LOS CORPUS EN LA ACTUALIDAD CORPUS PARA
INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA LOS
CORPUS EN LA CREACIÓN DE MATERIALES ACTIVIDADES
CON CORPUS PARA LLEVAR AL AULA LOS CORPUS PARA
LA CORRECCIÓN CORPUS PARA EL APRENDIZAJE
AUTÓNOMO DEL ALUMNO SECUENCIAS DIDÁCTICAS DE
CORPUS Y PROGRESIÓN DEL USO DE CORPUS EN UN CURSO
DL: B 6947-2021
ISBN: 978-84-18625-32-9
I cuadernos de didáctica [
USO DE CORPUS EN
CLASE DE ELE
WENDY ELVIRA-GARCÍA
UNED
CUADERNOS DE DIDÁCTICA
Colección dirigida por Francisco Herrera y Neus Sans ÍNDICE
© La autora y Difusión S.L. Barcelona 2021 104 9 / Los corpus para la corrección
978-84-1862S-32-9 110 10 / Corpus para el aprendizaje autónomo del alumno
Impreso en la UE
114 11 / Secuencias didácticas de corpus y progresión
Queda prohibida cualquier forma de reproducción, distribución, comunicación pública y transformación de
del uso de corpus en un curso
esta obra sin contar con la autorización de los titulares de la propiedad intelectual. La infracción de los derechos 122 Bibliografía
mencionados puede ser constitutiva de delito contra la propiedad intelectual (art. 270 y ss. Código Penal).
130 Solucionarlo
146 Glosario
MIXTO
Papal procedente de
&
FSC
££¿; FSC" C134275
C/Trafalgar, 10,entlo. 1»
08010 Barcelona - España
Tel.: (+34 932 680 300
Fax: (+34) 933 103 340
cd ítoria I @d ¡fusion.com
www.difusion.com
r
PROLOGO
En primer lugar, hay que remarcar el alcance de su objeto de estudio. Los corpus
lingüísticos se han mostrado en las últimas décadas d e n t r o de la lingüística
como una línea de investigación con un marcado carácter transversal que está
generando propuestas notables. En este sentido, hay que señalar un hecho
claramente relevante: la investigación basada en estas herramientas ha adquirido
tanta presencia en los últimos tiempos que ha dado el salto desde ser considerada
un simple instrumento hasta alzarse como eje central de su propio campo de
investigación. Así, hemos pasado de hablar de corpus para la lingüística a delimitar
y desarrollar una lingüística de corpus.
7
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO
Esa tecnología invisible que son los corpus mantiene, por lo tanto, una relación
increíblemente fructífera con la lingüística y con toda probabilidad todavía nos
quedan por descubrir un gran conjunto de usos y aplicaciones novedosos que nos
permitirán entender la naturaleza maleable y exitosa de estos enfoques.
En este sentido, consideramos que la autora ha pulsado todas las cuerdas necesarias
para que su propuesta nos haga reflexionar y actuar sobre esta tendencia y nos
permita sacar a los corpus de la zona menos visible para darles la relevancia que
merecen también como instrumentos didácticos. Sin duda, el hecho de que el
libro cuente con una estupenda batería de actividades nos va a permitir entender
mejor esa doble naturaleza investigadora y divulgadora.
Queremos creer, por lo tanto, que los corpus van a alcanzar por fin ese hueco que
se merecen en la atención de los docentes de español, así que no nos queda más
que agradecer a la autora por todo el esfuerzo que ha invertido para que así sea.
F r a n c i s c o H e r r e r a y N e u s Sans
PREFACIO
Este libro es una guía y un acicate para que los profesores de español lengua
extranjera incluyan muestras de corpus en su práctica docente. En él, hablaré
de cómo usar corpus para crear manuales y clases, pero también de cómo
11
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO PREFACIO
podemos enseñar a nuestros alumnos a usarlos para que sean ellos mismos los Por último, introduzco aquí cómo está organizado este manual. Se organiza en 11
que investiguen la lengua y descubran las reglas del español a partir del estudio temas, que pertenecen a dos bloques temáticos: el primero trata de la lingüística
de casos. de corpus en general y el segundo de el uso de los corpus en ELE. A estos dos
bloques les siguen la bibliografía y el solucionario de las actividades propuestas.
La idea de este manual nació a partir de la docencia de la asignatura "Lingüística de
corpus y enseñanza del español como segunda lengua" que se ofrece como optativa El p r i m e r bloque consta de cinco temas y en él se introducen los conceptos
en el máster en Formación de profesores de español como segunda lengua de básicos de la lingüística de corpus, necesarios para poder hacer búsquedas y
la Universidad Nacional de Educación a Distancia. Preparando la asignatura, me explotar corpus. Pero no, el manual no contiene un análisis pormenorizado de
encontré con que no existían manuales (ni prácticamente más información que cómo anotar y estándares de anotación, niveles de etiquetaje o el uso de corpus
algunos webinars y podcasts) sobre cómo llevar los corpus a clase. No tenía un libro para entrenamiento de sistemas de procesamiento del lenguaje natural, que sí se
guía para la asignatura que cubriera la parte que a mí me parecía más interesante: incluirían en un curso de corpus más enfocado a la lingüística computacional.
el uso que puede hacer el profesorado de los corpus. Creo que este manual puede Este manual se centra en los corpus como una herramienta para el uso en el aula
ser de utilidad para cualquier profesor o formador que se plantee el uso de corpus de español. Por eso, pese a que este primer bloque trata conceptos generales que
en el aula de español, pero también para otros profesionales que se quieran acercar se pueden encontrar en un manual de lingüística de corpus, se intenta mantener
al uso del corpus para la investigación. siempre una perspectiva de profesor de español ahondando en los detalles de
diseño y terminológicos que pueden ser útiles al docente y obviando otros.
Y es que presenta una diferencia esencial con los (pocos) materiales publicados
Además, siempre que ha sido posible, se ha intentado llevar los ejemplos al terreno
para el uso de corpus y la enseñanza del español lengua extranjera. Normalmente,
del español segunda lengua.
los materiales para el trabajo de corpus y ELE explican qué son los corpus, cómo
se usan (lo que recoge la primera parte de este manual) y dan una panorámica El segundo bloque contiene seis temas y en ellos se ahonda en cada una de las
de los corpus que hay disponibles, pero dan pocas o ninguna idea de qué tipo de tareas que se pueden realizar en clase o preparar con un corpus de ELE. Comienza
actividades se pueden realizar en clase. Este manual explica qué es un corpus y con la aplicación de los corpus a la investigación. En esa parte, se tratan los corpus
cómo usarlo, pero, además, da una explicación detallada y ejemplificada de en qué de aprendientes, los únicos específicos del mundo de la enseñanza de segundas
campos se puede usar corpus; como creación de materiales y ejemplos basados lenguas, que nos sirven para descubrir las dificultades de nuestros alumnos y
en corpus, pero también actividades de clase. Para ello, se proponen actividades para realizar trabajos de investigación (como trabajos de final de máster o tesis
concretas y se aborda cómo realizar secuencias didácticas con corpus. Es decir, se doctorales). Tras ese tema, se pasa a tratar de lleno la labor del profesor y se
trata los corpus como una herramienta a la disposición del profesor, pero también trabaja el uso de corpus en la creación de materiales, ya sean manuales de ELE al
de los estudiantes a partir de actividades donde son los alumnos los que buscan en uso (para aquellos que trabajan como editores) o las fotocopias de clase; se trata
un corpus para, por ejemplo, extraer una regla gramatical de manera inductiva. también cómo llevar los corpus al aula para que los puedan usar los estudiantes,
ya sea para explicar gramática, léxico, cultura o pronunciación; cómo usarlos en
En el texto se da por hecho que el lector está familiarizado con el mundo del ELE y
nuestras correcciones en clase y para que los alumnos se puedan autocorregir; y
que las metodologías y términos propios del área no le son desconocidos. Términos
cómo los estudiantes pueden usar los corpus para crear redacciones más correctas
como interlengua, aprendizaje por tareas, enfoque léxico, comunicativo, secuencia didáctica,
y ricas. Por último, se da una visión integradora de todo ello a partir de un capítulo
aprendizaje inductivo o clase invertida se usarán con una introducción muy breve. Por
dedicado a la creación de secuencias didácticas con corpus.
ello, es recomendable consultar un manual general sobre la práctica docente de
español como lengua extranjera, en el caso de que no se tengan esos conocimientos. Independientemente del bloque al que pertenezca, cada tema consta de diferentes
Pueden ser recomendables manuales como el de Andión Herrero, González Sánchez, epígrafes de teoría, una selección de lecturas para profundizar en el temario
& San Mateo Valdehíta (2019) o simplemente acudir al Diccionario de términos (capítulos de libros o artículos) y una serie de actividades. Las actividades forman
clave de ELE (Varios Autores, 2008), disponible en línea. parte del temario en el sentido en que, para saber usar corpus en clase de ELE, es
12 13
USO DE CORPUS EN CLASE OE ELE. LA LENGUA REAL COMO MODELO
W e n d y Elvira-García
14
1 . LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO
El español lengua extranjera (de ahora en adelante, ELE), igual que la lingüística
general, se ha visto siempre fuertemente influido por las corrientes de pensamiento
de su época. Así, en una época en que la lingüística se entendía como el estudio
de la gramática y especialmente de la traducción de lenguas clásicas, en enseñanza
de lenguas extranjeras el m é t o d o de la gramática-traducción vivía sus mejores
tiempos (Melero, 2000). Fue solo a partir del funcionalismo de Halliday que se
empezaron a poner de moda métodos centrados en las funciones comunicativas
del lenguaje (Brumfit, 1984; Halliday, 1985). Esto es importante porque la
lingüística de corpus es también hija de esos mismos cambios de pensamiento y,
en consecuencia, de paradigma y de filosofía. Por ello, antes de entrar de lleno
en la lingüística de corpus, vamos a intentar explicar las razones que llevaron a su
nacimiento.
La lingüística tradicional basaba sus estudios en la figura del gramático sabio que,
detrás de las torres de libros de su mesa de despacho, pensaba en usos gramaticales
y agramaticales (no válidos) de la lengua y, así, llegaba a la conclusión, por ejemplo,
de que en español (1)
no hay mucha diferencia entre el gramático sabio y nosotros. Nos hemos inventado
el ejemplo tal y como hacía el gramático sabio. Pero ¿cuántas veces en su vida
un alumno va a usar la frase "Juan come manzanas"?, un enunciado informativo
17
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 1 . LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO
neutro con sujeto explícito (llamadoJuan). En español, eso no es habitual. Cuando hizo que fuera imprescindible realizar lexicones (pequeños diccionarios) y tomar
queremos informar sobre algo, omitimos el sujeto (excepto cuando hay un nota de las frases que oían (otra vez, datos).
contraste informativo). Por ello, el ejemplo de (3) sería algo más realista
Con todo ello, se empezó a aplicar el trabajo de campo de manera general en
(3)
los departamentos de lingüística. Los gramáticos estructuralistas (discípulos de
—¿Qué hace Juan?
Saussure) empezaron a ver las ventajas de contar con muestras de habla real para
—Come manzanas.
poder explicar los fenómenos de la lengua a la vez que constataban que la gente de
Sin embargo, todos hemos estado con la tiza en alto en un momento de tensión ante la calle no hablaba como en sus gramáticas. En definitiva, se volvieron defensores
la clase en el que queremos encontrar un ejemplo explicativo, prototípico, de uso del empirismo, de aportar pruebas para sus teorías.
frecuente, léxico nivel básico, y lo único que te viene a la cabeza es el pobre Juan.
Contar con datos auténticos, evitar la influencia que pueda tener la propia variedad
La alternativa a los ejemplos inventados, ya sea en gramática teórica o aplicada al (dialecto o acento) del hablante, contar con las variedades de más gente y, por lo
ELE, pasa por el uso de ejemplos de lengua real. Es decir, por la disponibilidad tanto, con más diversidad y cantidad de muestras, y poder cuantificar los datos
de muestras de habla en su contexto. Todo cambio de paradigma en investigación (por ejemplo, calculando el tanto por ciento de gente que usa dalle o azada en
necesita un entorno propicio y la comprensión de la necesidad de estas "muestras cada región) eran algunas de las ventajas que los lingüistas obtenían al salir de su
de habla en su contexto", es decir, de datos, fue el primer paso para la creación de despacho y preguntar a la gente cómo hablaba.
la lingüística de corpus.
Pero, cuando parecía que la tendencia se iba a asentar y que el uso de datos
reales se convertiría en norma, llegó Noam Chomsky y se convirtió en la moda.
1.1. EMPIRISMO CONTRA RACIONALISMO: DOS MANERAS DE
Chomsky es un lingüista que venía de un bagaje matemático y, por tanto, estaba
ENTENDER LA LINGÜÍSTICA
más interesado en formalizar el lenguaje que en la lengua en sí. Además, seguía
A principios del siglo xx, los lingüistas empezaron a interesarse por una disciplina una corriente de pensamiento más racionalista. Creía que contar con datos reales
nueva muy ligada a la sociología: la dialectología (Alvar, 1969). Sumergidos en solo servía para hacer imposible extraer generalizaciones. En sus propias palabras:
nuevas tendencias de la lingüística (introducidas por Saussure) que separaban la
lengua como ente abstracto e inaprensible y el habla, como sus realizaciones por [m]y judgment, if you like, is that we learn more about language by following
parte de los hablantes, descubrieron que solo el habla podía ser un objeto de the standard method of the sciences. The standard method of the sciences is
estudio. Por ello, los gramáticos sabios empezaron a salir de sus despachos, donde not to accumulate huge masses of unanalyzed data and to try to draw some
inventaban ejemplos que sirvieran a sus teorías sobre la lengua, y salieron a la calle generalization from them (Chomsky, 2004) citado en (Taylor, 2008).
a escuchar y a anotar cómo hablaba la gente. Para ello, se empezaron a realizar Y, en parte, tenía razón. El uso de datos reales no estaba exento de problemas. Para
encuestas a los hablantes en las que se preguntaba cómo se llamaba cierto objeto empezar, al recopilar datos, se recogen muestras de habla, pero no de la lengua. La
en diferentes puntos del mapa y de esta manera se obtuvieron datos reales sobre lengua, entendida como la facultad del lenguaje, es una abstracción, la capacidad
las diferentes denominaciones que recibía cada referente. Esos datos, relacionados universal que tenemos los humanos de hablar. En este sentido, las muestras de habla
con el punto de encuesta donde se habían documentado, se convertían después en nos pueden aportar datos únicamente sobre lo que pasa cuando esa facultad universal
grandes atlas lingüísticos. se concretiza en una lengua, un dialecto, un hablante... Pero hacer inferencias
En paralelo, lingüistas estadounidenses, c o m o Boas o Sapir, e m p e z a r o n a sobre las características universales, comunes de las lenguas, sigue siendo tarea del
interesarse por las lenguas nativas de sus territorios dando el pistoletazo de salida lingüista. Los datos nunca van a aportar explicaciones de por qué pasa algo.
a lo que conocemos como antropología lingüística (Koerner, 2003). Se trataba Además, los datos nunca son exhaustivos. Es decir, no contienen una variedad al
de lenguas que nunca habían sido estudiadas desde un punto de vista lingüístico- completo, porque para eso se necesitarían todas las muestras de lengua emitidas por
gramatical y para las que, además, los lingüistas no eran hablantes nativos. Esto todos los hablantes en toda la historia y en todos los registros (oral, escrito, planificado,
18 19
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 1 . LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO
conversacional...) y eso es imposible. Por eso, es muy importante que los datos sean hecho, ese era el objetivo de la gramática generativa de Chomsky) y después crea
representativos (y a este concepto volveremos más adelante). ejemplos para dar soporte a sus teorías. Esos ejemplos son ejemplos limpios, fáciles
de entender y bonitos, como "Juan come manzanas", pero están totalmente sesgados
Por lo tanto, los datos nos mostrarán lo que es cierto en la variedad: por ejemplo,
por el investigador. Su idiolecto (sus maneras de decir individuales) se da como la
la gente de Madrid dice coche y no auto, pero que yo no haya encontrado ningún
norma imperante sin haber comprobado si realmente son formas válidas para toda la
hablante madrileño que diga auto no quiere decir necesariamente que esa persona
población o si la palabra cuchuflú, que a él le parecía tan normal, solo se usa en su casa.
no exista. A eso lo llamamos "no aportar evidencia negativa". Vamos a ver un
ejemplo más. Pongamos que entrevistamos a un grupo de alumnos de Filología Afortunadamente para nosotros, algunos lingüistas seguían necesitando datos para
y les hacemos contar una historia en la que unos niños están jugando al juego de poder realizar sus estudios, como los antropólogos o los dialectólogos. Otros,
las sillas. Todos ellos acaban con una frase del tipo "al final, el niño se tiene que como los estudiosos de Second Language Acquisition (SLA), descubrieron muy
quedar de pie porque no había sillas libres". ¿Esto querrá decir que una frase del pronto que sus técnicas eran mucho más eficaces si analizaban los datos específicos
tipo "no habían sillas libres" no se produce nunca en español? No, solo quiere decir de su población. Es decir, los datos (principalmente los errores) que sus alumnos
que nuestro grupo de alumnos no lo dice, ya que, probablemente, eso se deba a generaban. Por ejemplo, analizando los errores de sus alumnos podían localizar
que son estudiantes de Filología que han cursado una asignatura de normativa del en qué temas tenían que poner el foco en años venideros e incluso dar con nuevas
español y están hablando con una profesora y no con sus amigos. Por lo tanto, en maneras de enseñarles y también incluir ejemplos de uso real en los materiales
el mejor de los casos, esta muestra refleja algo que es cierto en nuestro grupo de (Pitkowski & Gamarra, 2009).
estudiantes, pero no en la población general.
Esto crea una gran separación en lingüística que tiene continuidad hasta nuestros
La última crítica que se hace a los estudios empíricos, es decir, a aquellos estudios días: lingüistas racionalistas, que usan su intelecto para analizar; y lingüistas
que están basados en datos, tiene que ver justamente con este concepto de empiristas, que se basan en los datos.
representatividad. Para que los datos sean representativos de una población más o
menos general se necesitan muchos datos. Se necesitan tantos datos, que para un 1.2. MÉTODO CIENTÍFICO EN LA PRÁCTICA LINGÜÍSTICA
solo humano es imposible leerlos y hacerse una idea de ellos para clasificarlos. Eso Hoy en día, la mayoría de los lingüistas somos un poco de ambos y es que al seguir
hizo que durante la primera mitad del siglo xx la mayor parte de los datos que se el método científico hacemos uso tanto del intelecto como de los datos.
recogieron, sobre todo en atlas lingüísticos, estuvieran ahí, disponibles, pero no se
podían analizar, porque no existían técnicas para hacerlo (Abercrombie, 1965). Si Neither the corpus linguist of the 1950s, who r e j e c t e d i n t u i t i o n , ñor the
alguna vez has trabajado con atlas y has visto láminas con diferentes isoglosas para general linguist of the 1960s, who r e j e c t e d c o r p u s data, was able to achieve
cada palabra y has intentado a partir de esas isoglosas (las cuales acaban cada una en the i n t e r a c t i o n o f t h e d a t a c o v e r a g e a n d t h e i n s i g h t that characterize
un pueblo diferente) establecer la frontera entre dos dialectos, entenderás cómo the many successful corpus analyses of recent years. Geoffrey Leech (1991)
esa cantidad de datos se hace muy difícil de gestionar. Esta limitación se superó en En cualquier trabajo de investigación actual, se puede encontrar una hipótesis.
el momento en el que los ordenadores tuvieron capacidad suficiente para realizar Por ejemplo, "los alumnos que cuya lengua materna no tenga vibrante alveolar
análisis y hoy en día no supone ningún problema, ya que las nuevas técnicas de múltiple [r] tendrán más problemas con ella". Esta hipótesis en parte está basada en
análisis de datos (data analysis) se alimentan precisamente de una cantidad ingente nuestra razón; nosotros sabemos que esto es así, pero también puede estar basada
de datos (big data), como por ejemplo sería elfeed deTwitter, que genera al día en nuestra experiencia, en datos. Una vez que hemos determinado la hipótesis,
500 millones de tuits, de los cuales, el 4 , 7 % son en español (Hong, Convertino, recogeremos datos para verificarla o falsaria y, una vez tengamos el análisis de esos
& C h i , 2011). datos (probablemente con el porcentaje de alumnos que tienen problemas con [r]
clasificados por su lengua materna), podremos concluir si nuestra hipótesis era
En el lado opuesto de la balanza, el racionalismo crea explicaciones de la lengua,
cierta o no (esquema 1).
teorías que son válidas para toda la lengua o incluso para la facultad del lenguaje (de
20 21
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 1. LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO
Hipótesis
apriorismo. La implicación más beneficiosa de aplicar este m é t o d o es que se
eliminan del método los posibles prejuicios del investigador.
Recolección de datos
En el campo del ELE, el mismo concepto se ha aplicado al uso de herramientas
que permiten a los estudiantes inferir cuál es la pieza léxica o la forma gramatical
4- que están buscando a partir de muestras de lengua (Buyse & Verlinde, 2013). Lo
llamamos aprendizaje deductivo. Si no has oído nunca hablar de él, puedes buscarlo
en el Diccionario de términos CLAVE de ELE (Varios Autores, 2008), disponible en
Verificación o falsación https: / / cvc. Cervantes. es / Enseñanza / biblioteca_ele / diccio_ele / índice. htm.
de la hipótesis
Un ejemplo de aprendizaje deductivo sería el que se suele hacer con la alternancia
Esquema 1. Proceso del método científico entre indicativo y subjuntivo en oraciones afirmativas y negativas con verbos de
pensamiento tipo Creo que llueve pero No creo que llueva, donde, a partir de varios
Por lo tanto, aunque el racionalismo sigue formando parte de la mayoría de las
ejemplos, los alumnos pueden deducir cuándo se usa el indicativo y cuándo el
investigaciones, hoy en día no se concibe un análisis lingüístico en el cual no haya
subjuntivo. Más adelante, en el libro, usaremos este mismo ejemplo para ver cómo
datos. El método científico, compartido por todas las disciplinas del conocimiento,
se puede usar un corpus en clase.
exige que se ofrezcan pruebas de los hallazgos y esas pruebas son los datos, datos
que en lingüística llamamos corpus. También se puede usar el mismo método para conseguir que los alumnos infieran
el significado de una pieza léxica a partir del contexto. En este último caso, el
1.3. LA LLEGADA DE UN NUEVO SIGLO: ESTUDIOS CORPUS- corpus de Linguee ha demostrado que ayuda a mejorar la precisión léxica de los
DRIVEN, APRENDIZAJE DATA-DRIVEN estudiantes (Buyse & Verlinde, 2013). Esto se debe a que, a partir de muestras
Elena Tognini-Bonelli dio nombre a una partición que ha sido muy útil en los reales de lengua en contexto, los alumnos no solo aprenden el significado de
estudios de corpus desde entonces: estudios basados en corpus (corpus-based) la palabra, si no también sus usos más comunes y las palabras que lo suelen
y orientados al corpus (corpus-driven) (Tognini-Bonelli, 2001). Los primeros acompañar. Es, en cierta manera, como si en vez de memorizar la entrada de un
estudios eran los que se venían realizando hasta la fecha. En ellos, a partir de una diccionario de definiciones, como el Diccionario de la Real Academia de la Lengua
hipótesis, se usaba un corpus para validarla. Por ejemplo, ante la hipótesis de que (Real Academia Española, 2014), estuvieran memorizando la entrada de un
los anglófonos dirán la gente *son por influencia de su lengua materna, se plantea diccionario de colocaciones o, más bien, un diccionario combinatorio como el
una búsqueda en corpus que devuelva las instancias (más tarde, veremos que en Redes (Bosque, 2004) o el Práctico (Bosque, 2006).
corpus se llaman ocurrencias) de gente seguido del verbo ser y el programa devuelve
la frecuencia del singular y del plural. El segundo tipo, corpus-driven, observa el 1.4. PARA MÁS INFORMACIÓN
corpus y busca patrones y regularidades sin apriorismos ni hipótesis y, a partir McEnery, T. & Hardie, A. (2013).The history of corpus linguistics. The Oxford handbook ofthe
de esas observaciones, construye una hipótesis explicativa. Si usamos el ejemplo history of linguistics, 121-14-5.
anterior, para llegar a la misma conclusión, se observaría el corpus (por ejemplo,
el conjunto de redacciones de los alumnos anglófonos de una clase), se haría una 1.5. ACTIVIDADES
lista de los errores más frecuentes y, quizá, aparecerían cosas corno la gente *son. A 1.5.1. ¿Qué r a m a s d e la l i n g ü í s t i c a f u e r o n p i o n e r a s e n la r e c o p i l a c i ó n
partir de ahí, se buscarían explicaciones plausibles sobre por qué se han producido d e datos?
esos errores, en este caso, transferencia de la L l . 1.5.2. ¿Cuáles s o n las v e n t a j a s d e l e m p i r i s m o ? ¿Y d e l r a c i o n a l i s m o ? ¿Y
La conclusión ha sido la misma, pero en el p r i m e r caso, se parte de nuestro sus desventajas?
conocimiento previo, mientras que en el segundo no se hace ningún tipo de
22 23
2. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?
2 . 1 . ¿QUÉ ES UN CORPUS?
Un corpus es un conjunto de muestras de habla (orales o escritas) representativas
de una variedad lingüística que se usan para realizar investigaciones lingüísticas
o para entrenar un sistema de inteligencia artificial (McEnery & Wilson, 1996;
Taylor, 2008;Torruella & Llisterri, 1999). Es decir, un corpus son datos y esto es
especialmente importante en el mundo actual en el que los sistemas informáticos
de inteligencia artificial se alimentan de datos. Se ahondará en esta idea al hablar
de aplicaciones de corpus.
A c e r q u é m o n o s más al c o n c e p t o de c o r p u s . Un corpus es un conjunto de
muestras de habla d i g i t a l i z a d a s y p r o c e s a b l e s p o r u n o r d e n a d o r , lo que
nos facilita hacer búsquedas y ordenar los datos. Estas muestras pueden ser habla
e s c r i t a u o r a l . En el segundo caso, deben ir acompañadas de sus respectivas
transcripciones y de manera ideal esas transcripciones estarán alineadas con el
¿QUE ES LA LINGÜISTICA DE CORPUS?
audio, como ocurre, por ejemplo, con los subtítulos de una película en que el
sonido y el texto aparecen a la vez. Las muestras son necesariamente t e x t o s
o r i g i n a l e s , es decir, no creados a propósito para tener ejemplos de habla, sino
porciones que se hayan usado con una función comunicativa, ya sea en un libro,
en una conversación o en cualquier o t r o intercambio comunicativo, como un
chat o una reseña de Amazon. Pueden ser documentos c o m p l e t o s o también
f r a g m e n t o s . Si tenemos un corpus de libros, podemos usar libros enteros o,
pongamos, solo el primer capítulo.
Además, se han tenido que compilar con una i n t e n c i ó n c o n c r e t a , es decir, no
son textos sin orden ni concierto, sino que buscan ser r e p r e s e n t a t i v o s de una
25
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?
variedad lingüística en particular. Eso sí, esa variedad puede ser muy amplia: por (Sub)disciplinas Teorías lingüísticas Metodologías
ejemplo, un corpus que busca ser representativo del español escrito en el siglo
xx o más concreta, textos que quieren ser representativos de las recetas de cocina Lingüística Funcionalismo Lingüística
teórica europeo cuantitativa
escritas en español por anglófonos. El concepto de representadvidad, aunque
Fonología Lingüística I Estructuralismo i
fácil de captar en su esencia, es difícil de determinar: ¿cuántos textos necesitamos
computacional Lingüística
para que algo sea representativo? Es por eso por lo que volveremos a ello en el Lingüística
Morfología cualitativa
Psicolingüística matemática
capítulo 4 . 2 .
Semántica Sociolingüística Generativismo Ingeniería
2.2. LINGÜÍSTICA DE CORPUS Cognitivismo lingüística
Lexicografía
Sintaxis
Funcionalismo
Ya hemos visto más de cerca qué es un corpus. Pero, entonces, ¿qué es la Dialectología ¿Lingüística de
l i n g ü í s t i c a d e c o r p u s ? La definición más fácil es la siguiente: la lingüística Pragmática Teoría de la corpus?
Antropología lea. relevancia
que hace uso de corpus. El problema surge cuando intentamos definir si es una
metodología, una rama de estudio o una teoría lingüística.
Esquema 2. Encaje de la lingüística de corpus en las categorizaciones de la lingüística
Por la definición que acabamos de dar, la lingüística de c o r p u s es una
herramienta de trabajo, por lo que el mapa de la lingüística se parecería al que Sin embargo, no todo el m u n d o está de acuerdo con esta categorización: los
se puede observar en el esquema 2, en el que la lingüística de corpus aparece grandes pioneros de la lingüística de corpus y responsables de uno de los grandes
como una metodología. Se pueden usar corpus para hacer cualquier tipo de hitos de los corpus que veremos más adelante, el corpus COBUILD (Firth, Sinclair
estudio lingüístico en cualquier nivel de lengua (semántica, s i n t a x i s . . . ) , y, y sus seguidores), defienden que la lingüística de corpus se ha ganado la categoría
por lo tanto, la rama de estudio que le corresponde depende del fin para el de marco teórico, ya que tradicionalmente las metodologías usadas en lingüística
que usemos el corpus. Pongamos que queremos hacer un diccionario, nuestra son más simples (McEnery &Wilson, 1996;Tognini-Bonelli, 2001).
tarea pertenecería al campo de la lexicografía; si queremos extraer una teoría
Veamos por qué. En una investigación lingüística, se pueden usar m é t o d o s
gramatical, estaríamos haciendo lingüística teórica; o pongamos que queremos
cuantitativos (dar porcentajes de aparición) o cualitativos (explicar el uso de una
entrenar el sistema de diálogo de un asistente virtual como Siri, estaríamos
forma gramatical), usar estadística inferencial (establecer si la diferencia entre dos
usando corpus para una tarea que p e r t e n e c e a la lingüística computacional.
grupos de hablantes es estadísticamente significativa mediante pruebas estadísticas)
En definitiva, trabajar con corpus es algo que p o d e m o s hacer en todas las
o no, etc., pero todas estas metodologías o recursos no son únicas de la lingüística,
subdisciplinas o ramas de la lingüística (se verá con más detenimiento en el
sino compartidas con muchas otras ciencias sociales e incluso ciencias a secas. Los
capítulo 5). Esto hace que la lingüística de corpus sea más una metodología de
artículos de fonética, por ejemplo, contienen análisis estadísticos que se usan en
trabajo que una rama de estudio.
biología para establecer parecidos entre genes y algunos análisis estadísticos de la
sociolingüística tienen un diseño parecido al que se hace para probar si un fármaco
funciona con un grupo objetivo al que le dan la medicación y otro grupo que
recibe un placebo. El uso de porcentajes o de pruebas estadísticas no es algo único
de la lingüística. Sin embargo, el uso de corpus es propio y único de la disciplina
lingüística. La lingüística de corpus ha sido desarrollada por lingüistas y solo la
usan ellos.
Además, las metodologías tienen que ver con el tipo de análisis que se hace de los
datos y su posterior tratamiento estadístico, mientras que la lingüística de corpus
26 21
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?
tiene relación con los datos. La lingüística de corpus e s los datos. A esos datos ,una C o m o hemos dicho, la historia de la lingüística de corpus está ligada a la
vez conseguidos mediante corpus, se les puede aplicar cualquier tipo de análisis, es posibilidad de digitalizar los datos, y esto es decir que está ligada a la historia de
decir, cualquier metodología. Lo podemos ver con un ejemplo. Pongamos el caso los ordenadores.Y, como ella, ha sufrido grandes cambios desde los años cincuenta
de que podemos conseguir las producciones escritas (redacciones) de un grupo del siglo xx cuando apareció el primer ordenador.
de alumnos de Al y A2 que han hecho una descripción de sí mismos. Una vez
Algunos años antes, los estructuralistas habían abandonado la rama ñormativista
conseguidas, tendremos un corpus. Después de eso, podemos aplicar 1) un análisis
de la lingüística y querían describir la lengua que se hablaba en la calle. Uno de
cualitativo, es decir, explicar qué tipo de errores han cometido (por ejemplo,
sus objetivos era crear diccionarios y gramáticas que se basaran en un uso real
errores en el uso del presente o que han confundido el verbo ser y el estar); 2) un
de la lengua con ejemplos documentados en textos. A esa tendencia pertenece
análisis cuantitativo, por ejemplo, decir cuántos errores de ser/estar han cometido
Hornby (Hornby et ál., 1948), que ideó el diccionario en el que se inspiró María
o qué tanto por ciento de las veces que han usado ser/ estar lo han hecho de un
Moliner para crear su famoso Diccionario de Uso de la Lengua Española (Moliner,
modo erróneo; y 3) un análisis estadístico, hacer un conteo de los errores de cada
1966), todavía compilado a mano, con fichas de biblioteca. La aparición de esas
tipo (morfológico, sintáctico, de n ú m e r o . . . ) y aplicar una prueba estadística para
primeras obras descriptivistas llevó a un gran conjunto de lingüistas a percibir
comprobar si los alumnos de A1 han hecho significativamente más errores que los
la necesidad de contar con grandes bases de datos de textos que estuvieran
alumnos de A2. Todas estas metodologías son compatibles e independientes de que
usemos o no corpus en nuestro estudio. almacenadas y ordenadas, y qué mejor para esa tarea que informatizar las bases
de datos de lengua.
Otra de las particularidades de la lingüística de corpus es que muchas teorías
A la vez que pasaba todo lo anterior, nació el primer centro del mundo dedicado a
lingüísticas, como el cognitivismo y la gramática de construcciones, han surgido
la lingüística de corpus. Se trata del Survey oj English Usage del University College
gracias a ella, y se han desarrollado a su sombra. Incluso ramas de la lingüística
London (SEU) que todavía sigue activo en la actualidad y, como su nombre indica,
enteras como la lingüística computacional deben su existencia y comparten toda
trababa de documentar el uso real del inglés, y lo hacía a partir de textos. Sus
su historia y evolución con la lingüística de corpus. Todo ello hace que muchos
miembros compilaron el p r i m e r corpus de un millón de palabras, en aquella
autores prefieran entender la lingüística de corpus como una rama más de la
época todo un hito, bajo la coordinación de Randolph Quirk. Los resultados
lingüística.
obtenidos de ese corpus llevaron a la redacción de A Comprehensive Grammar of
Pero, para el objetivo que aquí nos ocupa, lo más adecuado es e n t e n d e r la the English Language (Quirk et al., 1985). Otros clásicos de la época que sirven
lingüística de corpus como una h e r r a m i e n t a que va a ser de ayuda para conocer para comprender el inicio de los corpus son el corpus Brown, el Lancaster-Oslo/
mejor el perfil de nuestros alumnos, crear mejores materiales para ellos, poner Bergen Corpus (conocido como LOB) o el Kolhapur Corpus (con datos de inglés
ejemplos más realistas, y proponer dinámicas de clase divertidas. Por lo tanto, lo americano, británico, y de la India).
más cercano de todas las opciones propuestas, es definir la lingüística de corpus
A partir de los años ochenta, las nuevas capacidades de los ordenadores permitieron
como una metodología de trabajo, pero siempre teniendo en cuenta que no es una
compilar corpus más abundantes. Entre ellos, probablemente el más famoso sea el
metodología al uso.
Bank of English (corpus usado para crear el diccionario COBUILD) de 450 millones
de palabras e impulsado originalmente por John Sinclair, toda una referencia en los
2.3. LOS PRIMEROS CORPUS
estudios de corpus (Sinclair, 1987). El COBUILD, como el diccionario de Hornby,
Ya hemos hablado de los primeros lingüistas que recogieron datos, aunque, esos estaba pensado especialmente para estudiantes de lengua extranjera; los estudios
son solo precursores. Tanto ellos como los antropólogos contaban con muestras basados en corpus se aplicaron al estudio de segundas lenguas desde muy pronto.
de lengua, pero en forma de atlas, no de corpus, ya que sus muestras no estaban
precisamente ordenadas ni eran digitalizables. Entonces, ¿cuándo se crean los Otros corpus del inglés que hicieron aportaciones importantes al campo son el
primeros corpus? < British Nacional Corpus, de 100 millones de palabras y que contiene muestras de
28 29
USO DE CORPUS EN CUSE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUE ES LA LINGÜÍSTICA DE CORPUS?
habla oral y escrita, y el American National Corpus (ANC), un corpus oral de inglés Contemporánea (CORLEC) una iniciativa de los años noventa que cuenta con un
norteamericano (Ide & Macleod, 2001). Sin embargo, en este libro no nos vamos millón de formas orales. También se financiaron corpus para uso médico: en el
a centrar en las aportaciones de cada uno de ellos, basta con saber que existieron, campo de la lingüística clínica fue especialmente importante el corpus LEXESP,
y que cada uno fue aportando, a través de sus aciertos y errores, su pequeña usado para elaborar el Diccionario de frecuencias de las unidades lingüísticas del
contribución para crear la disciplina que conocemos en la actualidad. castellano a partir de 1,5 millones de formas (Alameda & Cuetos, 1995).
Estos corpus, aunque muchos están disponibles, no se han pensado con el objetivo
2.4. LOS CORPUS DEL ESPAÑOL
de facilitar la búsqueda en ellos y, por lo tanto, no cuentan con una interfaz en línea
En el caso del español, la historia es algo más reciente. Existieron primero algunas en la que podamos hacer búsquedas de manera cómoda. Es decir, su disponibilidad
iniciativas de digitalización de textos antiguos, como la realizada para la redacción consiste en que puedes descargar todos sus textos en tu ordenador, pero cómo
del Dictionary qf Oíd Spanish Language (Nitti, 1979) y también encuestas como las busques en ellos, es cosa tuya. Las búsquedas deben realizarse mediante un
del Proyecto de estudio coordinado de la norma lingüística culta del español hablado en buscador que creen los investigadores. Aprender a hacer esto requiere un tipo de
las principales ciudades de Iberoamérica y de la Península Ibérica, un proyecto que fue formación que no tiene ninguna relación con el ELE. Quizá, si hiciste lingüística de
propuesto inicialmente en 1964. Sin embargo, este proyecto, comparable al Survey corpus o computacional en la carrera, sepas hacerlo; en ese caso, puedes echarles
ofEnglish Usage, no se podría considerar propiamente un corpus hasta algo más tarde, un ojo. Sin embargo, en este libro nos centraremos en los corpus que tienen una
cuando se digitalizó y clasificó porque, como hemos dicho, los corpus propiamente interfaz para facilitar la búsqueda al público general.
dichos nacen con los ordenadores y en España eso es entre los años 1980 y 1995.
Entonces, ¿cuáles son los corpus que podemos consultar mediante una interfaz?
Pero dejemos de lado la parte más histórica y pasemos a los corpus del español que Ahora los vemos. Los primeros corpus de habla nativa en español que podemos
se crearon desde los años 90 del siglo pasado y que siguen disponibles hoy en día para encontrar en línea son compilaciones de textos u obras que realizan diversas
su consulta. En esta sección, hablamos solo de corpus de habla nativa, que pueden universidades para fines de investigación. De ellos, el más usado es probablemente
servir para dar ejemplos positivos y para que los estudiantes puedan hacer búsquedas. el Spanish O n Line o corpus SOL (Mighetto, 2003), consultable en línea desde
A los corpus de español hablado como L2 le dedicaremos un capítulo aparte 1998 (figura 1). En él se pueden hacer búsquedas por palabras o secuencias para
(el 6) porque tanto su m é t o d o de consulta como su finalidad son diferentes. obtener en qué contextos se usa la palabra o cuál es su frecuencia de uso.
Los corpus que contienen español hablado por no nativos son corpus pensados
para el investigador que quiere saber más de la interlengua de sus estudiantes
(Selinker, 1972), que quiere ver qué errores cometen. Por lo tanto, son corpus
para la investigación del ELE. Mientras que los corpus de lengua nativa, en su
mayoría, no están pensados para una tarea específica; pertenecen a aquella clase
que llamaremos c o r p u s g e n e r a l e s .
Pese a esto, algunos de los corpus de habla nativa más grandes sí han sido
diseñados con un objetivo en mente. Los corpus más grandes de los años noventa
fueron fruto de la inversión de empresas editoriales que, como veíamos en el M U
caso del COBUILD, fueron usados para crear diccionarios de nueva planta. Así se
financiaron, por ejemplo, el Corpus Vox-Biblograf (CVE) (10 millones de formas) o
el CUMBRE de SGEL (20 millones) o el Corpus del español mexicano contemporáneo
m .
usado para el Diccionario del español de México (CEMC, 2000 formas). En el campo
de los corpus orales, destaca el Corpus Oral de Referencia de la Lengua Española
Figura 1. Interfaz del corpus SOL (Mighetto, 2003)
30 31
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUé ES LA LINGÜÍSTICA DE CORPUS?
Pero, los mejores corpus para nuestro uso son aquellos que nacen de grandes 2.5. INTERNET COMO CORPUS Y GOOGLE BOOKS
iniciativas. Y los primeros de ellos son los corpus de referencia compilados por
Mientras explicábamos los primeros corpus y los corpus de los de los años noventa,
las academias de la lengua. Los corpus de referencia tienen el objetivo, como en
hablábamos de corpus de millones de palabras. La primera y gran barrera que se
su día el Vox-Biblograf, de servir como base de datos para actualizar un diccionario
superó en términos de número de palabras fue mil millones de palabras (un billion
(por eso de referencia), en este caso el Diccionario de la Lengua Española (DRAE)
en inglés). A primera vista, esto puede parecer mucho, pero en realidad es una
y el Nuevo diccionario histórico del español (NDHE). Pero sus creadores también los
muestra pequeñísima comparada con la cantidad de palabras que obtendríamos si
han dotado de una interfaz de búsqueda en línea que permite a los usuarios hacer
sumamos, por ejemplo, todas las publicaciones de los periódicos durante un mes.
búsquedas sencillas para consultar la frecuencia de una palabra. Los primeros de
Solo para dar una idea, en la actualidad, un corpus como el COBUILD para el
estos corpus fueron el Corpus de referencia del español actual (CREA), que data de
inglés contiene 4,5 mil millones de palabras. El CORPES contiene, en 2019, 225
1995, y el Corpus diacrónico del español (CORDE), cuya compilación se aprobó poco
millones de palabras y tiene como objetivo alcanzar los 400 millones. Mientras
después del CREA. Probablemente, estos fueron los corpus sincrónicos (CREA) y
que el CdE contiene, para sus cuatro subcorpus: 100 millones de formas en el
diacrónicos (CORDE) más usados hasta la irrupción del llamado Corpus del español
histórico, 2000 millones de formas en el web, 5500 millones de formas en el
(CdE) (Davies, 2002).
NOW, y 45 mil millones en n-grams (BYU).
El CdE marcó un antes y un después en el uso de los corpus, porque usa una interfaz
Pero en los tiempos que corren, nos estamos dejando un corpus primordial. ¿A quién
de búsqueda (la del BYU) que había tenido mucho éxito en inglés. Esto significa
preguntan los estudiantes cuando tienen dudas con un régimen verbal? Por supuesto,
que permite búsquedas de secuencias de palabras mucho más refinadas que el
a Google. Google no es un corpus en sí mismo, es un buscador, como la interfaz de
CREA y el CORDE. Por ejemplo, en él se pueden buscar frases que contengan la
búsqueda en los corpus. Estrictamente, internet no es un corpus, es un conjunto
conjunción si seguida de un verbo en subjuntivo, o los sustantivos que acompañan
de datos digitalizado, sí, pero no ordenado, más bien lo contrario, desordenado y
más frecuentemente a la palabra tomar. Lo veremos en los ejercicios del capítulo.
caótico, ahí reside su gracia. En internet no sabemos (siempre) quién es el autor del
Además, el CdE cuenta con varios subcorpus: el Genre/Historical, que contiene textos
texto o los años que tenía cuando lo escribió, o ni siquiera si es hablante de lengua
de novelas hasta el 2000; el Web/Dialects, que podemos considerar el corpus más
nativa o extranjera. Pero, pese a todos estos problemas, internet nos da acceso a un
general; el NOW, un corpus que contiene noticias y textos periodísticos publicados
gran banco de datos qu se han aprovechado de innumerables maneras.
en internet (este último es lo que llamamos un corpus monitor, lo veremos en el
capítulo 4); y n-grams (BYU), que contiene libros obtenidos de Google Books. Por Existe bibliografía sobre cómo usar internet como corpus y también trabajos que han
todo ello, el éxito del CdE fue inmediato y todavía hoy es el corpus más versátil usado como corpus laWikipedia,Twitter o Amazon. Sin embargo, hacer búsquedas
y el que más usaremos en los ejercicios. La única pega es que esa versatilidad (la refinadas en esos servicios no es fácil. Los investigadores que lo hacen tienen que
posibilidad de refinar mucho nuestras búsquedas) implica que buscar en él es un crear sus propios buscadores que diseñan en lenguajes de programación como
poco más complejo que en el resto de los corpus. Python o R. o bajar los textos e introducirlos en un software gestor de corpus que
ayuda a ordenar los textos, analizarlos y realizar búsquedas, como el software libre
Volviendo a los corpus académicos, el CREA se quedó corto enseguida, tanto
AntConc (Anthony, 2019) o SketchEngine, de pago, pero con una versión de prueba
por su contenido (mayormente textos literarios y periodísticos casi al m o d o
gratuita (Kilgarriff et al., 2014). En este libro, no explicaremos como usar estos
del Diccionario de Autoridades1) como por su interfaz. Por eso, hoy contamos con
programas o cómo realizar análisis propios en, por ejemplo, Python. Si fueras un
un nuevo corpus heredero del CREA, el CORPES, que permite búsquedas casi
lingüista computacional, o estuvieras cursando un máster de Humanidades Digitales,
igual de refinadas que el Corpus del Español. Este será el segundo corpus que más
lo necesitarías, pero nosotros vamos a usar corpus a nivel usuario.
usaremos.
En cambio, existe una porción de internet que cuenta con su propio buscador y
1 El Diccionario de Autoridades es el primer diccionario publicado por la Real Academia Española. En él solo se que puede ser muy útil en trabajos de cultura y ELE: se trata de Google NGrams
incluían palabras que habían sido documentadas en autores célebres de la literatura española.
32 33
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUé ES LA LINGÜÍSTICA DE CORPUS?
Viewer, un m o t o r de búsqueda que trabaja con un conjunto de libros extraído 1. Ve a la dirección web: https://www.corpusdelespanol.org/web-clial/
de Google Books (45 000 millones de palabras). Para tener una idea de lo que se 2. Escribe en el cuadro de búsqueda corpus y pulsa el botón FIND MATCHING
puede hacer con un corpus de tantos libros, recomendamos ver una TED talk muy STRINGS. A continuación, aparece la frecuencia de la palabra "FREQ".
amena que presenta Culturnomics, un proyecto para explicar el cambio cultural ¿Cuántas veces aparece la palabra corpus en el corpus web del CdE?
a través de los textos. La charla se llama "¿Qué hemos aprendido de 5 millones 3. Pulsa en la palabra corpus. Se abrirá una nueva ventana con el contexto en
de libros?" y está disponible de manera gratuita en la página de TED Talks y en su el que aparece la palabra. Verás que hay 92 páginas de resultados, eso es
canal deYouTube. porque había muchas ocurrencias de esa palabra. A partir de la primera
Los corpus que hemos mencionado en este capítulo no son ni mucho menos todos página de resultados, ¿podrías decir cuál es el significado más habitual de la
los disponibles para el español; para una lista más exhaustiva puedes consultar Cruz palabra corpus en español?
Pinol (2012), pero nosotros, en este manual y en sus actividades, vamos a usar los 4. Ahora compara los resultados con un corpus de inglés, el COCA (https: / /
que consideramos más útiles y fáciles de manejar para ELE, principalmente: el www.english-corpora.org/coca/), ¿cuál es el significado más habitual en
CORPES, el Corpus del español, la interfaz de búsqueda de Google Books y Google inglés americano?
NGram Viewer. 2 . 7 . 2 . Ve al c o r p u s SOL (https: / / s p r a a k b a n k e n . g u . s e / k o r p / ? m o d e — s p a n i
sh#?lang=en&cqp=%5B%5D&page=0&search=word%7Cemail) y busca
2.6. PARA MÁS INFORMACIÓN las s i g u i e n t e s p a l a b r a s e n s u s t r e s s u b c o r p u s : presidente, presidenta,
Rojo, G. (2016). Los corpus textuales. En: Gutiérrez-Rexach, J. (ed.), Enciclopedia lingüística internet, email.
hispánica. Oxon: Routledge, 285-296.
1. ¿Cuáles aparecen? ¿Por qué crees que no aparecen algunas?
Michel, JB. & Ueberman Aiden, E. (Julio, 2011). What we learned from 5 million books. 2. En la información de los subcorpus, busca los años de los textos que .
Conferencias TED. https: / / www. ted. com / talks / j ean Jbaptiste_michel_erez__lieberman_
contiene cada uno. ¿Cuál de los dos es más útil para un alumno de ELE?
aiden_what_we_learned_from_5_million_books.
2.7. ACTIVIDADES
2 . 7 . 1 . F u e r a d e l m u n d o d e la l i n g ü í s t i c a la g e n t e n o s u e l e p e n s a r
e n d a t o s o m u e s t r a s d e h a b l a c u a n d o d e c i m o s corpus. V a m o s a
c o m p r o b a r e s t a i n t u i c i ó n e n u n c o r p u s d e h a b l a r e a l , e l Corpus
del Español (CdE) ( D a v i e s , 2 0 0 1 ) . Para e l l o , v a m o s a u s a r u n c o r p u s
o n l i n e c o n i n t e r f a z d e b ú s q u e d a . Es d e c i r , u n b u s c a d o r p a r e c i d o a
G o o g l e p e r o c o n t e x t o s o r d e n a d o s . ¡Atención, el c o r p u s d e v e r d a d
s o n las m u e s t r a s d e h a b l a q u e h a y d e t r á s , e l b u s c a d o r e s s o l o u n a
m a n e r a d e c o n s u l t a r l o s d a t o s d e f o r m a m á s fácil! El CdE e s g r a t u i t o ,
pero después de u n n ú m e r o d e búsquedas pide q u e te registres, pío
d u d é i s e n h a c e r l o ! El r e g i s t r o p a r a u s o d e p r o f e s o r e s o e s t u d i a n t e s
e s g r a t u i t o y l o v a m o s a u s a r m u c h o . A n t e s d e l CORPES, e s t e e r a e l
ú n i c o c o r p u s c o n b u s c a d o r l e m a t i z a d o para el e s p a ñ o l ( v e r e m o s
qué significa esto e n el siguiente capítulo), e s o hace q u e haya una
infinidad d e trabajos realizados c o n él.
34 35
3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS
37
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COHO MODELO 3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS
que queda entre dos espacios, es decir, con un criterio m e r a m e n t e gráfico. A fórmula matemática para expresarlo sería la siguiente (no es más que la notación
esas "palabras entre dos espacios" se las llama f o r m a s . Además, sabemos que las matemática de un porcentaje):
palabras flexionan: por ejemplo, piensa y pienso son formas flexionadas de una
misma palabra; también amiga y amigo, y por eso se agrupan bajo la misma entrada
en el diccionario. Si queremos encontrar en el diccionario el significado de amiga,
buscaremos en la entrada de amigo. Eso en corpus es un l e m a . El lema amigo
( N de ocurrencias
tamaño del corpus
If\ 100
contiene las formas amigo/a/os/as, amiguísimo /a /os /as, amigóte / s, etc. Fórmula 1. Frecuencia normalizada en porcentaje
3.2. OCURRENCIAS Pero existe otra manera (muy parecida, por otro lado) de expresar la frecuencia
de una palabra en un c o r p u s . En vez de hacerse p o r cada 100 palabras
Cada una de las apariciones de una palabra o, mejor dicho, de un lema en el corpus
(porcentaje), se calcula por cada un millón de palabras. ¿Y por qué un millón?
es una o c u r r e n c i a (token). Si una palabra aparece muchas veces en el corpus,
Por una mera casualidad histórica. Durante una época, muchos corpus eran de
decimos que hay muchas ocurrencias de ese lema o de esa forma del lema. Por
un millón de palabras y así, se podían ahorrar el paso de multiplicar, puesto
norma general, cuando hacemos una búsqueda en un corpus, el sistema devuelve
que, en un corpus de un millón de palabras, para calcular la "frecuencia por
cada una de sus ocurrencias; es decir, cada vez que la palabra (sea lema o forma)
millón" habría que dividir entre un millón y después multiplicar por un millón,
se ha documentado en el corpus.
o lo que es lo mismo, no hacer nada. ¿Entonces por qué se ha mantenido esta
3.3. FRECUENCIA normalización vigente hasta ahora? Por una cuestión práctica. Si se calcula el
porcentaje en un corpus grande, los números resultantes son muy pequeños y
La f r e c u e n c i a de una palabra en un corpus es su n ú m e r o de ocurrencias, es
quedan cosas como 0.0000001 %, un tipo de números que son poco prácticos
decir, el n ú m e r o de veces que esa palabra aparece en el mismo. La frecuencia
para escribirlos o recordarlos. Si seguimos con el ejemplo de arriba, nuestras
puede ser absoluta o normalizada.
cinco ocurrencias de estudiante en un corpus de 5 000 0 0 0 de palabras, la
La frecuencia absoluta es un valor muy útil para saber si una palabra se usa mucho frecuencia normalizada en porcentaje es de 0,0001 % , p e r o p o r millón de
o poco, pero no es lo mismo que la palabra estudiante aparezca cinco veces en una palabras sería 1 % : la palabra estudiante aparece una vez p o r cada millón de
redacción de 500 palabras a que aparezca cinco veces en la novela de un autor que palabras. Esta cifra es mucho más intuitiva que la frecuencia en porcentaje.
sea de 5 0 0 0 0 0 0 . Su frecuencia es la misma, cinco, pero la "densidad", no. En la
redacción ha aparecido mucho más y probablemente se trate de uno de los temas
del texto, mientras que estudiante aparezca cinco veces en una novela no nos dice
mucho de los temas de la obra (más que quizá en la novela haya un hijo o un amigo
( N de ocurrencias
tamaño del corpus
I
J
\
* 1 000 000
Para que la frecuencia nos diga algo más sobre si la palabra aparece m u c h o o El tipo de frecuencia normalizada que usa un corpus depende de las decisiones que
poco, si tenemos en cuenta el tamaño del corpus en el que aparece, existe la se tomaron en el diseño de este y siempre se indicarán en la documentación o en
f r e c u e n c i a n o r m a l i z a d a . En los dos casos expuestos arriba, la frecuencia es la la página web del corpus. Por ejemplo, en el CORPES, al situar el ratón encima
misma (5), pero no la frecuencia normalizada. En un caso, estudiante representa de Fnorm cuando se busca una palabra, un cuadro explicita "N de ocurrencias por
el 1 % del corpus (1 palabra de cada 100 de las que aparecen), mientras que en cada millón de palabras en cada zona", pero en Google NGrams (otro corpus que
el segundo caso constituye el 0,0001 % del corpus. La frecuencia normalizada se usará en este libro) la frecuencia se expresa en porcentaje.
se calcula dividiendo el n ú m e r o de ocurrencias entre las palabras totales del
corpus y, normalmente, se expresa en porcentaje, como hemos hecho aquí. La
38 39
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS
Para decidir si algo merece ser considerado como colocación, medimos su fuerza
calculando el n ú m e r o de veces que las palabras aparecen juntas respecto de
las que aparecen por separado. Esa medición de la "fuerza de la colocación" se
realiza mediante el llamado c r i t e r i o d e c o s t o (cost criterio) que consiste en una
Figura 2. Concordancias del lema aprendiente en el corpus CORPES fórmula, que no veremos aquí, creada por Kita et al. (1994). Esta fórmula se creó
precisamente para determinar qué colocaciones de un corpus sería útil enseñar
3.5. COLOCACIONES en clase de lengua extranjera. Es gracias a ella y a sus adaptaciones que los corpus.
nos pueden ofrecer una lista finita de las colocaciones que aparecen en él. Si no
Relacionado con el concepto de concordancias, existe el concepto de colocación,
existiera un filtro para decidir qué es una colocación, cualquier palabra podría
que quizá conozcas de diferentes estudios de gramática, si has estudiado una
ser colocado de otra en el m o m e n t o en el que aparecieran juntas una vez, como
filología, o de los enfoques léxicos en ELE. De hecho, de los conceptos vistos
aparecer juntas, y eso sería muy poco informativo.
hasta ahora el de colocación es el único que ha sido explotado en ELE gracias al
enfoque léxico. Por lo tanto, dependiendo de su criterio de costo, las colocaciones pueden ser más
fuertes o menos. Es decir, hay palabras que se combinan muy frecuentemente con
Una c o l o c a c i ó n es una secuencia de palabras que aparecen juntas. En términos
otras y solo con esas. Casos de estas serían: módico precio, horas intempestivas, pingües
teóricos, podría ser cualquier tipo de secuencia desde frases lexicalizadas (y el
beneficios, error garrafal; donde el adjetivo módico solo se usa para modificar a precio;
estadio más avanzado sería un refrán) hasta secuencias de palabras que aparecen
en español, lo único que es intempestivo son las horas; lo único que es pingüe
en un orden concreto. Por ejemplo, en español decimos blanco y negro, mientras
son los beneficios; y lo único que es garrafal son los errores. En cambio, otras
que en inglés se dice black and white, que se traduciría literalmente por "negro y
tienen una fuerza más limitada. Blanco y negro es una colocación y como tal estas
blanco". Pero en lingüística de corpus se contemplan principalmente colocaciones
palabras aparecen con mucha frecuencia juntas, pero también usamos con mucha
formadas por dos o tres palabras.
frecuencia las dos palabras por separado, ya que podemos decir que un coche es
En español, son especialmente productivas aquellas formadas por: blanco o que es negro sin problemas.
• un nombre 4- preposición 4 nombre: punto de encuentro, punto de vista, Hoy en día existen al menos dos manuales de ELE que hacen un uso extenso de las
plan de pensiones... colocaciones en clase. El primero, de la editorial Difusión, se presentó en 2011:
• un nombre + adjetivo: horas intempestivas, nariz aguileña... se trata del manual "Bitácora", disponible de A l a B2, y las integra en la clase
40 41
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS
como "Palabras en compañía". El segundo, Frecuencias de Edinumen, se presentó 3.8. PARA MAS INFORMACIÓN
en 2020 y se ha creado a partir del corpus CORPES. Otros manuales que incluyen VUlayandre Llamazares, M. (2008). Lingüística con corpus (I). Estudios Humanísticos. Filología,
colocaciones, pero no están basados únicamente en ellas, son Aula internacional, (30), 329-349.
Gente hoy, Gente joven, C de Cl, Campus Sur y Reporteros internacionales (Difusión) y
Nuevo Prisma de Edinumen en el nivel C. 3.9. ACTIVIDADES
También gramáticas como la Gramática comunicativa del español (Matte Bon, 1995) 3 . 9 . 1 . Ve a l a w e b d e l CORPES (http://web.frl.es/CORPES/view/
usan de manera indirecta las colocaciones cuando pueden sacar provecho de ellas inicioExterno.view).
para explicar de manera más sistemática la gramática. Esto no nos debería extrañar 1. Consulta la estadística de una palabra gramatical, por ejemplo, de y de una
si recordamos que el primer propósito de la creación de corpus fue precisamente palabra léxica, por ejemplo, amigo. Anota la frecuencia relativa de cada una
la creación de diccionarios y gramáticas basados en el uso. Si tienes curiosidad de las palabras que hayas escogido. ¿Cómo está normalizada la frecuencia?
sobre las colocaciones, puedes consultar en línea el Diccionario de Colocaciones del ¿Por millón? ¿En porcentaje? ¿Por qué crees que la palabra gramatical es
Español (DICE). más frecuente?
2. Busca forma y lema de amigas en el CORPES y observa los resultados. ¿Por qué
3.6. CORPUS ANOTADO
amigas no se puede buscar como lema? ¿Cuál sería entonces el lema de amigas?
La ventaja de los corpus es que son conjuntos de datos ordenados y estructurados: 3. Si quiero obtener información sobre el uso de la palabra jueza en los últimos
cuanta mayor información se incluya de las palabras, podremos hacer búsquedas años, ¿tendría que buscar por forma o por lema?
más refinadas. Por ejemplo, en un corpus que contenga errores de estudiantes de
nivel B l , puede ser útil tener los datos ordenados por Ll de los aprendientes o 3.9.2. Ve al C o r p u s D i a c r ó n i c o d e l E s p a ñ o l ( C O R D E ) y r e a l i z a u n a
por tipo de error. Así, podríamos obtener los errores de orden de palabras más c o n s u l t a d e la p a l a b r a cambera,
habituales en sinohablantes de nivel A2. Esto es lo que llamamos un c o r p u s 1. Pincha en VER ESTADÍSTICA para ver la frecuencia, ¿está normalizada?
a n o t a d o . Los niveles de anotación pueden ser múltiples, podemos anotar desde 2. Vuelve atrás y pincha en OBTENCIÓN DE EJEMPLOS > RECUPERAR. Fíjate en los
la categoría morfológica de las palabras, o los papeles temáticos (a veces llamados textos donde se ha encontrado. ¿De dónde es típica?
r o l e s s e m á n t i c o s , como en el corpus ADESSE que veremos en las actividades de 3. ¿Crees que el corpus C O R D E está lematizado?
este capítulo) hasta, como decíamos, el tipo de error o si una grabación contiene
3.9.3. B u s c a e n e l CORPES las c o l o c a c i o n e s ( e n e l CORPES las l l a m a n
risas o si un manuscrito original estaba rasgado. Se verá más en detalle en el
coapariciones) d e c a t e g o r í a v e r b o d e la palabra posibilidad.
capítulo siguiente.
1. ¿Cuáles son las colocaciones V + N (verbo seguido de n o m b r e ) más
3.7. CORPUS LEMATIZADO frecuentes? Para hacerlo, en el menú superior, selecciona COAPARICIONES.
Los corpus pueden estar l e m a t i z a d o s . Es decir, que para cada f o r m a de cada En clase de palabra, selecciona NOMBRE. Para ordenar los resultados, pincha
palabra (variante) alguien ha anotado a qué lema (a qué entrada del diccionario) en los encabezados de la tabla de resultados, por ejemplo, FREQ, CLASE.
pertenece esa forma. De esta manera si buscamos en un corpus el lema vivir, 3.9.4. A h o r a v a m o s a b u s c a r c o l o c a c i o n e s e n e l C o r p u s d e l Español
aparecerán todas las concordancias de formas de ese lema como Yo vivo en Canarias (CdE) e n s u s u b c o r p u s web-dialects.
o Yo vivo en Venezuela, pero también ¿Dónde vives?. 1. ¿Cuáles son los colocados nominales más habituales del verbo querer? Si
buscas querer en minúsculas, solo aparecerán formas en infinitivo. Si
Si un corpus no está lematizado, o si prefiero buscar p o r forma, y realizo la
quieres hacer una búsqueda p o r lema, escribe QUERER en mayúsculas.
consulta vivir, solo aparecerán aquellos contextos en que vivir se ha usado en
Para encontrar los colocados, selecciona en la parte superior del cuadro de
infinitivo como Sefue a vivir a los EE. UU.
42 43
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO
3.9.5. Ve al f o r m u l a r i o d e b ú s q u e d a a v a n z a d a d e ADESSE ( h t t p : / /
adesse.uvigo.es/data/avanzado.php). Busca p o r rol semántico y
s e l e c c i o n a e l s i g u i e n t e r o l : SENSACIÓN.Al -EXPERIMENTADOR. P u l s a e n
REALIZAR BÚSQUEDA y, d e s p u é s , VERBOS. ¿Por q u é p o d r í a s e r i n t e r e s a n t e
p r e s e n t a r e s a lista d e v e r b o s j u n t o s e n clase?
44
4. TIPOLOGÍA Y DISEÑO DE CORPUS
Este capítulo es, probablemente, el más técnico del libro, pero hay que pensar
que el objetivo no es tanto saber crear un corpus de millones de palabras por
nosotros mismos (ya hay lingüistas que se dedican a ello), como aprender, por
una parte, la filosofía que hay detrás de los corpus para comprender los errores
TIPOLOGÍA Y DISEÑO DE CORPUS o incongruencias que puedan aparecer en las búsquedas, y, por otra, aplicar el
conocimiento desarrollado por personas que consagran su vida a los grandes
corpus a nuestros pequeños corpus de clase tomando prestadas todas las ideas de
organización y anotación que sea posible.
4 . 1 . TIPOS DE CORPUS
Al igual que se puede realizar una clasificación de los alumnos de un aula según
diferentes criterios: como el nivel, la lengua materna, si prefieren destrezas orales
o escritas, etc., también los corpus se pueden clasificar de acuerdo con diferentes
criterios. En este epígrafe, clasificamos los corpus siguiendo muy de cerca los criterios
usados porTorruella y Llisterri (1999), pero no sería la única clasificación posible.
47
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS
Bilingües Por regla general, los c o r p u s d i a c r ó n i c o s son aquellos que contienen datos
paralelos históricos (como el C O R D E ) . Aunque, de hecho, un corpus como Google
NGrams, también está enfocado a la visión de la evolución en el tiempo de una
Esquema 4. Tipología de corpus palabra, así que hacer búsquedas diacrónicas con él es muy fácil. Además, hay que
tener en cuenta que se puede usar un corpus diacrónico para hacer sincronía, se
Una de las primeras clasificaciones que se puede hacer es por el tipo de contenido puede describir el uso de los pronombres de cortesía en el siglo xvi centrándose
del corpus. Así se puede diferenciar entre corpus escritos, orales o audiovisuales, solo en eso y no en su evolución, y se estaría describiendo en sincronía. Por último,
en el caso de las lenguas de signos. En la misma línea, se pueden clasificar por corpus que describiríamos como sincrónicos (como el SOL), pueden contener, por
soporte: texto (tanto los escritos como los orales transcritos), audio (orales ejemplo, textos de los años setenta, y, por lo tanto, no serían adecuados sustantivos
con transcripción alineada) o audiovisual (en video con anotación de los gestos como ordenador, o internet, porque, aunque sean sincrónicos, no son actuales.
4cS 49
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS
Según esta misma filosofía de clasificación, los corpus pueden ser de Ll o de L2 o D«rabtee»a»tomeftebacWn9prot»ctslhebe«agBlnstenvfronnwnlal [„.J la correa de la contortnadón ambiental y del desgasta causado
pcíutkH»as\wlas(rkakwalW6«rHpoweristransmittedfromtheback pc< la W<xlón si se transmite la potefwáa por el dorso dota correa.
lengua extranjera; estos últimos se llaman c o r p u s d e a p r e n d i e n t e s o c o r p u s OfthebeK. Btgates.com
d e e r r o r e s y, por su relevancia en nuestro campo, les vamos a dedicar todo un YouwMIraveto wear thebandagesforattoast2 weeksafteryour Deberá utilizartaswndas por lo mern» 2 semanas o hasta que su
& hMiswoysahjdguale.com médico le Indique. » turlsmoysaiudgvate.com
capítulo, el 6.
[...] must be deslgned and constructed in such a way as to prsvent [...] elevación se deben diseñar y fabricar de manera que se eviten
teUurefrwnfa%iearKJwe8r,taWngduea<xount^theirlnteno^d losfallosdebidos a la fatiga o al desgaste habida cuenta del uso
También podemos agrupar los corpus según el tipo de anotación que tienen. Así, use. &* ewopaif.wmpa.eu previsto. & europm1.auropa.au
un corpus sin anotación sería un c o r p u s c r u d o (raw), y también tendríamos Tines are subjecttomuch tesa wear -longerservice Ife. Las púas se desgastan muer» menos lo que se traduce en una vida
& poitinger.fr Uta más larga. E* pomnger.tr
c o r p u s m a r c a d o s y a n o t a d o s (veremos qué son en los apartados 4.4 y 4.5).
Asymptomofthlswe8risthespindlerm)t<)rbeoomlngnoisierand Un síntoma da este desgasto es que el motor de giro cada vez hace
read/write performance decreasing. e* storago toshiba.ou más ruido y disminuye el rendimiento de la lectura/escritura.
Un universo particular y especialmente interesante para el ELE es el de los c o r p u s
m u l t i l i n g ü e s . En ellos podemos encontrar corpus comparables, paralelos, Edwards, ahighschoolteacher.seemstoaNvayswearasmieonher Edwards, una profesora de escuela secundarla, siempre parece
faoeamlhaveatrMughtfülwordofadvteetoglve. tener una sonrisa en su rostro y sabios consejos para ofrecer.
paralelos alineados... Veamos en qué se diferencian. Los c o r p u s c o m p a r a b l e s
&* bvinechildreivshospttal.org &*espanol.levinech...ronst>o$pttal.org
contienen textos parecidos en dos o más lenguas: c u r r í c u l u m s , cartas de
presentación (es decir, cartas formales), anuncios de alquiler y venta en inglés y
Figura 3. Ejemplo de búsqueda de la palabra wear en inglés
en español, etc. Estos corpus tienen mucho potencial en nuestro campo porque en
ellos contamos con ejemplos reales de textos que están muy convencionalizados Por último, según la cantidad (tamaño de muestra) y distribución de los contenidos,
para cada lengua. Por ejemplo, recursos que han usado nativos del español para los corpus pueden ser de tres tipos. Pueden ser c o r p u s e q u i l i b r a d o s , que
poner un anuncio de venta que los estudiantes pueden usar como modelo y copiar contienen la misma cantidad de muestras de cada periodo/autor, género, tipo o
adaptando los datos de los metros cuadrados o el número de habitaciones. nacionalidad; c o r p u s m o n i t o r e s , que van creciendo con el paso del tiempo para
reflejar el habla actual; o c o r p u s o p o r t u n i s t a s , aquellos que se crean con un
Otra clase de corpus multilingües son los c o r p u s p a r a l e l o s , que contienen el
propósito concreto, por ejemplo, para ver el uso de la lengua de un grupo que ha
mismo texto traducido a otra lengua, por ejemplo, una novela y su traducción al
seguido un programa lingüístico concreto. Este método de clasificación está ligado
español o una página web en su versión inglesa y española.
íntimamente con la noción de representatividad, por lo tanto, vamos a verlos con
Si además el corpus paralelo está a l i n e a d o , el texto traducido se muestra junto más detalle en el siguiente epígrafe.
con el original para hacer más fácil la comparación. Este tipo de corpus son
especialmente útiles para los estudiantes, y, de hecho, muchos estudiantes los usan 4.2. REPRESENTATIVIDAD
aun cuando sus profesores de lengua extranjera no se los hayan mostrado nunca. Algo r e p r e s e n t a t i v o es algo que refleja de manera fiel la realidad que quiere
Vamos a ver cómo un estudiante podría llegar a un corpus paralelo alineado. imitar. Así, un dibujo representativo de un perro será un dibujo en el que el perro
Pongamos que está preparando una redacción y quiere decir que la ropa del tiene cuatro patas y se parece a un p e r r o de verdad. Además, para que todo el
personaje que está describiendo está muy gastada. En inglés, la palabra en la que mundo lo considere representativo es más probable que el dibujo sea de un pastor
alemán que de un chihuahua. Esto último es la prototipicidad y, aunque es un
estará pensando es wear. Si busca en Google "wear in Spanish", el primer resultado
concepto subyacente en los corpus (lo pro to típico aparece más), no lo vamos
será la traducción automática que dice vestir, pero el alumno sabe que ese no es el
a tratar de manera detallada. El concepto pertenece al ámbito de la lingüística
sentido de la palabra, que él no quiere la palabra wear en el sentido de llevar puesto,
cognitiva (Cuenca & Hilferty, 1999).
no quiere un verbo, que es lo que ha aprendido en clase. Si sigue bajando a los
resultados de búsqueda, encontrará uno de Linguee que promete darle la palabra La primera pregunta que debemos hacernos cuando nos disponemos a recoger
con ejemplos de uso. Lo que verá ahí (figura 3) serán ejemplos en inglés y en un corpus es: ¿De qué queremos que sea representativo?. Si yo quiero hacer un corpus
español. De este modo, el alumno puede buscar la frase en inglés que expresa lo de "la lengua" y solo grabo adolescentes en el patio del instituto, obtendré una
que él quería decir y ver cómo se ha traducido en español. muestra s e s g a d a en la que habrá, por ejemplo, muchos insultos (de hecho, eso es
50 51
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS
algo que pasa en el corpusVal.Es.Co, un corpus más que recomendable para hacer En las clasificaciones del apartado anterior hemos visto que existían corpus
reír a nuestros alumnos) (Briz Gómez et ál., 2002). Si, por el contrario, quiero llamados equilibrados {balancea1), monitor y oportunistas. Visto en términos de
una muestra r e p r e s e n t a t i v a del español, es decir, e q u i l i b r a d a , necesito grabar representatividad, un c o r p u s e q u i l i b r a d o sería el más representativo y el que
a gente de todas las edades. tiene un diseño más riguroso. Este tipo de corpus es útil en términos de calidad
cuando se está creando un corpus muy grande para una editorial que creará un
El concepto de m u e s t r a es clave o, más específicamente, el tamaño de la muestra.
diccionario, pero no siempre más diseño quiere decir mejor.
Cuando creamos un corpus, no tenemos acceso a toda la población, que en
lingüística sería toda la lengua producida por todos los hablantes durante toda la Un c o r p u s m o n i t o r tiene un diseño menos definido porque, según va creciendo
historia. A lo único que tenemos acceso es a una muestra. Exactamente igual que para reflejar el habla de cada m o m e n t o , las proporciones de cada tipo de texto
en las encuestas del CIS cuando dicen que el 30 % de la población española hace pueden ir cambiando. Precisamente por eso, es un corpus que refleja el habla actual
algo, y los niños preguntan: ¿Y cómo lo saben? ¡Si a mí nadie me lo ha preguntado! En de manera más fiel que un corpus general que tenga un diseño más equilibrado.
lingüística, decimos que los hablantes usan el subjuntivo detrás de no creo que, pero Este tipo de corpus es al que acudiremos para hacer consultas de lengua, para
no se lo hemos preguntado a todo el mundo, tenemos m u e s t r a s del habla. saber cómo es el español hablado por nativos, para explicar gramática a nuestros
Solo hay un tipo de corpus en el que no tenemos una muestra, sino toda la lengua: alumnos, para tomar ejemplos de habla real o para dejar que los mismos alumnos
se trata de los corpus c a n ó n i c o s , que contienen toda la obra de un autor. En este hagan ejercicios, pero no es el tipo de corpus que un profesor va a construir, a
caso, como tenemos toda la obra del autor, en términos estadísticos, no tenemos no ser que haga un cambio de carrera, deje las clases (o la formación) y entre a
una muestra de la población, sino la población al completo. Estos corpus son trabajar como lingüista computacional. En cambio, sí que son útiles para usar, y,
perfectamente representativos, aunque poco útiles para nosotros. para ello, es importante que saber sus criterios de diseño y ser conscientes de 1)
qué tipo de lengua tiene, 2) cuántos millones de palabras contiene o, 3) como en
El resto de los corpus, para que sean representativos, tienen que estar bien diseñados. el caso del corpus SOL que vimos en los ejercicios del capítulo 2, qué años cubre.
Antes de recoger los datos, hay que pensar cuántos datos queremos recoger de
cada estamento o de cada grupo. Así, si queremos hacer un corpus de novela,
nos plantearemos qué tanto por ciento de novelas de cada género se incluirán.
Oportunista m Monitor * Equilibrado
¿Incluiremos el mismo porcentaje de cada género? ¿O quizá preferimos incluir más
novelas históricas porque se publican más que, por ejemplo, de ciencia ficción?
Lo mismo se aplica a cualquier tipo de corpus. Tomando el ejemplo de un corpus Esquema 5. Tipos de corpus ordenados según su representatividad
de ELE, ¿cuántos alumnos tenemos que incluir? ¿Tenemos que incluir los mismos
Probablemente, ya sea para realizar un trabajo académico, como creador de
alumnos de Al que de C2? La respuesta a esta pregunta no es fácil y depende del
materiales o como profesor, para tener una idea de los errores que comete un
objetivo de nuestro trabajo. Es cierto que en el mundo hay más estudiantes de Al
grupo de alumnos, se va a crear un c o r p u s o p o r t u n i s t a porque no interesan
que de C2. Por lo tanto, si queremos una muestra representativa de los alumnos
todos los alumnos de ELE del m u n d o . Los corpus oportunistas, pese a la
de español en el mundo escogeremos más de A l . N o obstante, si el corpus es
connotación negativa de la palabra, no son malos, simplemente, están diseñados
para realizar un análisis, nunca vamos a mezclar los datos de Al con C2, porque
para responder una pregunta concreta, y, por lo tanto, solo se pueden usar para el
los tipos de errores que cometen en cada nivel, las estructuras que usan, todo es
trabajo para el que fueron diseñados, mientras que un corpus general de la lengua
demasiado diferente, así que haremos dos análisis y después los compararemos.
puede servir para dar respuesta a todo tipo de trabajos.
Como el resultado final será una comparación entre grupos (grupo de A1 y de
C2) para que esté equilibrado, necesitaremos tener el mismo número de alumnos Cuando tenemos un objetivo concreto, necesitamos un corpus específico y eso
en los dos grupos. significa crear un corpus oportunista. Por ejemplo, en el caso de un estudio en el
que se quieren analizar errores cometidos en el subjuntivo en alumnos de nivel C
52 53
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS
de origen italohablante, necesitamos justamente eso y nada más. Por lo tanto, el En el caso de los corpus orales, se pueden usar grabaciones recogidas de televisión,
corpus que crearemos estará sesgado, porque no incluirá alumnos de diferentes entrevistas, o provenientes de contextos de interacción específicos como por
L l , pero es lo que nos interesa para el objetivo de nuestro trabajo. ejemplo las preguntas en una oficina de venta de billetes de tren. En el caso de los
En el caso de trabajar con un grupo de clase, nos interesarán todas las redacciones corpus de segunda lengua, esas grabaciones serán de tareas de clase.
que han producido nuestros alumnos durante el año, quizás en una tarea concreta, Todos los corpus compilados que se han explicado hasta aquí son tipos de corpus
para ver su tipología de errores. Ese corpus será representativo solo de nuestra profesionales, que se crean para su explotación por parte de una empresa, y son,
clase de ese año y no de todos los grupos que hemos tenido, ya que un grupo por tanto, corpus de gran envergadura. Aunque, una vez más, es poco probable
puede tener muchos problemas con el uso del imperfecto y el indefinido, y al que alguien que se dedica al mundo del ELE tenga que compilar un corpus tan
año siguiente ninguno porque los estudiantes provienen de una lengua materna grande.
diferente. En cualquier caso esos son los datos que nos interesan en ese momento.
En general, el profesor de ELE tendrá bastante con explotar los corpus que hayan
La diferencia tiene que ver con qué se quiere representar: un corpus oportunista es recogido otras personas, pero también es posible que necesite compilar corpus
representativo de una sección muy pequeña de la lengua, mientras que un corpus propios. En ese caso, será un corpus de aprendientes de ELE, es decir, específico, y
equilibrado tiene como objetivo representar la l e n g u a , si es que eso es posible. si se hace para una investigación en concreto (por ejemplo, para el trabajo final de
máster) será, además, un corpus oportunista. Este tipo de corpus, dado su tamaño,
4.3. COMPILACIÓN requerirán de técnicas mucho más artesanas para su recopilación.
Una vez decidido el tipo de corpus que se creará y su tamaño, el primer paso para
Básicamente, el corpus podrá consistir en:
crearlo es recoger (recopilar) los materiales que formarán parte de este.
1. las producciones textuales de nuestros alumnos durante un p e r i o d o
En el caso de los grandes corpus textuales (equilibrados o monitor), esa compilación
determinado, por ejemplo, sus redacciones o los correos electrónicos que
suele consistir en ir a una biblioteca, recoger una serie de libros y revistas y
nos escriban. Siempre estarán digitalizados, es decir, si nuestros alumnos
escanearlos con un reconocedor óptico de caracteres ( O C R ) que permitirá su
nos entregan las redacciones escritas a mano, tendremos que copiarlas en
digitalización. Este proceso se realiza todavía hoy para la digitalización de libros
el ordenador (con sus errores incluidos, así que habrá que desconectar el
impresos. Es lo que hace Google Books, pero también corpus de referencia que
autocorrector), para después poderlas procesar de manera automática;
están digitalizando obras publicadas en el siglo xx, como el CORPES.
2. en las producciones orales de nuestros alumnos grabadas digitalmente y,
Sin embargo, hoy en día, muchos corpus nacen digitalizados; son textos disponibles posteriormente, transcritas.
en la web, que no tienen un formato impreso. Por ejemplo, son muy abundantes
los corpus consistentes en textos de laWikipedia, deTwitter o de las opiniones 4.4. MARCAJE 0 CODIFICACIÓN DE CORPUS (MARK-UP)
que dejan los usuarios en Amazon (Fornaciari & Poesio, 2014; McCreadie et
Imaginemos que durante años recopilamos redacciones de nuestros estudiantes
ál., 2012; Reese et ál., 2010). En este caso, la compilación es diferente, ya que
para convertirlas en un corpus. Cuando r e c u p e r a m o s todos esos archivos,
no es necesario digitalizar los textos. Para recoger este tipo de corpus se crea
pongamos 200, nos damos cuenta de que el nombre del archivo es el que tenía
un pequeño programa informático que se encarga de recoger el texto que se
cuando los alumnos nos lo enviaron por correo electrónico: a veces su nombre,
va generando en la web (por ejemplo, enTwitter) y lo guarda en ficheros txt o
a veces el nombre de la tarea, a veces incluyen el grupo, a veces el nombre del
en una base de datos (web scraping). Desde luego, como profesores de ELE, no
archivo es simplemente "español.doc" y el alumno ni siquiera incluyó su nombre
es necesario que nosotros lleguemos a esto (a no ser que tengamos interés); los
dentro de la redacción (¡qué escenario tan habitual!).
lingüistas computacionales se encargan de recoger esos textos y ofrecérnoslos con
una interfaz de búsqueda bonita y fácil de usar. Hemos recopilado el corpus y lo tenemos digitalizado, pero no tenemos ninguna
pista sobre cómo ordenarlo. Para evitar eso, en nuestros corpus oportunistas,
54 55
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS
normalmente ponemos un nombre de archivo que sea útil para la clasificación, En la figura 4, se puede ver en qué consisten "las tripas" del mareaje. Sin embargo,
algo c o m o " 2 0 2 0 _ s e p t i e m b r e _ d e s c r i p c i ó n _ L l i n g l é s _ B l . d o c x " . Ese tipo de como usuarios finales de corpus, no necesitamos ver esas tripas. Los corpus con
nombres nos ayudan a identificar el contenido del fichero. los que vamos a trabajar como usuarios nos permiten hacer búsquedas basadas en
un autor o en un periodo de tiempo gracias a que están marcadas de esa manera,
Pues eso, pero un poco más complejo, es el m a r e a j e o codificación de corpus
pero en la visualización final el mareaje no aparece.
(mark-up). Llevando la t e r m i n o l o g í a de c o r p u s al ámbito de la lingüística
más tradicional, podríamos decir que el mareaje explicita datos del contexto
(autor, lugar, f e c h a . . . ) . Los datos que se incluyan en el mareaje dependerán,
de nuevo, del objetivo del corpus. Por ejemplo, si estamos haciendo un estudio
experimental para trabajar la pronunciación con dos grupos de alumnos y en
uno hemos trabajado con m é t o d o verbo-tonal (Billiéres, 2015) y, en el o t r o ,
con método audiolingüe, incluiremos esa información en el mareaje del corpus.
Así, cuando t e n g a m o s que analizar los r e s u l t a d o s , c o m p r o b a r qué g r u p o
ha aprendido más, nos será m u c h o más fácil p o r q u e ya t e n d r e m o s los datos
clasificados. Si, en cambio, estamos creando un corpus de novelas, incluiremos
la fecha de publicación de la novela, los años que tenía el autor cuando la publicó Figura 4. Mareaje del Oxford English Dictionary (fuente: Wikimedia Commons)
o su profesión.
Si los usuarios del corpus vamos a ser nosotros mismos, crearemos un sistema de Saber cómo funciona el mareaje nos sirve para entender cómo son posibles las
mareaje que nos sea útil para nuestro propósito y que para nosotros sea natural, búsquedas y por qué, por ejemplo, Google NGrams nos puede devolver como
que esté en línea con nuestra manera de pensar. Pero ¿qué pasa en los grandes propia del año 2007 la forma medieval mientre. ¿Cómo puede pasar eso? Pues
corpus en los que hay muchos compiladores que trabajan a la vez y muchos porque muchas ediciones modernas de textos antiguos, por ejemplo, publicadas
usuarios potenciales? En esos casos, el mareaje tiene que ser una solución de en los 2000, están marcadas como primera edición del texto (lo cual es cierto)
consenso, algo que sea útil para la mayor cantidad posible de usuarios y, además, y, e n t r e ellas, en el año 2007 hubo un t e x t o que empezaba así: "De los sos
algo que todas las personas que compilan y marcan el corpus hagan de la misma ojos tan fuerte mientre lorando"o que, simplemente, citaba este archiconocido
manera. Por eso, a lo largo de la historia, ha habido grandes iniciativas en las que inicio del Cantar de Mió Cid.
se han propuesto maneras sistemáticas de anotar un corpus. La segunda cosa que podemos aprender del mareaje de textos profesional es la
Para ver una revisión completa de sistemas de codificación se puede consultar estrategia de mareaje que se debe tener para los corpus de clase. Para nosotros,
Hardie (2014). Algunas de las iniciativas más populares han sido la Text Encoding el mareaje no tiene por qué estar en un archivo XML. Puede ser simplemente
Iniciative (TEI) (Ide & Véronis, 1995), C O C O A (McEnery & Wilson, 1996) un n o m b r e de archivo claro, que nos p e r m i t a recuperar toda la información
necesaria del autor de la redacción. La información que debería c o n t e n e r
o Standard Generalised Markup Language (SGML), si bien ahora se prefieren
aplicada al ELE de manera potencial (no siempre hace falta t e n e r en cuenta
métodos basados en etiquetas XML que son también las usadas actualmente en
tantas variables) podría ser:
biblioteconomía.
56 57
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO OE CORPUS
59
4. TIPOLOGÍA Y DISEÑO DE CORPUS
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO
De nuevo, para la anotación de nuestros corpus (sobre todo si es para un trabajo 4.7.4. Hace unos años, el corpus de libros publicados de Google Books
concreto) quizá solo nos interese anotar un tipo de error dependiendo de lo que se habilitó como corpus a través de una interfaz de búsqueda (https:/ /
estemos estudiando. b o o k s . g o o g l e . c o m / n g r a m s ) . Como e x p l i c a b a n e n la charla TED
recomendada en el capítulo 2, este corpus es u n o de los más visuales
La anotación de los corpus lleva mucho tiempo y, si no estamos creando un corpus
para ver cambios culturales en español. En el capítulo 8 veremos cómo
para que esté disponible en línea para un gran número de usuarios, no tiene
llevarlo a clase de ELE, pero de momento, vamos a explorarlo. En la
sentido que le dediquemos horas a un trabajo que después no vamos a explotar.
parte superior, escoge el corpus "Spanish 2012" y busca en esa interfaz
Para dar una idea de la cantidad de trabajo que supone, el tiempo necesario para
de manera conjunta la palabra médico y médica y observa su frecuencia
transcribir un minuto de grabación es de una hora, así que quizá nos merece la
a través del tiempo.
pena hacer un corpus más oportunista y transcribir tan solo aquellos pasajes que
sean interesantes para nuestro objeto de estudio. 1. ¿A qué crees que se deben las ocurrencias de médica anteriores al siglo xx?
2. Asegúrate de que estás buscando en la versión de 2012 (está lematizada,
4.6. PARA MÁS INFORMACIÓN la versión de 2009, no). Ahora realiza la siguiente búsqueda: "médico_
Torruella, J., & Llisterri, J. (1999). Diseño de corpus textuales y orales. Filología e NOUN, médico_ADJ, médica_ADJ, médica_NOUN". ¿Podrías explicar
informática. Nuevas tecnologías en los estudiosfilológicos,45-77. ahora qué ha pasado? Para ver todas las formas de búsqueda que permite el
corpus consulta https: / /books.google.com/ngrams/info.
4.7. ACTIVIDADES
4.7.1. Busca la información de diseño del corpus CREA, disponible
aquí ( h t t p s : / / w w w . r a e . e s / r e c u r s o s / b a n c o - d e - d a t o s / c r e a - e s c r i t o ) .
¿Crees que es un corpus equilibrado respecto al origen de las obras?
¿Por qué?
4.7.2. En el mundo del ELE, ¿un corpus de errores de alumnos de Ll de
todas las lenguas del mundo estaría equilibrado? ¿Sería útil?
4.7.3. El corpus CLUVI, recopilado por la Universidad de Vigo, es
el corpus más c o m p l e t o e n español de lenguajes especializados y
traducción. Es u n o de los corpus q u e se puede usar en español c o n
fines específicos. Para ver algunas d e sus funcionalidades ve a la
web: h t t p : / / s l i . u v i g o . e s / C L l I V I / i n d e x . p h p # . En la parte superior
i z q u i e r d a , PESCUDAR TEXTOS, e n c o n t r a r á s el a c c e s o a l o s c o r p u s
organizados por tipo lengua especializada y lenguas:
1. En el corpus de terminología legal, busca como se traduce el "fallo" jurídico
de español a gallego.
2. Busca la traducción de totally al español y de completamente al inglés en
textos literarios. ¿Qué puedes decir sobre cómo se traducen esos adverbios?
3. ¿Cuál es la traducción de habitual de ignore al español en textos literarios?
¿Y en subtítulos?
60 61
5. APLICACIONES DE LOS CORPUS EN LA ACTUALIDAO
5.1. LEXICOGRAFÍA
Tal y como hemos visto en la sección de historia, uno de los primeros usos de los
corpus fue la creación de diccionarios, es decir, la lexicografía (Rojo, 2009).
Hoy en día, los diccionarios siguen incluyendo ejemplos, pero, cada vez más,
estos están extraídos de corpus, por ejemplo, de noticias. Aunque este no es su
único uso.
63
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 5. APLICACIONES DE LOS CORPUS EN LA ACTUALIDAD
Para empezar, tal y como pasaba en el COBUILD, los corpus se usan para un corpus como base es Longman Grammar ofSpoken andWritten English (LGSWE,
seleccionar el léxico que se incluye en los diccionarios. En algunos casos, los B i b e r e t á l . 1999).
diccionarios aspiran a incluir todo el lexicón de una lengua, pero, en otros, se
Las ventajas del uso de corpus en la investigación lingüística radican en que se
incluyen solo las palabras m á s f r e c u e n t e s . La determinación de cuáles son las
pueden comprobar las hipótesis con datos, por lo tanto, hacen que el estudio
palabras más frecuentes se hace mediante corpus.
empírico del lenguaje sea posible y, además, permiten la cuantificación de los
Muchos diccionarios, además del significado de la palabra, incluyen alguno de fenómenos. Así, afirmaciones basadas en las creencias de los lingüistas, como que
sus patrones colocacionales. Por ejemplo, para los verbos que rigen preposición las mujeres hablan más que los hombres, (específicamente. Liberman afirmó en
se incluye esa preposición, como en llenar de. En el caso de los diccionarios 2006 que los hombres usan exactamente 7000 palabras al día mientras que las
combinatorios, se incluyen el lema y las palabras junto a las que aparece más mujeres usan 2 0 0 0 0 (Liberman, 2006)), se ven refutadas por los datos que nos
frecuentemente, como llenar a medias o llenar de alegría. muestran que tanto hombres como mujeres dicen unas 15 000 palabras al día
(Mehletál.,2007).
Sabemos que existen corpus enriquecidos con anotaciones que permiten extraer
de manera automática información como las categorías gramaticales. La existencia El uso de corpus facilita estudios que no se podrían realizar de modo introspectivo
de estos corpus permite que algunos diccionarios incluyan información sobre como, por ejemplo, las diferencias entre el uso oral y el escrito del lenguaje,
cómo se usa la palabra, es decir, ¿se usa el adjetivo conocido como nombre (me usos particulares del discurso oral, estudios de dialectología... Como se puede
encontré a un conocido)? ¿Es más frecuente el uso de joven como nombre (el joven) o observar las posibilidades de los estudios basados en corpus son infinitos y, de
como adjetivo (el hombre joven)? hecho, cualquier investigación lingüística que se precie en la actualidad hará uso
de corpus.
En el caso de que un corpus contenga información semántica, esta también se
puede aprovechar para la realización de diccionarios. Por ejemplo, se pueden
5.3. ESTUDIOS DE TRADUCCIÓN
extraer todas las palabras de un campo semántico o confeccionar un diccionario
de hiperónimos y sus hipónimos, o agrupar palabras por polisemia o homonimia. Los estudios de traducción se caracterizan por el uso (junto con los de lingüística
contrastiva), de los corpus multilingües o bilingües, y paralelos (alineados o no).
Por último, el enriquecimiento constante de los corpus (monitor) permite que
se puedan incluir rápidamente los extranjerismos y monitorizar como se está Estos corpus se usan en los estudios de traducción para avanzar en sus teorías
adaptando un préstamo de reciente incorporación, una información que es sobre los rasgos de la lengua traducida, el llamado traducciones (Corpas Pastor,
fundamental en un diccionario de uso. Por ejemplo, ¿es más habitual, marketing, 2008). Además, a partir de estos corpus se realizan comparaciones de estructuras
márqueting o márquetin? ¿Cuál de estas tres opciones debería aceptar la Academia? lingüísticas en dos lenguas y se cuantifican. Vamos a ver un ejemplo entre español
e inglés con las palabras completamente y absolutamente. A partir de corpus, se puede
5.2. INVESTIGACIÓN LINGÜÍSTICA estudiar qué tanto por ciento de las veces absolutely se traduce por absolutamente
y en qué casos p o r completamente y al revés, cuando completelj se traduce por
Los corpus también son una herramienta útil para la investigación básica en
completamente. El resultado de este estudio permite mostrar que la distribución es
lingüística. Con ellos se puede describir un fenómeno lingüístico o una lengua
diferente en inglés que en castellano, es decir, absolutely, no siempre se traduce por
completa. Se pueden hacer descripciones generales de la lengua o de una variedad
absolutamente y completely no siempre se traduce por completamente.
concreta, ya sea una variedad dialectal, sociolectal o un registro.
O t r o ejemplo interesante es el de los verbos causar y cause. A partir del análisis
Tal y como pasaba con los diccionarios, los corpus se han usado para crear
del contexto en el que aparecen, se puede observar que, en español, causar se
gramáticas desde hace mucho tiempo. En paralelo a la creación del COBUILD, se
puede usar con predicados con una carga semántica positiva o negativa, es decir,
creó una gramática basada en el mismo corpus: se trata de A Comprehensive Grammar
se pueden causar cosas buenas y malas, pero en inglés no. De las apariciones de
ofthe English Language (Quirk et ál., 1985). Otra gramática clásica realizada usando
64 65
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 5. APLICACIONES DE LOS CORPUS EN LA ACTUALIDAD
causar en castellano solo aquellas que causan cosas negativas se traducen al inglés listas de vocabulario básico o de alta frecuencia. En los dos casos, el resultado
con el verbo cause. Por lo tanto, los contextos en los que aparece causar en español es un t e x t o o una lista de vocabulario que usan los logopedas para evaluar o
no son totalmente equiparables con los de cause; no es una traducción perfecta. rehabilitar el lenguaje.
Esto se aplica después a la enseñanza, mostrando a los estudiantes de traducción los El segundo son corpus de hablas patológicas donde se ha grabado y transcrito a
contextos de traducción de cada palabra para que puedan refinar sus traducciones. pacientes. Este tipo de corpus son los que se usan para describir el habla afectada
Además, estos corpus se usan para entrenar sistemas de traducción automática. Es y así poder determinar qué ámbitos hay que rehabilitar o para describir el habla de
decir, los sistemas informáticos aprenden que house se traduce como casa a partir cierta patología o condición. Por ejemplo, la prosodia en personas con síndrome
de corpus paralelos donde se ha traducido de esa manera. de Asperger, o incluso determinar en qué estadio se encuentra una enfermedad
degenerativa, dependiendo del tipo o la gravedad del error.
5.4. LINGÜÍSTICA FORENSE
La lingüística forense saca partido de los corpus en dos grandes campos de estudio.
El primero es el estudio del lenguaje jurídico y su simplificación para hacerlo
más accesible a los ciudadanos. El segundo (que más interés suscita) es el uso de
muestras de lengua como prueba en un juicio.
Para el primero, se usan corpus que contienen lenguaje jurídico, como sentencias
o actas, y se analiza su uso de la lengua para proponer versiones simplificadas que
hagan las leyes entendibles para el ciudadano medio.
En primer lugar, los corpus generales de la lengua. Este tipo de corpus se pueden
usar para crear textos fonéticamente equilibrados (que contienen todos los
sonidos de la lengua en la misma proporción que un texto real) y para realizar
66 67
6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA
Hasta este m o m e n t o , hemos visto una introducción a los corpus y a sus tipos,
hemos aprendido la terminología del campo y hemos visto algunas de las formas en
las que se puede explotar un corpus (hacer búsquedas). Pero en todo este tiempo,
aunque haya habido ejemplos de ELE, no se han abordado tareas específicas de ELE.
A partir de ahora, vamos a hablar de cómo explotar un corpus, específicamente en
el campo del ELE. En primer lugar, en este capítulo, vamos a tratar cómo hacer
investigaciones de ELE basadas en corpus y, en capítulos posteriores, veremos cómo
usar corpus para crear materiales, cómo llevarlos a clase para que los alumnos los
puedan usar en actividades y cómo crear corpus para corregir mejor.
69
_
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA
Pero eso no significa que los profesores de ELE no investiguen. En realidad, ¡lo 2) el análisis de errores y 3) el análisis de interlengua. Todas ellas, al tener como
hacen constantemente! La diferencia es que cuando un profesor de ELE realiza objeto de estudio la lengua, se estudian a partir de corpus.
una investigación, normalmente la hace sobre el grupo con el que trabaja en esos El análisis contrastivo supone hacer una comparación de los sistemas de dos
momentos. Es decir, creará su propio minicorpus (un corpus oportunista), que lenguas para observar sus diferencias y así prever los casos de transferencia
contendrá toda la información que tiene de su grupo de alumnos de determinado positiva y negativa que tendrán los aprendientes. Por ejemplo, si pensamos en
año junto con, por ejemplo, sus redacciones. Así, el profesor conocerá a sus la pronunciación, los francófonos tendrán problemas para pronunciar la erre [r]
alumnos, sus dificultades y sabrá si en su próxima clase tiene que volver a repasar pero no la eñe |jl], ya que la primera no existe en sus lenguas, pero la segunda
los usos del subjuntivo o el léxico de la familia. Esto es también investigación, pero sí. En cambio, los anglófonos sí tendrán problemas con el sonido nasal palatal
con algunas diferencias respecto a la investigación de las universidades. |jl], ya que no existe en inglés. Si pasamos a ver un ejemplo en el léxico, los
La mayoría de los profesores no crean un corpus propiamente dicho (no lo anglófonos pueden tener problemas para usar correctamente el verbo creer para
necesitan), sino una base de datos, ya que, como hemos repetido varias veces, un expresar opinión y harán, en su lugar, un uso demasiado habitual de pensar. Es
corpus necesariamente tiene que contener las redacciones digitalizadas y muchas decir, usarán la construcción "Yo pienso q u e . . . " , en ocasiones en que un nativo
veces el profesor las tendrá en papel. Pero quizá, a partir de ellas, haya extraído hubiera preferido "Yo creo q u e . . . " .
una lista de errores frecuentes que haya colocado en un Excel o simplemente se
Para hacer un análisis contrastivo, se pueden usar corpus generales o de referencia
haya hecho una lista de cosas que no han quedado claras. Esos apuntes-resumen que
de las dos lenguas a comparar. Si volvemos al ejemplo de pensar/creer, podríamos
tomamos los profesores al corregir una tarea no serían un corpus, sino más bien una
consultar el C O R P E S para el español y el BYU para el inglés y obtener las
base de datos. Crear un corpus digitalizado y completo de las producciones de los
concordancias de los verbos creer y believe para comprobar si tienen los mismos
alumnos llevaría un tiempo que, si no se va a explotar el corpus más tarde (se va a
usos. Pero esta no es la manera más directa de hacerlo. La manera más rápida
poner en línea o se va a compartir por toda la escuela, por ejemplo), no merece la
de acometer un análisis contrastivo es a partir de corpus paralelos, de los que ya
pena. Sin embargo, saber la metodología de los corpus de investigación hace que las
hemos hablado en capítulos anteriores. A partir de estos, podemos ver como se han
bases de datos estén organizadas de manera más eficaz, porque se pueden aplicar
traducido las piezas léxicas en la otra lengua. Siguiendo con el ejemplo de creer que
mareajes o anotaciones que se han usado en los grandes corpus de ELE.
hemos usado arriba, una búsqueda en Linguee (https://www.linguee.es/español-
Seas profesor, formador, investigador o estés haciendo un TFM (o trabajo final ingles/traducción/creer, html) revela que creer en el sentido de "pensar u opinar
de asignatura) de investigación, el objetivo final es determinar y / o mejorar la algo" se traduce por think y no por believe. Y ahí tendríamos la explicación para
eficiencia del aprendizaje. Y para explicar esa eficiencia, se pueden tener en la transferencia negativa que observábamos arriba que causa que los anglófonos
cuenta varios factores: 1) factores cognitivos (inteligencia, m e m o r i a . . . ) y factores usen el verbo pensar ("Yo pienso que") en momentos en que, en español, sería más
personales del aprendizaje (motivación, autoimagen...) y 2) factores relacionados adecuado usar creo que. Creer, en su lengua, no se usa para expresar opinión.
con las diferencias de los sistemas lingüísticos de los alumnos.
La segunda línea de investigación es el análisis de errores. Este consiste en
Para estudiar las primeras, no se usan corpus propiamente dichos, sino entrevistas describir las producciones desviadas de los alumnos. El análisis de errores
personales con datos sociolingüísticos asociados que nos muestran las actitudes de los puede ser de cualquier nivel: fonético (sonidos o entonación), morfológico
alumnos a través de preguntas directas o de escenarios comunicativos controlados. (concordancias, tiempos verbales), sintáctico, léxico-semántico o pragmático-
Esta línea de investigación, que se ha trabajado desde el construccionismo social contextual. Los errores de los alumnos se han podido dar en tareas orales dirigidas,
(Williams & Burden, 1999), no la trataremos en este libro. redacciones, interacciones de clase... Para estudiarlos se necesitan, obviamente,
las producciones de esos alumnos, preferentemente transcritas y anotadas, es
En cuanto a las dificultades que supone la lengua meta dependiendo de la Ll de los
decir, convertidas en un corpus, ya sea de tus alumnos de este año, o de los del
alumnos, existen tres líneas de investigación principales, 1) el análisis contrastivo,
Cervantes en los últimos 10 años. Por eso, la mayor parte de publicaciones de
70 71
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA
análisis de errores lo estudian en corpus (Cestero et ál., 2002; Ferreira et ál., una producción como "la gente son" aparecería anotada la palabra son como "error
2014; Pérez Serrano, 2014). morfológico, concordancia". Y eso posibilitaría realizar búsquedas de todos los
El análisis de interlengua c o m p r e n d e el estudio de las producciones de los errores de concordancia cometidos en un grupo de estudiantes y de esta manera
alumnos de lengua extranjera, tanto las correctas como las desviadas, el e r r o r se podría comprobar qué palabras causan más errores de concordancia y en qué
(Selinker, 1972). Sin embargo, ya que los errores se tratan en profundidad en la nivel dejan de causarlos.
investigación basada en análisis de errores que acabamos de explicar, el análisis de Habíamos dicho ya en un apartado anterior que los docentes e investigadores
interlengua trata aquellas producciones que, sin ser necesariamente erróneas, son tienen dos posibilidades: consultar un corpus de errores ya creado, o crear su
comunes en todas las personas que estudian una lengua extranjera, muchas veces, propio corpus. Pero crear un corpus propio implica recoger datos, digitalizarlos,
no directamente relacionados con la L l . marcarlos, anotarlos y, después de haber hecho todo eso, empezar a realizar su
Nos referimos a características como la abundancia de pausas, el uso de frases cortas pequeña investigación. La realización de todo ese trabajo, por ejemplo, en el caso
y simples (sin subordinación), uso de términos poco precisos como cosa, etc. Para de un trabajo de final de grado, certificaría que el alumno se desenvuelve bien
afrontar el análisis de interlengua, igual que en el análisis de errores, se necesitan con el método empírico, que sabe realizar todas esas tareas, y, por lo tanto, que
producciones de alumnos de lengua extranjera, por lo tanto, corpus de los alumnos. es buen investigador, pero ser investigador no es lo mismo que ser profesor. Así
A este tipo de corpus le llamamos c o r p u s d e a p r e n d i e n t e s o c o r p u s d e que a no ser que se esté preparando unTFM de investigación o una tesis doctoral,
errores.Y es el único tipo de corpus específico para el aprovechamiento en ELE. recomendamos que se use un corpus ya disponible y solo se cree el corpus de
la clase si hay un objetivo concreto que realmente lo haga necesario, como dar
6.2. LOS CORPUS DE APRENDIENTES correcciones personalizadas a los estudiantes. A esto volveremos más adelante
Los c o r p u s d e a p r e n d i e n t e s contienen datos de muestras de habla real de en el libro.
los estudiantes de una determinada lengua. En la bibliografía, también se han
6.3. CORPUS DISPONIBLES
llamado c o r p u s d e i n t e r l e n g u a o c o r p u s d e e r r o r e s . Existen corpus de
aprendientes para muchas lenguas meta y desde muchas lenguas de origen de En el caso de que no tengas alumnos de los que recoger datos y quieras hacer una
los estudiantes. Por ejemplo, si estuviéramos interesados, podríamos consultar investigación (publicar un artículo, hacer un trabajo de investigación original), hay
los errores más frecuentes en inglés de los aprendientes hispanohablantes. En el numerosos corpus disponibles y anotados listos para su explotación.
ámbito internacional, se puede encontrar incluso una asociación de estudiosos La parte positiva de usar un corpus ya compilado es que ahorrarás el tiempo que
de corpus de aprendientes que organiza congresos y mantiene recursos útiles en necesitarías invertir en compilar tu propio corpus y anotarlo. La parte negativa es
diferentes lenguas (https: //www.learnercorpusassociation.org). que puede que el corpus no cumpla los criterios que te interesarían.
Los corpus de aprendientes pueden tener, como los corpus en general, diferentes
Por ejemplo, puede que quieras hacer una comparación de los alumnos de dos
tipos de mareaje y anotación. En p r i m e r lugar, suelen estar codificados con la
lenguas y que el corpus no contenga estudiantes de esas lenguas en concreto o que
Ll del estudiante y su nivel, y, muchas veces, además incluyen información
quieras estudiar grupos que hayan aprendido con determinado método y no los
sociolingüística o del aprendizaje del alumno, como, por ejemplo, si ha pasado un
incluya o que no diferencie a los alumnos que han estado en inmersión de aquellos
periodo de inmersión en un país hispanohablante y cuánto tiempo.
que no y esa variable fuera muy importante para ti.También puede ser que quieras
Además, existen corpus lematizados y corpus en crudo, que son simplemente una estudiar un error en concreto, por ejemplo, errores en el uso del artículo, y que
recopilación de, por ejemplo, redacciones realizadas por los alumnos de B2 que no encuentres un corpus que lo tenga anotado.
estudian español en una universidad de Berlín.
Antes de empezar la tarea napoleónica de recoger un corpus para la investigación,
Los corpus más anotados contienen los errores marcados en el texto y algunas siempre merece la pena echar un vistazo a lo que hay en la web. En los siguientes
veces contienen también información sobre el tipo de error cometido. Así, en
72 73
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA
párrafos vamos a hacer un repaso de los corpus de aprendientes disponibles y sus puntos CEDEL2 (Irwtructtons] JCorpu* SpanWi nattves] [Corpu»: L1 Englteh - L2 Spartsh] [Cwpus: L1 Gre«k-L2SpantahJ
fuertes. Para cada corpus, hay una referencia citada al final del libro. Esa referencia es
¡ Q | O a w a i M n o * ™ ™ e.g, 'PStar-jp-J,*- •%pa^tic i . w U ' s i a r t ; se 9 0 ?i. 0 ? NLPj i
siempre un artículo donde se explica el diseño (el proceso de creación), las decisiones
metodológicas de creación del corpus y tipología y cómo está conformado, y su tipo Ageofleamer 1 Proficiencytevel(pte<»rnantte»t8co«) Proffciency teveJ (serf-evaJuatton) 9
•—r-,?—r-f
f-
de mareaje y anotación. Es decir, al consultar cualquiera de esos artículos, podrás ver 0-100 rt rrrrrrrrrrrrrrs i o-e
0 100
la aplicación práctica de todo lo que hemos explicado en el libro hasta ahora y, además,
A^ofexposuretoSpanlsh * YearestudytngSpanWi f Stayabroad(morrths) ?
te harás una idea más clara de los puntos fuertes y débiles del corpus, así como de las i " ! . __ .— : í . l i- _ . ._ >J _J ._ ...... .....—_ , _, f~
-_ —rrrrn...
• — . . . _
0-100 0 - 50 0-300
dificultades a las que se enfrentaron los autores a la hora de crearlos.
OttorfonrignlaiHluagM t Esaaytffle ?
La tradición de los corpus de errores, como todo en la lingüística de corpus, Japanes» C 0 1 . ¿Cómo as la región dónete vivas?
hoy en día; contiene redacciones de alumnos de nivel intermedio y avanzado de 22 ' Portuguesa 08. Habla del problema del terrorismo en et mundo.
lenguas maternas con un total de 5,7 millones de palabras. ' anta» 1 0 , ; Crees Que las oareias oav tienen el derecho de casarse v adoptar renos?
Pero pasemos a nuestro interés real. En el caso del español, la tradición empieza
con el corpus CEDEL (Lozano, 2009; Lozano & Mendikoetxea, 2013) del cual
* Afleo* Years
ya existe una segunda versión en línea. Como la mayoría de corpus, se trata de K>
AQS of
learner
fpMoement test
score)
Profiolenoy levet
(setf svahiatlon)
un corpus de textos escritos, en concreto, de redacciones sobre diferentes temas. «n_wr.9_20.0JU.nlp 26 21 1.75 26 0 02. Habla de una persona
74 75
6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO
anotaciones de los errores, así que p e r m i t e hacer búsquedas de errores. Estas de ELE, que está en línea y contiene únicamente un PDF de las redacciones con
búsquedas pueden ser p o r nivel de lengua, p o r errores de pronunciación, o el marcado de nivel, curso y edad, pero sin ningún tipo de anotación o buscador.
incluso más específicas, p o r ejemplo, errores de concordancia de n ú m e r o o Como este se pueden encontrar más, de otras L l , en el apartado CORPUS de la
errores de tiempo verbal. Los ejercicios de este capítulo permiten explorarlo de web de la revista científica LinRed ( h t t p : / / w w w . l i n r e d . e s / c o r p u s . h t m l ) . Se
manera guiada. trata, básicamente, de corpus oportunistas como los que podemos crear nosotros
a partir de las redacciones de nuestros alumnos.
Por supuesto existen muchos más corpus de aprendientes. Algunos de ellos (más
bien pocos) son de variedades lingüísticas que n o son la española peninsular, 6.4 PARA MÁS INFORMACIÓN
como el Corpus de aprendientes de español como lengua extranjera y segunda lengua NÚñez Noguerales, E. (2019). Pasado, presente y futuro de los corpus de aprendientes
(CÁELE/2) de español de Colombia (Hincapié, 2018).También existen versiones de ELE. Una revisión bibliográfica. Reidocrea. Monográfico 2019 - enseñanza de lenguas,
especializadas según la Ll de los alumnos como el Corpus ORal de Aprendientes de 170-190.
Francés (CORAF), el Aprescrilov para aprendientes que hablan neerlandés (Buyse &
González Melón, 2012) o el CELEN para hablantes de japonés (Valverde, 2020). 6.5 ACTIVIDADES
Este último no tiene una interfaz web propia donde realizar las consultas, sino 6.5.1. Visita la página h t t p s : / / u c l o u v a i n . b e / e n / r e s e a r c h - i n s t i t u t e s /
que tiene que ser consultado a través de Sketch Engine, que, como dijimos en la i l c / c e c l / l e a r n e r - c o r p o r a - a r o u n d - t h e - w o r l d . h t m l . ¿Cuántos c o r p u s
sección 2.5, es un programa en el que se puede cargar cualquier corpus (conjunto
t i e n e n el español c o m o lengua de e s t u d i o (target)! ¿Y c ó m o Ll (first
de textos anotados) para facilitar su consulta y la realización de búsquedas.
language)! ¿Cuál d e estas es más interesante para los profesores d e
En cuanto a los corpus orales, existen muchos menos y, en la mayoría de los casos, ELE? ¿Por qué?
no cuentan con audios descargables disponibles para hacer un análisis acústico de 6.5.2. Visita la página https://slabank.talkbank.org/access/. ¿Cuál de
los errores de los estudiantes, sino únicamente con las transcripciones (como el los corpus orales que hay disponibles te parece más interesante?
de García Gutiérrez (2005)). Eso hace que la mayoría de tesistas que se deciden
6.5.3. Busca en el h t t p : / / c a r t a g o . l l l f . u a m . e S / e x i s t / r e s t / / d b / c o r p u s /
a hacer un trabajo de fin de máster o una tesis de pronunciación de ELE se vean
obligados a recoger su propio corpus. Algunos corpus orales disponibles son el e r r o r e s . h t m l p o r TIPO DE ERROR " I n d i c a t i v o / s u b j u n t i v o " y LENGUA
Spanish Learner Language Oral Corpora de la Universidad de Southampton (Mitchell MATERNA "Francés". Después d e ver esos datos, ¿qué tema repasarías
Si necesitas un corpus sobre una Ll en concreto, puedes encontrar una lista 6.5.4. Busca ahora resultados de errores de concordancia de número
exhaustiva y actualizada de corpus de aprendientes de diferentes lenguas con su en estudiantes cuya lengua materna es el inglés. ¿Qué errores son más
clasificación en h t t p s : / / u c l o u v a i n . b e / e n / r e s e a r c h - i n s t i t u t e s / i l c / c e c l / l e a r n e r - comunes? ¿A qué rasgo lingüístico del inglés se p u e d e n deber (esta
corpora~around-the-world.html. Además, algunos corpus orales de español L2 están pregunta p r e s u p o n e q u e tienes un nivel de inglés de al m e n o s Bl)?
disponibles a través de la sección Second Language Acquisition de Talkbank, un gran Un estudio c o m p l e t o y extenso sobre este tema podría dar lugar a un
banco de corpus lingüísticos de todo tipo (https://slabank.talkbank.org/access/). trabajo de curso: "La concordancia de n ú m e r o en la interlengua en
español de aprendientes anglohablantes".
El problema es que todas estas bases de datos incluyen solo corpus que cumplen
ciertos requisitos de tamaño y anotación: se consideran corpus de verdad los que 6.5.5. Ve al CEDEL ( h t t p : / / c e d e l 2 . l e a r n e r c o r p o r a . c o m ) , y entra o
son ordenados, anotados y reutilizables. Eso hace que para fines específicos existan descarga cualquier producción. ¿Qué datos han incluido en el mareaje
muchos más corpus que no están indexados. Por ejemplo, Gutiérrez Quintana del corpus?
(2005) creó un corpus de textos escritos p o r universitarios italianos estudiantes
77
76
7. LOS CORPUS EN LA CREACIÓN DE MATERIALES
79
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COHO MODELO 7. LOS CORPUS EN LA CREACIÓN DE MATERIALES
Para decidir el contenido que hay que cubrir en un curso o libro, normalmente, de las más frecuentes). Aunque, como decíamos al principio, esto no supone un
miramos el Plan Curricular del Instituto Cervantes (PCIC) o, más a grandes rasgos, gran problema p o r q u e siempre t e n d r e m o s el PCIC para saber qué funciones
el Marco Común Europeo de Referencia para las Lenguas (MCER o CFER, según si lo incluir.
citamos por sus siglas en castellano o en inglés) y, a partir de ahí, decidimos. Esa es
En cambio, una vez que tenemos algunos límites de contenido establecidos, por
la manera más rápida y fácil de no equivocarse, aunque hay que tener en cuenta que
ejemplo, el registro que queremos tocar, podemos buscar un corpus especializado
el PCIC no contiene todo, suele ser más bien una guía general.
en el que aparezca ese tipo de lengua. Por ejemplo, en un tema de dar la opinión,
Además, no todos los planes de estudios siguen el currículo del Cervantes. podemos usar un corpus de opiniones de Amazon y un corpus de cartas formales
Por ejemplo, en las universidades estadounidenses los estudiantes de ELE no nos puede servir para extraer los saludos más frecuentes, pero esto lo veremos con
persiguen obtener el título DELE o SIELE, sino un grado universitario. Tampoco más detalle en el epígrafe siguiente.
usan el MCER que, por motivos obvios, no está implantado fuera de Europa.
Volvamos a la selección de contenido de un curso. Hay un tipo de cursos para el
Muchos de los profesores del sistema estadounidense ni siquiera lo conocen y los
que se tiene una idea clara del campo que se quiere tratar y muchas veces no se
coordinadores generales no suelen ser proclives a dejar que los profesores de su
cuenta con un currículo claro: el español para fines específicos. El e s p a ñ o l para
sistema usen un currículo europeo para decidir su syllabus. Sin embargo, muchas
fines e s p e c í f i c o s tiene varias particularidades que hacen que no se pueda aplicar
universidades chinas sí se guían por el MCER porque tienen en mente el DELE.
un plan general como el PCIC. Estas peculiaridades se encuentran, básicamente,
En casos como esos, la decisión o la justificación de qué incluir en un programa y en la terminología y el registro que se enseña. Vamos a ver por qué.
en qué nivel hacerlo se puede hacer a partir de corpus (Caballero et ál., 2012). A
La t e r m i n o l o g í a (vocabulario) que en un curso general no se vería hasta niveles
través de ellos, se puede ver qué situaciones comunicativas y recursos lingüísticos
altos o incluso no se vería en absoluto puede tenerse que dar en un curso de fines
son más frecuentes y, por lo tanto, interesantes para incluir en un método o en un
específicos en niveles bajos. Por ejemplo, para un médico, una palabra como vía
curso de ELE.
(en la colocación vía intravenosa) o bisturí formarán parte de su vocabulario más
La idea de decidir qué incluir en un programa o justificarlo mediante corpus usado y, sin embargo, no entran en ningún programa de ELE. O t r o ejemplo, un
es buena, p e r o ¿cómo se puede buscar el contenido que debemos incluir en curso de español a una cadena de panaderías que quiere entrar en el mercado
un determinado nivel en un corpus? La respuesta no es fácil. Para empezar, el español, a sus empleados no les bastará con conocer la palabra harina, sino que
contenido que queremos buscar puede ser: a) g r a m a t i c a l (¿debería incluir el necesitarán, además, sus tipos (defuerza, de repostería, de centeno...). Además, las
imperativo en un A2?), b) l é x i c o (¿incluyo vocabulario sobre las vacaciones diferentes profesiones usan jergas, a veces, por necesidad, como en los ejemplos
en Al?) o c) f u n c i o n a l (¿en qué nivel incluiría ofrecer una justificación?). Los de léxico que acabamos de ver, pero otras, simplemente por convención, por
corpus, tal y como los hemos explorado hasta ahora, nos pueden servir para los ejemplo, los médicos usan molestias en vez de dolor y a primera vista no hay una
dos primeros tipos de contenido, pero no para el tercero. En cambio, hoy en explicación del por qué (Cordella, 2002).
día, la mayoría de los programas de ELE se estructuran alrededor de funciones
En los cursos de lengua general, se suele enseñar un r e g i s t r o estándar, con algunas
comunicativas.
tendencias al formal (por ejemplo, cuando se trabajan cartas de presentación) o
Hasta donde llega nuestro conocimiento, solo existe un corpus en el que se al coloquial (cuando se hacen intervenciones en clase). Pero en uno de español
puede buscar por función comunicativa, el C-Or-Dial (Nicolás Martínez, 2012, para fines específicos, por ejemplo, en un curso de español de los negocios, a los
2015), y solo se puede realizar esa búsqueda en su versión en C D - R O M y no en alumnos solo les interesará el registro más formal; en cambio, en uno de español
su web. En la práctica, que no esté disponible en línea significa que no es posible para el turismo, se buscará un lenguaje más cercano.
elegir qué funciones comunicativas incluiremos en un curso directamente desde
Todo esto hace que sea oportuno usar corpus, en concreto, un corpus de lengua
un corpus (a no ser que nos leamos el corpus completo para hacernos una idea
especializada.
80 81
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 7. LOS CORPUS EN LA CREACIÓN DE MATERIALES
Para poder establecer nuestro propio plan de estudios para fines específicos En este epígrafe nos hemos centrado en aquellos casos en los que hay que montar
p o d e m o s acudir a corpus especializados, p e r o la mayoría de ellos no están unidades desde cero, pero estos no son los únicos en los que podemos tener que
disponibles con un buscador en línea como los que hemos visto hasta ahora. Por decidir qué contenido incluir. Cada clase (cada unidad didáctica ya creada) necesita
ello, resulta mucho más cómodo acudir a los estudios que se han realizado a partir adaptarse al contexto de nuestro grupo concreto y eso también significa elegir qué
de esos corpus. En ellos, se pueden encontrar listas de léxico y reflexiones sobre formas lingüísticas se van a ver.
su discurso ya preparadas.
7.2. QUÉ FORMAS LINGÜÍSTICAS INCLUIR EN CADA UNI0AD
Por ejemplo, a partir del análisis del Corpus Aíultilingiie de Turismo de la Universitat
DIDÁCTICA 0 EN CLASE
de Valencia (COMETVAL) se ha podido confeccionar un diccionario y publicar
n u m e r o s o s estudios. En estos últimos se p u e d e n e n c o n t r a r p a t r o n e s de Las situaciones comunicativas que se incluyen en una unidad condicionan las
denominaciones como turismo + adj o turismo de + n o m b r e : turismo de aventura, formas lingüísticas que se enseñarán. Sin embargo, siempre hay un espacio para
turismo activo, turismo rural. Y también léxico de uso habitual en español del la elección. Casi todos los métodos de ELE de Al empiezan por una unidad 1,
turismo, como quad, avistaje de aves, hidrotrineo o escafandrismo (López Santiago & o incluso 0, en la que se ven los saludos y las presentaciones. En esa unidad,
Giménez Folqués, 2017). n o r m a l m e n t e se incluyen formas como hola, buenos días / buen día o buenas
tardes. Sin embargo, en casi todo el mundo hispanohablante, hay una forma que
Si no existe un corpus del tipo concreto de lengua que queremos enseñar (que se los alumnos oirán mucho pese a ser un préstamo: ciao, chao o chau. Esta forma,
sepa, no existe un corpus de lengua de los panaderos o de los albañiles, por poner probablemente, no es la primera en la que uno piensa al montar una unidad, pero
algún ejemplo), se pueden usar manuales o glosarios. Pero enseñar el léxico de sí es una forma actual y muy frecuente.
una profesión suele ser insuficiente, las jergas suelen incluir también otros rasgos.
Por ejemplo, en derecho eliden la conjunción que en subordinadas de subjuntivo Cuando uno se enfrenta a crear una unidad, después de haber elegido la situación
(dicen solicito sea tenido en cuenta donde deberían decir solicito que sea tenido en comunicativa o la función que va a incluir, el paso siguiente consiste en buscar
cuenta), algo que no es normativo en la lengua general, también hacen un uso más las formas lingüísticas que se incluirán. Para ello, un acercamiento natural sería
abundante del subjuntivo, de las subordinadas y de las formas impersonales que el siguiente. Pongamos que queremos que el alumno sea capaz de describir la
en la lengua general. Además, mantienen formas arcaicas como Jallo por jo hallo imagen de una persona. Una vez tengamos decidido eso, nuestra intuición de
o el futuro de subjuntivo si no comparecieren. Así que también deberemos tener en docentes y lingüistas (y no nuestra intuición como nativos) nos indica que, para
cuenta la sintaxis cuando enseñemos lenguas especializadas. hacerlo, el alumno necesita el presente de indicativo y léxico de descripción
física. De ahí, escogeremos las formas que nos parezcan más adecuadas al nivel
Otra posibilidad es crear nuestro propio corpus a partir de muestras de la lengua (o de nuevo acudiremos al P C I C ) . Ahora, para c o m p r o b a r las ventajas, los
especializada que queremos enseñar. Para hacer esto, Vangehuchten (2004) problemas y dificultades que conlleva, vamos a ver el mismo proceso con un
muestra un método bastante rápido (si se tienen conocimientos de informática/ ejemplo en el que se ha confiado en corpus en vez de en nuestra intuición para
p r o g r a m a c i ó n suficientes) y eficaz. Él p r o p o n e seleccionar los manuales realizar la misma tarea.
académicos de introducción a la disciplina (por ejemplo, Manual de las ciencias del
deporte o Introducción al derecho romano) más usados en el ámbito y, a partir de esos Imaginemos una unidad que tiene como objetivo final "ser capaz de desenvolverse
manuales, seleccionar el vocabulario y las formas propias de la materia. En su en una estación de tren". Caballero et ál., (2014) proponen un acercamiento de
artículo, Vangehuchten (2004) presenta una manera matemática de seleccionar ese corpus para llegar a cumplir esa tarea. Para definir las formas lingüísticas que se
vocabulario y nos recuerda que, según la bibliografía, el conocimiento del 95 % incluirán en la unidad, Caballero et ál. (2014) ofrecen un análisis de las expresiones
del léxico de un texto asegura su correcta comprensión y la capacidad de extraer en las taquillas usadas por los nativos, InfoTren, y una comparación con un corpus
significados desconocidos a partir del contexto, mientras que un conocimiento del de simulaciones (role-play) tanto con nativos como no nativos, FerroviELE. Ese
98 % del léxico proporciona una lectura cómoda. análisis les permite descubrir que, contrariamente a lo que se pudiera pensar, los
82 83
Another random document with
no related content on Scribd:
In der Schule war Henry Ford ein »Dummkopf«, der Lehrer konnte
wenig mit ihm anfangen.
Henry hatte mit 15 Jahren die Schule satt, lief davon und fand eine
Stellung in einer Maschinenwerkstatt. Er begann mit 10 Schilling die
Woche — heute verdient er 28 Schilling die Sekunde.
Einige Jahre später starb sein Vater und er mußte nach Hause,
um die Farm zu verwalten. Doch als Farmer blieb er erfolglos.
Das beste, was er tat, während er auf der Farm lebte, war seine
Heirat mit der Tochter eines Nachbarn.
Eines Abends, bei der Lektüre einer Farmerzeitung, sah er das
Bild eines neuen pferdlosen Wagens, den ein Franzose erfunden
hatte.
Er war fasziniert. Das Bild packte ihn und änderte völlig die
Richtung seines Lebens.
Er vernachlässigte seine Farm und begann in seiner Scheune
einen pferdlosen Wagen zu bauen. Er spannte eine alte Maschine
vor einen alten Jagdwagen — die ganze Umgebung machte sich
über ihn lustig.
In den Armenhäusern Amerikas leben heute verschiedene alte
Männer und Frauen, die vor 25 Jahren sich herrlich damit
amüsierten, Henry Ford auszulachen.
Gegen den Rat aller verließ er plötzlich die Farm und ging nach
Detroit. Er bekam eine Anstellung als Mechaniker mit 30 Pfund
monatlich und arbeitete nachts an seinem pferdlosen Wagen.
Er baute einen, der einen Zylinder hatte — ein verschrobenes,
schnaufendes, lächerliches Ding. Aber es bewegte sich.
Acht lange Jahre besserte er an diesem absurden Motor herum.
Endlich ging er — so gut, daß Henry damit ein Rennen gewann.
Mit einem Schlag wurde er und sein Motor berühmt. Er gewann
weitere Rennen. Er schlug sogar Barmey Goldfield, den besten
Rennfahrer in jenen Tagen. Er schlug Goldfield in einem Dreimeilen-
Rennen.
Einige Freunde liehen ihm 3000 Pfund, mit denen er eine kleine
Motorenfabrik begann. Er verschaffte sich die besten Betriebsleiter.
Er zahlte sie gut und sie organisierten ihm ein riesiges Geschäft.
Er ist ein schlanker, athletischer, sonnverbrannter Mann von
einfachstem Geschmack. Macht und Reichtum haben ihn nicht
verdorben. Als ich ihn das letztemal in seiner Detroiter Fabrik sah,
zeigte er einem Telephonmädchen, wie sie ihr Schaltbrett zu
bedienen habe.
Er ist kein Geschäftsmann im gewöhnlichen Sinne. Er ist ein
Mechaniker — ein Erfinder. Er begründete seinen Erfolg durch die
richtige Schätzung des Prinzipes der Standardisation.
Henry Ford weiß, wie man es macht.
Er hat die Probleme seines Geschäftes gelöst. Er hat uns den
einen richtigen Weg gezeigt, Menschen zu behandeln, Güter zu
erzeugen und Profite zu machen, ohne sich Feinde zu machen.
Hätten wir 1000 Fords, wir würden hohe Löhne, hohe Profite,
niedrigere Preise und keine Arbeiterunruhen haben. Wir würden
Frieden und Wohlfahrt haben.
Nehmen Sie beispielsweise Fords Methoden als Arbeitgeber. In
dieser Hinsicht ist er ganz eigenartig. Er ist einen vollkommen
ungewöhnlichen Weg gegangen und hat damit einen großen Erfolg
erzielt.
Tatsächlich scheint Henry Ford sich weit mehr als Arbeiterführer
denn als Arbeitgeber zu betrachten.
Er gibt seinen Leuten mehr als sie verlangen.
Er gibt ihnen bessere Arbeitsbedingungen, als sie jemals sich
träumen konnten.
Er beobachtet und beschützt sie. Er hat aus seinen 55 000 Leuten
die bestbezahlte und zufriedenste Arbeiterarmee gemacht, die die
Welt je gesehen hat.
Kein Arbeiterführer hat für die Arbeiter so viel getan, wie Henry
Ford.
Im Jahre 1914 waren seine Arbeiter vollständig zufrieden, aber
plötzlich verdoppelte er ihre Löhne. Als Ergebnis machte er im Jahre
1915 einen größeren Reingewinn, als je zuvor.
Er schützt seine Arbeiter gegen jede Ungerechtigkeit. Er hat 2000
Werkführer, und nicht einer von ihnen darf einen Arbeiter entlassen.
Im Jahre 1919 wurden von 50 000 Arbeitern nur 118 entlassen.
Ein eigener Stab von dreißig Leuten untersucht alle
Schwierigkeiten zwischen den Werkführern und den Arbeitern. Hat
ein Werkführer häufige Konflikte mit seinen Leuten, so wird er sehr
bald in das Direktionsbureau berufen und darüber aufgeklärt, daß
seine Methoden falsch sind.
Ford hat nichts gegen die Gewerkschaften, aber er macht es in
jeder Beziehung besser als sie. Er betrachtet das
Gewerkschaftswesen als einen notwendigen Schutz gegen törichte
oder ihre Leute schindende Arbeitgeber, aber er ist weder töricht
noch ein Leuteschinder.
In seiner Fabrik gibt es keine Rücksichtslosigkeit und keine
Unbarmherzigkeit. Sie ist wirklich eine der gütigsten und
menschlichsten Einrichtungen. In ihr herrscht mehr Sympathie und
Herzensgüte, als in den meisten Kirchen. So gibt es zum Beispiel in
den Ford-Werken vierhundert Arbeiter, die entlassene Sträflinge
sind. Sie wurden als Verbrecher ausgestoßen, aber Ford hat ihnen
eine Chance geboten. Er hat sie zur Selbstachtung zurückgeführt
und sie leben jetzt ein ehrenhaftes und glückliches Leben.
Es gibt in den Ford-Werken zweitausend schwache und
verkrüppelte Leute. Sie tragen ein Abzeichen, das besagt: »Nur für
leichte Arbeit.«
Es ist eine von Fords Theorien, die er hartnäckig vertritt, daß er
seinen Anteil an der Sorge für Krüppel, Verbrecher und Blinde zu
tragen hat. Einer seiner tüchtigsten Arbeiter ist ein blinder Mann.
Vor sechs Jahren stellte Ford zweihundert Leute an, um
herauszufinden, wie seine Arbeiter leben. »Ich wünsche, daß meine
Leute ein reines und gesundes Leben führen«, sagte er.
Vor kurzem aber hat er dies wieder eingestellt. »Es bringt zu viel
Herumschnüffeln in Privatangelegenheiten mit sich«, sagte er. »Wir
wollen diese Abteilung in eine Erziehungsabteilung umwandeln.«
Er spart keine Ausgabe, um seinen Arbeitern in der Fabrik die
besten Arbeitsbedingungen zu schaffen. Er hat einen besonderen
Stab von siebenhundert Malern, Fensterwaschern, Tischlern usw.,
um alles rein und frisch zu erhalten. Der Boden seiner Werke ist so
sauber wie ein Küchenboden.
Alle zwölf Minuten wird die Luft erneuert. Aller Rauch und alles
Gas der Gießerei wird beseitigt. Es gibt keine kalten oder überhitzten
Räume.
John R. Commons hat vor kurzem die Ford-Werke besucht, um
sich über die »Schnelligkeitshetzen« zu informieren. Und er
berichtet, daß er nichts davon bemerkt hat, außer »in einem Teil der
Gießerei unter neuangestellten Arbeitern«.
Kurz gesagt: Zwischen Ford und seinen Leuten besteht kein Krieg.
Auf keiner Seite gibt es einen Verdacht. Ford glaubt an seine Leute
und sie glauben an Ford.
Er hat eine Gewerkschaft von achtzigtausend Mann organisiert
und er ist ihr Führer.
Er hat sein ganzes Geschäft hoch über Ausstände und
Aussperrungen erhoben.
Er hat dem Krieg zwischen den Arbeitern und der Betriebsleitung
ein Ende gemacht. Er hat Friede auf Erden und den Menschen ein
Wohlgefallen in seinen Werken verwirklicht.
Er ist wahrscheinlich kein Mann von großem Wissen, aber er hatte
den Mut, die Grundsätze der Gerechtigkeit und Wirksamkeit zur
Anwendung zu bringen. Er handelte. Er führte. Er hat jedem anderen
Arbeitgeber gezeigt, was getan werden kann.
Von
HERBERT N. CASSON
sind in unserem Verlag erschienen:
Business
16 Lehrsätze vom Geschäftserfolg. Dritte
Auflage.
Das Buch für den größten und den kleinsten Kaufmann. Es
behandelt die neue Wissenschaft vom Geschäft. Es gibt in reiner
Wahrheit und Klarheit viel von dem Besten, was auf amerikanischem
Boden an Erkenntnis und Erfahrung gereift ist.
1.D. The copyright laws of the place where you are located also
govern what you can do with this work. Copyright laws in most
countries are in a constant state of change. If you are outside
the United States, check the laws of your country in addition to
the terms of this agreement before downloading, copying,
displaying, performing, distributing or creating derivative works
based on this work or any other Project Gutenberg™ work. The
Foundation makes no representations concerning the copyright
status of any work in any country other than the United States.
1.E.6. You may convert to and distribute this work in any binary,
compressed, marked up, nonproprietary or proprietary form,
including any word processing or hypertext form. However, if
you provide access to or distribute copies of a Project
Gutenberg™ work in a format other than “Plain Vanilla ASCII” or
other format used in the official version posted on the official
Project Gutenberg™ website (www.gutenberg.org), you must, at
no additional cost, fee or expense to the user, provide a copy, a
means of exporting a copy, or a means of obtaining a copy upon
request, of the work in its original “Plain Vanilla ASCII” or other
form. Any alternate format must include the full Project
Gutenberg™ License as specified in paragraph 1.E.1.
• You pay a royalty fee of 20% of the gross profits you derive from
the use of Project Gutenberg™ works calculated using the
method you already use to calculate your applicable taxes. The
fee is owed to the owner of the Project Gutenberg™ trademark,
but he has agreed to donate royalties under this paragraph to
the Project Gutenberg Literary Archive Foundation. Royalty
payments must be paid within 60 days following each date on
which you prepare (or are legally required to prepare) your
periodic tax returns. Royalty payments should be clearly marked
as such and sent to the Project Gutenberg Literary Archive
Foundation at the address specified in Section 4, “Information
about donations to the Project Gutenberg Literary Archive
Foundation.”
• You comply with all other terms of this agreement for free
distribution of Project Gutenberg™ works.
1.F.
Most people start at our website which has the main PG search
facility: www.gutenberg.org.