PDF of Uso de Corpus en Clase de Ele Wendy Elvira Garcia Full Chapter Ebook

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 68

Uso de Corpus en Clase de ELE Wendy

Elvira García
Visit to download the full and correct content document:
https://ebookstep.com/product/uso-de-corpus-en-clase-de-ele-wendy-elvira-garcia/
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Agencia ELE 1 libro de clase Nueva edición 1st Edition


Manuela Gil Toresano Berges José Amenós Pons Inés Soria
Pastor

https://ebookstep.com/product/agencia-ele-1-libro-de-clase-nueva-
edicion-1st-edition-manuela-gil-toresano-berges-jose-amenos-pons-
ines-soria-pastor/

Guide du corpus des connaissances en management de


projet PMBOK Guide Project Management Institute

https://ebookstep.com/product/guide-du-corpus-des-connaissances-
en-management-de-projet-pmbok-guide-project-management-institute/

Lingüística de corpus en español The Routledge Handbook


of Spanish Corpus Linguistics 1st Edition Giovanni
Parodi Editor Pascual Cantos Gómez Editor Chad Howe
Editor
https://ebookstep.com/product/linguistica-de-corpus-en-espanol-
the-routledge-handbook-of-spanish-corpus-linguistics-1st-edition-
giovanni-parodi-editor-pascual-cantos-gomez-editor-chad-howe-
editor/

Niños héroes de la guerra del Pacífico Elvira


Valenzuela

https://ebookstep.com/product/ninos-heroes-de-la-guerra-del-
pacifico-elvira-valenzuela/
Le Standard pour le management de projet et Guide du
Corpus des connaissances en management de projet Guide
PMBOK Seventh Edition Project Management Institute

https://ebookstep.com/product/le-standard-pour-le-management-de-
projet-et-guide-du-corpus-des-connaissances-en-management-de-
projet-guide-pmbok-seventh-edition-project-management-institute/

Sirvienta empleada trabajadora de hogar Género clase e


identidad en el franquismo y la transición a través del
servicio doméstico 1939 1995 Eider De Dios Fernández

https://ebookstep.com/product/sirvienta-empleada-trabajadora-de-
hogar-genero-clase-e-identidad-en-el-franquismo-y-la-transicion-
a-traves-del-servicio-domestico-1939-1995-eider-de-dios-
fernandez/

La restauration du monastère Saint Martin de Tournai


Corpus Christianorum in Translation 32 1st Edition
Hériman De Tournai

https://ebookstep.com/product/la-restauration-du-monastere-saint-
martin-de-tournai-corpus-christianorum-in-translation-32-1st-
edition-heriman-de-tournai/

NUDOS EN USO NUDOS CURVAS ENGANCHES AZOTES Y EMPALM


4th Edition Colin Jarman

https://ebookstep.com/product/nudos-en-uso-nudos-curvas-
enganches-azotes-y-empalmes-4th-edition-colin-jarman/

Antenas da floresta A saga das TVs da Amazônia 1st


Edition Elvira Lobato De Araujo

https://ebookstep.com/product/antenas-da-floresta-a-saga-das-tvs-
da-amazonia-1st-edition-elvira-lobato-de-araujo/
cuadernos de didáctica

USO DE CORPUS EN CLASE DE ELE

La lengua real como modelo


Los corpus lingüísticos se han mostrado
en las últimas décadas d e n t r o de la
lingüística como una línea de investigación
con un marcado carácter transversal que
está generando propuestas notables. En
este sentido, hay que señalar un hecho
claramente relevante: la investigación
basada en estas herramientas ha adquirido
tanta presencia en los últimos tiempos
que ha dado el salto desde ser considerada
un simple i n s t r u m e n t o hasta alzarse
como eje central de su propio campo de
investigación. Así, hemos pasado de hablar
de corpus para la lingüística a delimitar
y desarrollar una lingüística de corpus.

Es e v i d e n t e q u e la p a r t i c u l a r i d a d
principal de los corpus como interfaces
de investigación reside en su naturaleza
t e c n o l ó g i c a . C o m o i n s t r u m e n t o de
t r a b a j o va m á s allá d e los útiles
tradicionales d e la investigación
lingüística y abre un campo de
p o s i b i l i d a d e s i m p e n s a b l e hace solo
pocas generaciones. De alguna manera,
el c o n c e p t o de c o r p u s se ha h e c h o
equiparable, c o m o forma de acceso al
conjunto infinito de p r o d u c c i o n e s de
la l e n g u a , a o t r o s i n s t r u m e n t o s más
prestigiosos y con mayor presencia en
nuestro día a día, como el diccionario o
la gramática.

NEUS SANS Y FRANCISCO HERRERA


En la mayoría de los programas de
estudios no se incluye el uso de corpus,
pero, paradójicamente, muchos alumnos
los emplean para mejorar y corregir sus
producciones de texto, porque acceder
a ellos es tan fácil como realizar una
búsqueda en Google.

Pero ¿para qué puede usarlos el docente?


Durante años, en clase hemos enseñado
lo que creíamos más habitual desde la
introspección, pero lo cierto eí* que a
veces las formas que se nos ocurren
como más prototípicas no son las más
habituales en la lengua. Pongamos que
quiero expresar una opinión; una de las
primeras opciones que se me ocurrirá
es "Yo creo q u e . . . " ; y sin embargo una
forma mucho más habitual de hacerlo
es comenzar una frase con "Pues y o . . . " .
La única manera de saber cuáles son esas
estructuras más usadas (y por lo tanto las
que querremos llevar a clase) es contar
con muestras de habla real. Y eso es lo
que encontramos en los corpus: muestras
que nos sirven para enseñar la lengua real
y no una lengua creada en un despacho
en que la gramática es perfecta y nunca
se dejan frases suspendidas.

WENDY ELVIRA-GARCÍA
PROLOGO PREFACIO LINGÜISTICA DE CORPUS Y EL
PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO ¿QUÉ ES LA
LINGÜÍSTICA DE CORPUS? CÓMO HABLAR DE CORPUS:
CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE
CORPUS TIPOLOGÍA Y DISEÑO DE CORPUS APLICACIONES
DE LOS CORPUS EN LA ACTUALIDAD CORPUS PARA
INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA LOS
CORPUS EN LA CREACIÓN DE MATERIALES ACTIVIDADES
CON CORPUS PARA LLEVAR AL AULA LOS CORPUS PARA
LA CORRECCIÓN CORPUS PARA EL APRENDIZAJE
AUTÓNOMO DEL ALUMNO SECUENCIAS DIDÁCTICAS DE
CORPUS Y PROGRESIÓN DEL USO DE CORPUS EN UN CURSO

DL: B 6947-2021
ISBN: 978-84-18625-32-9
I cuadernos de didáctica [

USO DE CORPUS EN
CLASE DE ELE

La lengua real como modelo

WENDY ELVIRA-GARCÍA
UNED
CUADERNOS DE DIDÁCTICA
Colección dirigida por Francisco Herrera y Neus Sans ÍNDICE

USO DE CORPUS EN CLASE DE ELE


6 Prólogo
La lengua real como modelo
10 Prefacio
AUTORA: Wendy Elvira-García 16 1 / Lingüística de corpus y el pensamiento
lingüístico: el empirismo
EDICIÓN: Francisco Herrera y Neus Sans
24 2 / ¿Qué es la lingüística de corpus?
REDACCIÓN: Roberto Castón (ilusionoptica.es)
36 3 / Cómo hablar de corpus: conceptos clave y
CORRECCIÓN ORTOTIPOGRÁFICA: Marina López terminología en lingüística de corpus

DISEÑO DE CUBIERTA E INTERIORES: Laurianne López Barrera 4 / Tipología y diseño de corpus

MAQUETACIÓN: Aleix Tormo 62 5 / Aplicaciones de los corpus en la actualidad


68 6 / Corpus para investigar sobre el español
ILUSTRACIÓN: Laurianne López Barrera
lengua extranjera
78 7 / Los corpus en la creación de materiales
88 8 / Actividades con corpus para llevar al aula

© La autora y Difusión S.L. Barcelona 2021 104 9 / Los corpus para la corrección
978-84-1862S-32-9 110 10 / Corpus para el aprendizaje autónomo del alumno
Impreso en la UE
114 11 / Secuencias didácticas de corpus y progresión
Queda prohibida cualquier forma de reproducción, distribución, comunicación pública y transformación de
del uso de corpus en un curso
esta obra sin contar con la autorización de los titulares de la propiedad intelectual. La infracción de los derechos 122 Bibliografía
mencionados puede ser constitutiva de delito contra la propiedad intelectual (art. 270 y ss. Código Penal).
130 Solucionarlo
146 Glosario

MIXTO
Papal procedente de
&
FSC
££¿; FSC" C134275

C/Trafalgar, 10,entlo. 1»
08010 Barcelona - España
Tel.: (+34 932 680 300
Fax: (+34) 933 103 340
cd ítoria I @d ¡fusion.com

www.difusion.com
r

PROLOGO

Como editores de este volumen de Cuadernos de didáctica, la primera entrega de


la colección que cuenta con una sola autora y con la perspectiva ceñida a un tema
tan específico, lo primero que se nos plantea es la necesidad real de este prólogo.
Por supuesto, el libro se defiende solo ante los lectores, que ya desde el índice

PRÓLOGO podrán medir la claridad del planteamiento y la relevancia de su publicación. Sin


embargo, nos gustaría subrayar algunos aspectos que son realmente significativos
en esta publicación y que nos han llevado a proponer su aparición dentro de esta
serie didáctica.

En primer lugar, hay que remarcar el alcance de su objeto de estudio. Los corpus
lingüísticos se han mostrado en las últimas décadas d e n t r o de la lingüística
como una línea de investigación con un marcado carácter transversal que está
generando propuestas notables. En este sentido, hay que señalar un hecho
claramente relevante: la investigación basada en estas herramientas ha adquirido
tanta presencia en los últimos tiempos que ha dado el salto desde ser considerada
un simple instrumento hasta alzarse como eje central de su propio campo de
investigación. Así, hemos pasado de hablar de corpus para la lingüística a delimitar
y desarrollar una lingüística de corpus.

Es evidente que la particularidad principal de los corpus como interfaces de


investigación reside en su naturaleza tecnológica. Como instrumento de trabajo va
más allá de los útiles tradicionales de la investigación lingüística y abre un campo
de posibilidades impensable hace solo pocas generaciones. De alguna manera, el
concepto de corpus se ha hecho equiparable, como forma de acceso al conjunto

7
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO

infinito de producciones de la lengua, a otros instrumentos más prestigiosos y con


mayor presencia en nuestro día a día, como el diccionario o la gramática.

Esa tecnología invisible que son los corpus mantiene, por lo tanto, una relación
increíblemente fructífera con la lingüística y con toda probabilidad todavía nos
quedan por descubrir un gran conjunto de usos y aplicaciones novedosos que nos
permitirán entender la naturaleza maleable y exitosa de estos enfoques.

Sin embargo, si analizamos ese mismo tipo de vínculos con la didáctica y en


concreto con la enseñanza de segundas lenguas, se hace evidente que queda mucho
trayecto todavía por recorrer. Esa invisibilidad que mencionábamos antes se hace
mucho más patente cuando hablamos de iniciativas para llevar los corpus a los
procesos de enseñanza y aprendizaje de idiomas, aunque, poco a poco, el camino se
va desbrozando con propuestas como las que tenemos ahora mismo entre manos.

En este sentido, consideramos que la autora ha pulsado todas las cuerdas necesarias
para que su propuesta nos haga reflexionar y actuar sobre esta tendencia y nos
permita sacar a los corpus de la zona menos visible para darles la relevancia que
merecen también como instrumentos didácticos. Sin duda, el hecho de que el
libro cuente con una estupenda batería de actividades nos va a permitir entender
mejor esa doble naturaleza investigadora y divulgadora.

Queremos creer, por lo tanto, que los corpus van a alcanzar por fin ese hueco que
se merecen en la atención de los docentes de español, así que no nos queda más
que agradecer a la autora por todo el esfuerzo que ha invertido para que así sea.

F r a n c i s c o H e r r e r a y N e u s Sans
PREFACIO

En el mundo anglosajón, editoriales de manuales de inglés para extranjeros de


prestigio, como Cambridge University Press, llevan décadas presumiendo de
que sus manuales son los mejores porque están basados en corpus y eso los hace
precisos y actuales. Sin embargo, las editoriales de español para extranjeros han
tardado mucho más en incluir material de corpus en sus manuales y aún hoy su uso

PREFACIO no está generalizado. Por no hablar de su uso en clase, y es que en la mayoría de


los programas de estudios no se incluye el uso de corpus, pero, paradójicamente,
muchos alumnos los emplean para mejorar y corregir sus producciones de texto,
porque acceder a ellos es tan fácil como realizar una búsqueda en Google.

Pero ¿para qué p u e d e usarlos el docente? D u r a n t e años, en clase h e m o s


enseñado lo que creíamos más habitual desde la introspección, pero lo cierto es
que a veces las formas que se nos ocurren como más prototípicas no son las más
habituales en la lengua. Pongamos que quiero expresar una opinión; una de las
primeras opciones que se m e ocurrirá es "Yo creo q u e . . . " ; y sin embargo una
forma mucho más habitual de hacerlo es comenzar una frase con "Pues y o . . . " .
La única manera de saber cuáles son esas estructuras más usadas (y por lo tanto
las que querremos llevar a clase) es contar con muestras de habla real.Y eso es lo
que encontramos en los corpus: muestras que nos sirven para enseñar la lengua
real y no una lengua creada en un despacho en que la gramática es perfecta y
nunca se dejan frases suspendidas.

Este libro es una guía y un acicate para que los profesores de español lengua
extranjera incluyan muestras de corpus en su práctica docente. En él, hablaré
de cómo usar corpus para crear manuales y clases, pero también de cómo

11
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO PREFACIO

podemos enseñar a nuestros alumnos a usarlos para que sean ellos mismos los Por último, introduzco aquí cómo está organizado este manual. Se organiza en 11
que investiguen la lengua y descubran las reglas del español a partir del estudio temas, que pertenecen a dos bloques temáticos: el primero trata de la lingüística
de casos. de corpus en general y el segundo de el uso de los corpus en ELE. A estos dos
bloques les siguen la bibliografía y el solucionario de las actividades propuestas.
La idea de este manual nació a partir de la docencia de la asignatura "Lingüística de
corpus y enseñanza del español como segunda lengua" que se ofrece como optativa El p r i m e r bloque consta de cinco temas y en él se introducen los conceptos
en el máster en Formación de profesores de español como segunda lengua de básicos de la lingüística de corpus, necesarios para poder hacer búsquedas y
la Universidad Nacional de Educación a Distancia. Preparando la asignatura, me explotar corpus. Pero no, el manual no contiene un análisis pormenorizado de
encontré con que no existían manuales (ni prácticamente más información que cómo anotar y estándares de anotación, niveles de etiquetaje o el uso de corpus
algunos webinars y podcasts) sobre cómo llevar los corpus a clase. No tenía un libro para entrenamiento de sistemas de procesamiento del lenguaje natural, que sí se
guía para la asignatura que cubriera la parte que a mí me parecía más interesante: incluirían en un curso de corpus más enfocado a la lingüística computacional.
el uso que puede hacer el profesorado de los corpus. Creo que este manual puede Este manual se centra en los corpus como una herramienta para el uso en el aula
ser de utilidad para cualquier profesor o formador que se plantee el uso de corpus de español. Por eso, pese a que este primer bloque trata conceptos generales que
en el aula de español, pero también para otros profesionales que se quieran acercar se pueden encontrar en un manual de lingüística de corpus, se intenta mantener
al uso del corpus para la investigación. siempre una perspectiva de profesor de español ahondando en los detalles de
diseño y terminológicos que pueden ser útiles al docente y obviando otros.
Y es que presenta una diferencia esencial con los (pocos) materiales publicados
Además, siempre que ha sido posible, se ha intentado llevar los ejemplos al terreno
para el uso de corpus y la enseñanza del español lengua extranjera. Normalmente,
del español segunda lengua.
los materiales para el trabajo de corpus y ELE explican qué son los corpus, cómo
se usan (lo que recoge la primera parte de este manual) y dan una panorámica El segundo bloque contiene seis temas y en ellos se ahonda en cada una de las
de los corpus que hay disponibles, pero dan pocas o ninguna idea de qué tipo de tareas que se pueden realizar en clase o preparar con un corpus de ELE. Comienza
actividades se pueden realizar en clase. Este manual explica qué es un corpus y con la aplicación de los corpus a la investigación. En esa parte, se tratan los corpus
cómo usarlo, pero, además, da una explicación detallada y ejemplificada de en qué de aprendientes, los únicos específicos del mundo de la enseñanza de segundas
campos se puede usar corpus; como creación de materiales y ejemplos basados lenguas, que nos sirven para descubrir las dificultades de nuestros alumnos y
en corpus, pero también actividades de clase. Para ello, se proponen actividades para realizar trabajos de investigación (como trabajos de final de máster o tesis
concretas y se aborda cómo realizar secuencias didácticas con corpus. Es decir, se doctorales). Tras ese tema, se pasa a tratar de lleno la labor del profesor y se
trata los corpus como una herramienta a la disposición del profesor, pero también trabaja el uso de corpus en la creación de materiales, ya sean manuales de ELE al
de los estudiantes a partir de actividades donde son los alumnos los que buscan en uso (para aquellos que trabajan como editores) o las fotocopias de clase; se trata
un corpus para, por ejemplo, extraer una regla gramatical de manera inductiva. también cómo llevar los corpus al aula para que los puedan usar los estudiantes,
ya sea para explicar gramática, léxico, cultura o pronunciación; cómo usarlos en
En el texto se da por hecho que el lector está familiarizado con el mundo del ELE y
nuestras correcciones en clase y para que los alumnos se puedan autocorregir; y
que las metodologías y términos propios del área no le son desconocidos. Términos
cómo los estudiantes pueden usar los corpus para crear redacciones más correctas
como interlengua, aprendizaje por tareas, enfoque léxico, comunicativo, secuencia didáctica,
y ricas. Por último, se da una visión integradora de todo ello a partir de un capítulo
aprendizaje inductivo o clase invertida se usarán con una introducción muy breve. Por
dedicado a la creación de secuencias didácticas con corpus.
ello, es recomendable consultar un manual general sobre la práctica docente de
español como lengua extranjera, en el caso de que no se tengan esos conocimientos. Independientemente del bloque al que pertenezca, cada tema consta de diferentes
Pueden ser recomendables manuales como el de Andión Herrero, González Sánchez, epígrafes de teoría, una selección de lecturas para profundizar en el temario
& San Mateo Valdehíta (2019) o simplemente acudir al Diccionario de términos (capítulos de libros o artículos) y una serie de actividades. Las actividades forman
clave de ELE (Varios Autores, 2008), disponible en línea. parte del temario en el sentido en que, para saber usar corpus en clase de ELE, es

12 13
USO DE CORPUS EN CLASE OE ELE. LA LENGUA REAL COMO MODELO

necesario conocerlos y, para conocerlos, es necesario haber usado sus interfaces


(páginas web) y visto sus posibilidades. Además, en la segunda parte, las actividades
son muchas veces ejemplos de cómo llevar los corpus a las aulas.

En la parte teórica del libro no se explican las posibilidades de cada corpus. Si


un corpus está lematizado o no, o el tipo de búsquedas que se pueden realizar es
algo que se debe consultar en la descripción de cada corpus, por lo que resultaría
redundante incluir un resumen aquí. Por lo tanto, será necesario aprender a
encontrar esa información tanto en la interfaz de cada corpus como a partir de las
búsquedas, es decir, es a partir de la explotación guiada que se hará de los corpus
en las actividades. Así, a partir de su uso, aprenderemos y reflexionaremos sobre
sus limitaciones. Por eso, es especialmente importante seguir los ejercicios tanto
en el primer bloque como en el segundo, porque solo a partir del conocimiento
generado a partir de la práctica, se podrán aplicar las búsquedas a la creación de
materiales de ELE, la creación de una secuencia didáctica o la corrección. En las
actividades de los temas, también se da una lista de los términos importantes, que,
si se van definiendo en cada uno de ellos, llevarán a la creación de un glosario.
Como he dicho, todas las actividades y las palabras propuestas para su definición
tienen un solucionario al final del libro.

Y, sin d e t e n e r m e más, pasamos al contenido. Espero que este manual pueda


a p o r t a r t e algunas ideas útiles y atractivas para llevar a clase o para tus
investigaciones y también espero que, después de seguir el libro, me ayudes en la
labor de librar a los corpus de su mala fama en las aulas.

W e n d y Elvira-García

14
1 . LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO

El español lengua extranjera (de ahora en adelante, ELE), igual que la lingüística
general, se ha visto siempre fuertemente influido por las corrientes de pensamiento
de su época. Así, en una época en que la lingüística se entendía como el estudio
de la gramática y especialmente de la traducción de lenguas clásicas, en enseñanza
de lenguas extranjeras el m é t o d o de la gramática-traducción vivía sus mejores
tiempos (Melero, 2000). Fue solo a partir del funcionalismo de Halliday que se
empezaron a poner de moda métodos centrados en las funciones comunicativas
del lenguaje (Brumfit, 1984; Halliday, 1985). Esto es importante porque la
lingüística de corpus es también hija de esos mismos cambios de pensamiento y,
en consecuencia, de paradigma y de filosofía. Por ello, antes de entrar de lleno
en la lingüística de corpus, vamos a intentar explicar las razones que llevaron a su
nacimiento.

La lingüística tradicional basaba sus estudios en la figura del gramático sabio que,
detrás de las torres de libros de su mesa de despacho, pensaba en usos gramaticales
y agramaticales (no válidos) de la lengua y, así, llegaba a la conclusión, por ejemplo,
de que en español (1)

LINGÜISTICA DE CORPUS Y EL PENSAMIENTO (D


Creo que + VERBO INDICATIVO

LINGÜÍSTICO: EL EMPIRISMO No creo que + VERBO SUBJUNTIVO

Fillmore llamaba a este tipo de lingüista: "lingüista de sillón orejero" (Fillmore,


1991). En clase, no suele haber sillones orejeros, y, sin embargo, en el momento
en el que escribimos en la pizarra (2)
(2)
—¿Qué hace Juan?
—Juan come manzanas.

no hay mucha diferencia entre el gramático sabio y nosotros. Nos hemos inventado
el ejemplo tal y como hacía el gramático sabio. Pero ¿cuántas veces en su vida
un alumno va a usar la frase "Juan come manzanas"?, un enunciado informativo

17
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 1 . LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO

neutro con sujeto explícito (llamadoJuan). En español, eso no es habitual. Cuando hizo que fuera imprescindible realizar lexicones (pequeños diccionarios) y tomar
queremos informar sobre algo, omitimos el sujeto (excepto cuando hay un nota de las frases que oían (otra vez, datos).
contraste informativo). Por ello, el ejemplo de (3) sería algo más realista
Con todo ello, se empezó a aplicar el trabajo de campo de manera general en
(3)
los departamentos de lingüística. Los gramáticos estructuralistas (discípulos de
—¿Qué hace Juan?
Saussure) empezaron a ver las ventajas de contar con muestras de habla real para
—Come manzanas.
poder explicar los fenómenos de la lengua a la vez que constataban que la gente de
Sin embargo, todos hemos estado con la tiza en alto en un momento de tensión ante la calle no hablaba como en sus gramáticas. En definitiva, se volvieron defensores
la clase en el que queremos encontrar un ejemplo explicativo, prototípico, de uso del empirismo, de aportar pruebas para sus teorías.
frecuente, léxico nivel básico, y lo único que te viene a la cabeza es el pobre Juan.
Contar con datos auténticos, evitar la influencia que pueda tener la propia variedad
La alternativa a los ejemplos inventados, ya sea en gramática teórica o aplicada al (dialecto o acento) del hablante, contar con las variedades de más gente y, por lo
ELE, pasa por el uso de ejemplos de lengua real. Es decir, por la disponibilidad tanto, con más diversidad y cantidad de muestras, y poder cuantificar los datos
de muestras de habla en su contexto. Todo cambio de paradigma en investigación (por ejemplo, calculando el tanto por ciento de gente que usa dalle o azada en
necesita un entorno propicio y la comprensión de la necesidad de estas "muestras cada región) eran algunas de las ventajas que los lingüistas obtenían al salir de su
de habla en su contexto", es decir, de datos, fue el primer paso para la creación de despacho y preguntar a la gente cómo hablaba.
la lingüística de corpus.
Pero, cuando parecía que la tendencia se iba a asentar y que el uso de datos
reales se convertiría en norma, llegó Noam Chomsky y se convirtió en la moda.
1.1. EMPIRISMO CONTRA RACIONALISMO: DOS MANERAS DE
Chomsky es un lingüista que venía de un bagaje matemático y, por tanto, estaba
ENTENDER LA LINGÜÍSTICA
más interesado en formalizar el lenguaje que en la lengua en sí. Además, seguía
A principios del siglo xx, los lingüistas empezaron a interesarse por una disciplina una corriente de pensamiento más racionalista. Creía que contar con datos reales
nueva muy ligada a la sociología: la dialectología (Alvar, 1969). Sumergidos en solo servía para hacer imposible extraer generalizaciones. En sus propias palabras:
nuevas tendencias de la lingüística (introducidas por Saussure) que separaban la
lengua como ente abstracto e inaprensible y el habla, como sus realizaciones por [m]y judgment, if you like, is that we learn more about language by following
parte de los hablantes, descubrieron que solo el habla podía ser un objeto de the standard method of the sciences. The standard method of the sciences is
estudio. Por ello, los gramáticos sabios empezaron a salir de sus despachos, donde not to accumulate huge masses of unanalyzed data and to try to draw some
inventaban ejemplos que sirvieran a sus teorías sobre la lengua, y salieron a la calle generalization from them (Chomsky, 2004) citado en (Taylor, 2008).
a escuchar y a anotar cómo hablaba la gente. Para ello, se empezaron a realizar Y, en parte, tenía razón. El uso de datos reales no estaba exento de problemas. Para
encuestas a los hablantes en las que se preguntaba cómo se llamaba cierto objeto empezar, al recopilar datos, se recogen muestras de habla, pero no de la lengua. La
en diferentes puntos del mapa y de esta manera se obtuvieron datos reales sobre lengua, entendida como la facultad del lenguaje, es una abstracción, la capacidad
las diferentes denominaciones que recibía cada referente. Esos datos, relacionados universal que tenemos los humanos de hablar. En este sentido, las muestras de habla
con el punto de encuesta donde se habían documentado, se convertían después en nos pueden aportar datos únicamente sobre lo que pasa cuando esa facultad universal
grandes atlas lingüísticos. se concretiza en una lengua, un dialecto, un hablante... Pero hacer inferencias
En paralelo, lingüistas estadounidenses, c o m o Boas o Sapir, e m p e z a r o n a sobre las características universales, comunes de las lenguas, sigue siendo tarea del
interesarse por las lenguas nativas de sus territorios dando el pistoletazo de salida lingüista. Los datos nunca van a aportar explicaciones de por qué pasa algo.
a lo que conocemos como antropología lingüística (Koerner, 2003). Se trataba Además, los datos nunca son exhaustivos. Es decir, no contienen una variedad al
de lenguas que nunca habían sido estudiadas desde un punto de vista lingüístico- completo, porque para eso se necesitarían todas las muestras de lengua emitidas por
gramatical y para las que, además, los lingüistas no eran hablantes nativos. Esto todos los hablantes en toda la historia y en todos los registros (oral, escrito, planificado,

18 19
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 1 . LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO

conversacional...) y eso es imposible. Por eso, es muy importante que los datos sean hecho, ese era el objetivo de la gramática generativa de Chomsky) y después crea
representativos (y a este concepto volveremos más adelante). ejemplos para dar soporte a sus teorías. Esos ejemplos son ejemplos limpios, fáciles
de entender y bonitos, como "Juan come manzanas", pero están totalmente sesgados
Por lo tanto, los datos nos mostrarán lo que es cierto en la variedad: por ejemplo,
por el investigador. Su idiolecto (sus maneras de decir individuales) se da como la
la gente de Madrid dice coche y no auto, pero que yo no haya encontrado ningún
norma imperante sin haber comprobado si realmente son formas válidas para toda la
hablante madrileño que diga auto no quiere decir necesariamente que esa persona
población o si la palabra cuchuflú, que a él le parecía tan normal, solo se usa en su casa.
no exista. A eso lo llamamos "no aportar evidencia negativa". Vamos a ver un
ejemplo más. Pongamos que entrevistamos a un grupo de alumnos de Filología Afortunadamente para nosotros, algunos lingüistas seguían necesitando datos para
y les hacemos contar una historia en la que unos niños están jugando al juego de poder realizar sus estudios, como los antropólogos o los dialectólogos. Otros,
las sillas. Todos ellos acaban con una frase del tipo "al final, el niño se tiene que como los estudiosos de Second Language Acquisition (SLA), descubrieron muy
quedar de pie porque no había sillas libres". ¿Esto querrá decir que una frase del pronto que sus técnicas eran mucho más eficaces si analizaban los datos específicos
tipo "no habían sillas libres" no se produce nunca en español? No, solo quiere decir de su población. Es decir, los datos (principalmente los errores) que sus alumnos
que nuestro grupo de alumnos no lo dice, ya que, probablemente, eso se deba a generaban. Por ejemplo, analizando los errores de sus alumnos podían localizar
que son estudiantes de Filología que han cursado una asignatura de normativa del en qué temas tenían que poner el foco en años venideros e incluso dar con nuevas
español y están hablando con una profesora y no con sus amigos. Por lo tanto, en maneras de enseñarles y también incluir ejemplos de uso real en los materiales
el mejor de los casos, esta muestra refleja algo que es cierto en nuestro grupo de (Pitkowski & Gamarra, 2009).
estudiantes, pero no en la población general.
Esto crea una gran separación en lingüística que tiene continuidad hasta nuestros
La última crítica que se hace a los estudios empíricos, es decir, a aquellos estudios días: lingüistas racionalistas, que usan su intelecto para analizar; y lingüistas
que están basados en datos, tiene que ver justamente con este concepto de empiristas, que se basan en los datos.
representatividad. Para que los datos sean representativos de una población más o
menos general se necesitan muchos datos. Se necesitan tantos datos, que para un 1.2. MÉTODO CIENTÍFICO EN LA PRÁCTICA LINGÜÍSTICA
solo humano es imposible leerlos y hacerse una idea de ellos para clasificarlos. Eso Hoy en día, la mayoría de los lingüistas somos un poco de ambos y es que al seguir
hizo que durante la primera mitad del siglo xx la mayor parte de los datos que se el método científico hacemos uso tanto del intelecto como de los datos.
recogieron, sobre todo en atlas lingüísticos, estuvieran ahí, disponibles, pero no se
podían analizar, porque no existían técnicas para hacerlo (Abercrombie, 1965). Si Neither the corpus linguist of the 1950s, who r e j e c t e d i n t u i t i o n , ñor the
alguna vez has trabajado con atlas y has visto láminas con diferentes isoglosas para general linguist of the 1960s, who r e j e c t e d c o r p u s data, was able to achieve
cada palabra y has intentado a partir de esas isoglosas (las cuales acaban cada una en the i n t e r a c t i o n o f t h e d a t a c o v e r a g e a n d t h e i n s i g h t that characterize
un pueblo diferente) establecer la frontera entre dos dialectos, entenderás cómo the many successful corpus analyses of recent years. Geoffrey Leech (1991)
esa cantidad de datos se hace muy difícil de gestionar. Esta limitación se superó en En cualquier trabajo de investigación actual, se puede encontrar una hipótesis.
el momento en el que los ordenadores tuvieron capacidad suficiente para realizar Por ejemplo, "los alumnos que cuya lengua materna no tenga vibrante alveolar
análisis y hoy en día no supone ningún problema, ya que las nuevas técnicas de múltiple [r] tendrán más problemas con ella". Esta hipótesis en parte está basada en
análisis de datos (data analysis) se alimentan precisamente de una cantidad ingente nuestra razón; nosotros sabemos que esto es así, pero también puede estar basada
de datos (big data), como por ejemplo sería elfeed deTwitter, que genera al día en nuestra experiencia, en datos. Una vez que hemos determinado la hipótesis,
500 millones de tuits, de los cuales, el 4 , 7 % son en español (Hong, Convertino, recogeremos datos para verificarla o falsaria y, una vez tengamos el análisis de esos
& C h i , 2011). datos (probablemente con el porcentaje de alumnos que tienen problemas con [r]
clasificados por su lengua materna), podremos concluir si nuestra hipótesis era
En el lado opuesto de la balanza, el racionalismo crea explicaciones de la lengua,
cierta o no (esquema 1).
teorías que son válidas para toda la lengua o incluso para la facultad del lenguaje (de

20 21
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 1. LINGÜÍSTICA DE CORPUS Y EL PENSAMIENTO LINGÜÍSTICO: EL EMPIRISMO

Hipótesis
apriorismo. La implicación más beneficiosa de aplicar este m é t o d o es que se
eliminan del método los posibles prejuicios del investigador.

Recolección de datos
En el campo del ELE, el mismo concepto se ha aplicado al uso de herramientas
que permiten a los estudiantes inferir cuál es la pieza léxica o la forma gramatical
4- que están buscando a partir de muestras de lengua (Buyse & Verlinde, 2013). Lo
llamamos aprendizaje deductivo. Si no has oído nunca hablar de él, puedes buscarlo
en el Diccionario de términos CLAVE de ELE (Varios Autores, 2008), disponible en
Verificación o falsación https: / / cvc. Cervantes. es / Enseñanza / biblioteca_ele / diccio_ele / índice. htm.
de la hipótesis
Un ejemplo de aprendizaje deductivo sería el que se suele hacer con la alternancia
Esquema 1. Proceso del método científico entre indicativo y subjuntivo en oraciones afirmativas y negativas con verbos de
pensamiento tipo Creo que llueve pero No creo que llueva, donde, a partir de varios
Por lo tanto, aunque el racionalismo sigue formando parte de la mayoría de las
ejemplos, los alumnos pueden deducir cuándo se usa el indicativo y cuándo el
investigaciones, hoy en día no se concibe un análisis lingüístico en el cual no haya
subjuntivo. Más adelante, en el libro, usaremos este mismo ejemplo para ver cómo
datos. El método científico, compartido por todas las disciplinas del conocimiento,
se puede usar un corpus en clase.
exige que se ofrezcan pruebas de los hallazgos y esas pruebas son los datos, datos
que en lingüística llamamos corpus. También se puede usar el mismo método para conseguir que los alumnos infieran
el significado de una pieza léxica a partir del contexto. En este último caso, el
1.3. LA LLEGADA DE UN NUEVO SIGLO: ESTUDIOS CORPUS- corpus de Linguee ha demostrado que ayuda a mejorar la precisión léxica de los
DRIVEN, APRENDIZAJE DATA-DRIVEN estudiantes (Buyse & Verlinde, 2013). Esto se debe a que, a partir de muestras
Elena Tognini-Bonelli dio nombre a una partición que ha sido muy útil en los reales de lengua en contexto, los alumnos no solo aprenden el significado de
estudios de corpus desde entonces: estudios basados en corpus (corpus-based) la palabra, si no también sus usos más comunes y las palabras que lo suelen
y orientados al corpus (corpus-driven) (Tognini-Bonelli, 2001). Los primeros acompañar. Es, en cierta manera, como si en vez de memorizar la entrada de un
estudios eran los que se venían realizando hasta la fecha. En ellos, a partir de una diccionario de definiciones, como el Diccionario de la Real Academia de la Lengua
hipótesis, se usaba un corpus para validarla. Por ejemplo, ante la hipótesis de que (Real Academia Española, 2014), estuvieran memorizando la entrada de un
los anglófonos dirán la gente *son por influencia de su lengua materna, se plantea diccionario de colocaciones o, más bien, un diccionario combinatorio como el
una búsqueda en corpus que devuelva las instancias (más tarde, veremos que en Redes (Bosque, 2004) o el Práctico (Bosque, 2006).
corpus se llaman ocurrencias) de gente seguido del verbo ser y el programa devuelve
la frecuencia del singular y del plural. El segundo tipo, corpus-driven, observa el 1.4. PARA MÁS INFORMACIÓN
corpus y busca patrones y regularidades sin apriorismos ni hipótesis y, a partir McEnery, T. & Hardie, A. (2013).The history of corpus linguistics. The Oxford handbook ofthe
de esas observaciones, construye una hipótesis explicativa. Si usamos el ejemplo history of linguistics, 121-14-5.
anterior, para llegar a la misma conclusión, se observaría el corpus (por ejemplo,
el conjunto de redacciones de los alumnos anglófonos de una clase), se haría una 1.5. ACTIVIDADES
lista de los errores más frecuentes y, quizá, aparecerían cosas corno la gente *son. A 1.5.1. ¿Qué r a m a s d e la l i n g ü í s t i c a f u e r o n p i o n e r a s e n la r e c o p i l a c i ó n
partir de ahí, se buscarían explicaciones plausibles sobre por qué se han producido d e datos?
esos errores, en este caso, transferencia de la L l . 1.5.2. ¿Cuáles s o n las v e n t a j a s d e l e m p i r i s m o ? ¿Y d e l r a c i o n a l i s m o ? ¿Y
La conclusión ha sido la misma, pero en el p r i m e r caso, se parte de nuestro sus desventajas?
conocimiento previo, mientras que en el segundo no se hace ningún tipo de

22 23
2. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

En el capítulo anterior se ha hablado de las diferencias de pensamiento entre


lingüistas que recogen datos y que no recogen datos, y ello nos lleva al tema central
de este manual, los corpus, ya que así es como llamamos a los datos en lingüística.
En esta sección se van a definir los conceptos de corpus y lingüística de corpus.

2 . 1 . ¿QUÉ ES UN CORPUS?
Un corpus es un conjunto de muestras de habla (orales o escritas) representativas
de una variedad lingüística que se usan para realizar investigaciones lingüísticas
o para entrenar un sistema de inteligencia artificial (McEnery & Wilson, 1996;
Taylor, 2008;Torruella & Llisterri, 1999). Es decir, un corpus son datos y esto es
especialmente importante en el mundo actual en el que los sistemas informáticos
de inteligencia artificial se alimentan de datos. Se ahondará en esta idea al hablar
de aplicaciones de corpus.
A c e r q u é m o n o s más al c o n c e p t o de c o r p u s . Un corpus es un conjunto de
muestras de habla d i g i t a l i z a d a s y p r o c e s a b l e s p o r u n o r d e n a d o r , lo que
nos facilita hacer búsquedas y ordenar los datos. Estas muestras pueden ser habla
e s c r i t a u o r a l . En el segundo caso, deben ir acompañadas de sus respectivas
transcripciones y de manera ideal esas transcripciones estarán alineadas con el
¿QUE ES LA LINGÜISTICA DE CORPUS?
audio, como ocurre, por ejemplo, con los subtítulos de una película en que el
sonido y el texto aparecen a la vez. Las muestras son necesariamente t e x t o s
o r i g i n a l e s , es decir, no creados a propósito para tener ejemplos de habla, sino
porciones que se hayan usado con una función comunicativa, ya sea en un libro,
en una conversación o en cualquier o t r o intercambio comunicativo, como un
chat o una reseña de Amazon. Pueden ser documentos c o m p l e t o s o también
f r a g m e n t o s . Si tenemos un corpus de libros, podemos usar libros enteros o,
pongamos, solo el primer capítulo.
Además, se han tenido que compilar con una i n t e n c i ó n c o n c r e t a , es decir, no
son textos sin orden ni concierto, sino que buscan ser r e p r e s e n t a t i v o s de una

25
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

variedad lingüística en particular. Eso sí, esa variedad puede ser muy amplia: por (Sub)disciplinas Teorías lingüísticas Metodologías
ejemplo, un corpus que busca ser representativo del español escrito en el siglo
xx o más concreta, textos que quieren ser representativos de las recetas de cocina Lingüística Funcionalismo Lingüística
teórica europeo cuantitativa
escritas en español por anglófonos. El concepto de representadvidad, aunque
Fonología Lingüística I Estructuralismo i
fácil de captar en su esencia, es difícil de determinar: ¿cuántos textos necesitamos
computacional Lingüística
para que algo sea representativo? Es por eso por lo que volveremos a ello en el Lingüística
Morfología cualitativa
Psicolingüística matemática
capítulo 4 . 2 .
Semántica Sociolingüística Generativismo Ingeniería
2.2. LINGÜÍSTICA DE CORPUS Cognitivismo lingüística
Lexicografía
Sintaxis
Funcionalismo
Ya hemos visto más de cerca qué es un corpus. Pero, entonces, ¿qué es la Dialectología ¿Lingüística de
l i n g ü í s t i c a d e c o r p u s ? La definición más fácil es la siguiente: la lingüística Pragmática Teoría de la corpus?
Antropología lea. relevancia
que hace uso de corpus. El problema surge cuando intentamos definir si es una
metodología, una rama de estudio o una teoría lingüística.
Esquema 2. Encaje de la lingüística de corpus en las categorizaciones de la lingüística
Por la definición que acabamos de dar, la lingüística de c o r p u s es una
herramienta de trabajo, por lo que el mapa de la lingüística se parecería al que Sin embargo, no todo el m u n d o está de acuerdo con esta categorización: los
se puede observar en el esquema 2, en el que la lingüística de corpus aparece grandes pioneros de la lingüística de corpus y responsables de uno de los grandes
como una metodología. Se pueden usar corpus para hacer cualquier tipo de hitos de los corpus que veremos más adelante, el corpus COBUILD (Firth, Sinclair
estudio lingüístico en cualquier nivel de lengua (semántica, s i n t a x i s . . . ) , y, y sus seguidores), defienden que la lingüística de corpus se ha ganado la categoría
por lo tanto, la rama de estudio que le corresponde depende del fin para el de marco teórico, ya que tradicionalmente las metodologías usadas en lingüística
que usemos el corpus. Pongamos que queremos hacer un diccionario, nuestra son más simples (McEnery &Wilson, 1996;Tognini-Bonelli, 2001).
tarea pertenecería al campo de la lexicografía; si queremos extraer una teoría
Veamos por qué. En una investigación lingüística, se pueden usar m é t o d o s
gramatical, estaríamos haciendo lingüística teórica; o pongamos que queremos
cuantitativos (dar porcentajes de aparición) o cualitativos (explicar el uso de una
entrenar el sistema de diálogo de un asistente virtual como Siri, estaríamos
forma gramatical), usar estadística inferencial (establecer si la diferencia entre dos
usando corpus para una tarea que p e r t e n e c e a la lingüística computacional.
grupos de hablantes es estadísticamente significativa mediante pruebas estadísticas)
En definitiva, trabajar con corpus es algo que p o d e m o s hacer en todas las
o no, etc., pero todas estas metodologías o recursos no son únicas de la lingüística,
subdisciplinas o ramas de la lingüística (se verá con más detenimiento en el
sino compartidas con muchas otras ciencias sociales e incluso ciencias a secas. Los
capítulo 5). Esto hace que la lingüística de corpus sea más una metodología de
artículos de fonética, por ejemplo, contienen análisis estadísticos que se usan en
trabajo que una rama de estudio.
biología para establecer parecidos entre genes y algunos análisis estadísticos de la
sociolingüística tienen un diseño parecido al que se hace para probar si un fármaco
funciona con un grupo objetivo al que le dan la medicación y otro grupo que
recibe un placebo. El uso de porcentajes o de pruebas estadísticas no es algo único
de la lingüística. Sin embargo, el uso de corpus es propio y único de la disciplina
lingüística. La lingüística de corpus ha sido desarrollada por lingüistas y solo la
usan ellos.

Además, las metodologías tienen que ver con el tipo de análisis que se hace de los
datos y su posterior tratamiento estadístico, mientras que la lingüística de corpus

26 21
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUÉ ES LA LINGÜÍSTICA DE CORPUS?

tiene relación con los datos. La lingüística de corpus e s los datos. A esos datos ,una C o m o hemos dicho, la historia de la lingüística de corpus está ligada a la
vez conseguidos mediante corpus, se les puede aplicar cualquier tipo de análisis, es posibilidad de digitalizar los datos, y esto es decir que está ligada a la historia de
decir, cualquier metodología. Lo podemos ver con un ejemplo. Pongamos el caso los ordenadores.Y, como ella, ha sufrido grandes cambios desde los años cincuenta
de que podemos conseguir las producciones escritas (redacciones) de un grupo del siglo xx cuando apareció el primer ordenador.
de alumnos de Al y A2 que han hecho una descripción de sí mismos. Una vez
Algunos años antes, los estructuralistas habían abandonado la rama ñormativista
conseguidas, tendremos un corpus. Después de eso, podemos aplicar 1) un análisis
de la lingüística y querían describir la lengua que se hablaba en la calle. Uno de
cualitativo, es decir, explicar qué tipo de errores han cometido (por ejemplo,
sus objetivos era crear diccionarios y gramáticas que se basaran en un uso real
errores en el uso del presente o que han confundido el verbo ser y el estar); 2) un
de la lengua con ejemplos documentados en textos. A esa tendencia pertenece
análisis cuantitativo, por ejemplo, decir cuántos errores de ser/estar han cometido
Hornby (Hornby et ál., 1948), que ideó el diccionario en el que se inspiró María
o qué tanto por ciento de las veces que han usado ser/ estar lo han hecho de un
Moliner para crear su famoso Diccionario de Uso de la Lengua Española (Moliner,
modo erróneo; y 3) un análisis estadístico, hacer un conteo de los errores de cada
1966), todavía compilado a mano, con fichas de biblioteca. La aparición de esas
tipo (morfológico, sintáctico, de n ú m e r o . . . ) y aplicar una prueba estadística para
primeras obras descriptivistas llevó a un gran conjunto de lingüistas a percibir
comprobar si los alumnos de A1 han hecho significativamente más errores que los
la necesidad de contar con grandes bases de datos de textos que estuvieran
alumnos de A2. Todas estas metodologías son compatibles e independientes de que
usemos o no corpus en nuestro estudio. almacenadas y ordenadas, y qué mejor para esa tarea que informatizar las bases
de datos de lengua.
Otra de las particularidades de la lingüística de corpus es que muchas teorías
A la vez que pasaba todo lo anterior, nació el primer centro del mundo dedicado a
lingüísticas, como el cognitivismo y la gramática de construcciones, han surgido
la lingüística de corpus. Se trata del Survey oj English Usage del University College
gracias a ella, y se han desarrollado a su sombra. Incluso ramas de la lingüística
London (SEU) que todavía sigue activo en la actualidad y, como su nombre indica,
enteras como la lingüística computacional deben su existencia y comparten toda
trababa de documentar el uso real del inglés, y lo hacía a partir de textos. Sus
su historia y evolución con la lingüística de corpus. Todo ello hace que muchos
miembros compilaron el p r i m e r corpus de un millón de palabras, en aquella
autores prefieran entender la lingüística de corpus como una rama más de la
época todo un hito, bajo la coordinación de Randolph Quirk. Los resultados
lingüística.
obtenidos de ese corpus llevaron a la redacción de A Comprehensive Grammar of
Pero, para el objetivo que aquí nos ocupa, lo más adecuado es e n t e n d e r la the English Language (Quirk et al., 1985). Otros clásicos de la época que sirven
lingüística de corpus como una h e r r a m i e n t a que va a ser de ayuda para conocer para comprender el inicio de los corpus son el corpus Brown, el Lancaster-Oslo/
mejor el perfil de nuestros alumnos, crear mejores materiales para ellos, poner Bergen Corpus (conocido como LOB) o el Kolhapur Corpus (con datos de inglés
ejemplos más realistas, y proponer dinámicas de clase divertidas. Por lo tanto, lo americano, británico, y de la India).
más cercano de todas las opciones propuestas, es definir la lingüística de corpus
A partir de los años ochenta, las nuevas capacidades de los ordenadores permitieron
como una metodología de trabajo, pero siempre teniendo en cuenta que no es una
compilar corpus más abundantes. Entre ellos, probablemente el más famoso sea el
metodología al uso.
Bank of English (corpus usado para crear el diccionario COBUILD) de 450 millones
de palabras e impulsado originalmente por John Sinclair, toda una referencia en los
2.3. LOS PRIMEROS CORPUS
estudios de corpus (Sinclair, 1987). El COBUILD, como el diccionario de Hornby,
Ya hemos hablado de los primeros lingüistas que recogieron datos, aunque, esos estaba pensado especialmente para estudiantes de lengua extranjera; los estudios
son solo precursores. Tanto ellos como los antropólogos contaban con muestras basados en corpus se aplicaron al estudio de segundas lenguas desde muy pronto.
de lengua, pero en forma de atlas, no de corpus, ya que sus muestras no estaban
precisamente ordenadas ni eran digitalizables. Entonces, ¿cuándo se crean los Otros corpus del inglés que hicieron aportaciones importantes al campo son el
primeros corpus? < British Nacional Corpus, de 100 millones de palabras y que contiene muestras de

28 29
USO DE CORPUS EN CUSE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUE ES LA LINGÜÍSTICA DE CORPUS?

habla oral y escrita, y el American National Corpus (ANC), un corpus oral de inglés Contemporánea (CORLEC) una iniciativa de los años noventa que cuenta con un
norteamericano (Ide & Macleod, 2001). Sin embargo, en este libro no nos vamos millón de formas orales. También se financiaron corpus para uso médico: en el
a centrar en las aportaciones de cada uno de ellos, basta con saber que existieron, campo de la lingüística clínica fue especialmente importante el corpus LEXESP,
y que cada uno fue aportando, a través de sus aciertos y errores, su pequeña usado para elaborar el Diccionario de frecuencias de las unidades lingüísticas del
contribución para crear la disciplina que conocemos en la actualidad. castellano a partir de 1,5 millones de formas (Alameda & Cuetos, 1995).

Estos corpus, aunque muchos están disponibles, no se han pensado con el objetivo
2.4. LOS CORPUS DEL ESPAÑOL
de facilitar la búsqueda en ellos y, por lo tanto, no cuentan con una interfaz en línea
En el caso del español, la historia es algo más reciente. Existieron primero algunas en la que podamos hacer búsquedas de manera cómoda. Es decir, su disponibilidad
iniciativas de digitalización de textos antiguos, como la realizada para la redacción consiste en que puedes descargar todos sus textos en tu ordenador, pero cómo
del Dictionary qf Oíd Spanish Language (Nitti, 1979) y también encuestas como las busques en ellos, es cosa tuya. Las búsquedas deben realizarse mediante un
del Proyecto de estudio coordinado de la norma lingüística culta del español hablado en buscador que creen los investigadores. Aprender a hacer esto requiere un tipo de
las principales ciudades de Iberoamérica y de la Península Ibérica, un proyecto que fue formación que no tiene ninguna relación con el ELE. Quizá, si hiciste lingüística de
propuesto inicialmente en 1964. Sin embargo, este proyecto, comparable al Survey corpus o computacional en la carrera, sepas hacerlo; en ese caso, puedes echarles
ofEnglish Usage, no se podría considerar propiamente un corpus hasta algo más tarde, un ojo. Sin embargo, en este libro nos centraremos en los corpus que tienen una
cuando se digitalizó y clasificó porque, como hemos dicho, los corpus propiamente interfaz para facilitar la búsqueda al público general.
dichos nacen con los ordenadores y en España eso es entre los años 1980 y 1995.
Entonces, ¿cuáles son los corpus que podemos consultar mediante una interfaz?
Pero dejemos de lado la parte más histórica y pasemos a los corpus del español que Ahora los vemos. Los primeros corpus de habla nativa en español que podemos
se crearon desde los años 90 del siglo pasado y que siguen disponibles hoy en día para encontrar en línea son compilaciones de textos u obras que realizan diversas
su consulta. En esta sección, hablamos solo de corpus de habla nativa, que pueden universidades para fines de investigación. De ellos, el más usado es probablemente
servir para dar ejemplos positivos y para que los estudiantes puedan hacer búsquedas. el Spanish O n Line o corpus SOL (Mighetto, 2003), consultable en línea desde
A los corpus de español hablado como L2 le dedicaremos un capítulo aparte 1998 (figura 1). En él se pueden hacer búsquedas por palabras o secuencias para
(el 6) porque tanto su m é t o d o de consulta como su finalidad son diferentes. obtener en qué contextos se usa la palabra o cuál es su frecuencia de uso.
Los corpus que contienen español hablado por no nativos son corpus pensados
para el investigador que quiere saber más de la interlengua de sus estudiantes
(Selinker, 1972), que quiere ver qué errores cometen. Por lo tanto, son corpus
para la investigación del ELE. Mientras que los corpus de lengua nativa, en su
mayoría, no están pensados para una tarea específica; pertenecen a aquella clase
que llamaremos c o r p u s g e n e r a l e s .

Pese a esto, algunos de los corpus de habla nativa más grandes sí han sido
diseñados con un objetivo en mente. Los corpus más grandes de los años noventa
fueron fruto de la inversión de empresas editoriales que, como veíamos en el M U

caso del COBUILD, fueron usados para crear diccionarios de nueva planta. Así se
financiaron, por ejemplo, el Corpus Vox-Biblograf (CVE) (10 millones de formas) o
el CUMBRE de SGEL (20 millones) o el Corpus del español mexicano contemporáneo
m .
usado para el Diccionario del español de México (CEMC, 2000 formas). En el campo
de los corpus orales, destaca el Corpus Oral de Referencia de la Lengua Española
Figura 1. Interfaz del corpus SOL (Mighetto, 2003)

30 31
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUé ES LA LINGÜÍSTICA DE CORPUS?

Pero, los mejores corpus para nuestro uso son aquellos que nacen de grandes 2.5. INTERNET COMO CORPUS Y GOOGLE BOOKS
iniciativas. Y los primeros de ellos son los corpus de referencia compilados por
Mientras explicábamos los primeros corpus y los corpus de los de los años noventa,
las academias de la lengua. Los corpus de referencia tienen el objetivo, como en
hablábamos de corpus de millones de palabras. La primera y gran barrera que se
su día el Vox-Biblograf, de servir como base de datos para actualizar un diccionario
superó en términos de número de palabras fue mil millones de palabras (un billion
(por eso de referencia), en este caso el Diccionario de la Lengua Española (DRAE)
en inglés). A primera vista, esto puede parecer mucho, pero en realidad es una
y el Nuevo diccionario histórico del español (NDHE). Pero sus creadores también los
muestra pequeñísima comparada con la cantidad de palabras que obtendríamos si
han dotado de una interfaz de búsqueda en línea que permite a los usuarios hacer
sumamos, por ejemplo, todas las publicaciones de los periódicos durante un mes.
búsquedas sencillas para consultar la frecuencia de una palabra. Los primeros de
Solo para dar una idea, en la actualidad, un corpus como el COBUILD para el
estos corpus fueron el Corpus de referencia del español actual (CREA), que data de
inglés contiene 4,5 mil millones de palabras. El CORPES contiene, en 2019, 225
1995, y el Corpus diacrónico del español (CORDE), cuya compilación se aprobó poco
millones de palabras y tiene como objetivo alcanzar los 400 millones. Mientras
después del CREA. Probablemente, estos fueron los corpus sincrónicos (CREA) y
que el CdE contiene, para sus cuatro subcorpus: 100 millones de formas en el
diacrónicos (CORDE) más usados hasta la irrupción del llamado Corpus del español
histórico, 2000 millones de formas en el web, 5500 millones de formas en el
(CdE) (Davies, 2002).
NOW, y 45 mil millones en n-grams (BYU).
El CdE marcó un antes y un después en el uso de los corpus, porque usa una interfaz
Pero en los tiempos que corren, nos estamos dejando un corpus primordial. ¿A quién
de búsqueda (la del BYU) que había tenido mucho éxito en inglés. Esto significa
preguntan los estudiantes cuando tienen dudas con un régimen verbal? Por supuesto,
que permite búsquedas de secuencias de palabras mucho más refinadas que el
a Google. Google no es un corpus en sí mismo, es un buscador, como la interfaz de
CREA y el CORDE. Por ejemplo, en él se pueden buscar frases que contengan la
búsqueda en los corpus. Estrictamente, internet no es un corpus, es un conjunto
conjunción si seguida de un verbo en subjuntivo, o los sustantivos que acompañan
de datos digitalizado, sí, pero no ordenado, más bien lo contrario, desordenado y
más frecuentemente a la palabra tomar. Lo veremos en los ejercicios del capítulo.
caótico, ahí reside su gracia. En internet no sabemos (siempre) quién es el autor del
Además, el CdE cuenta con varios subcorpus: el Genre/Historical, que contiene textos
texto o los años que tenía cuando lo escribió, o ni siquiera si es hablante de lengua
de novelas hasta el 2000; el Web/Dialects, que podemos considerar el corpus más
nativa o extranjera. Pero, pese a todos estos problemas, internet nos da acceso a un
general; el NOW, un corpus que contiene noticias y textos periodísticos publicados
gran banco de datos qu se han aprovechado de innumerables maneras.
en internet (este último es lo que llamamos un corpus monitor, lo veremos en el
capítulo 4); y n-grams (BYU), que contiene libros obtenidos de Google Books. Por Existe bibliografía sobre cómo usar internet como corpus y también trabajos que han
todo ello, el éxito del CdE fue inmediato y todavía hoy es el corpus más versátil usado como corpus laWikipedia,Twitter o Amazon. Sin embargo, hacer búsquedas
y el que más usaremos en los ejercicios. La única pega es que esa versatilidad (la refinadas en esos servicios no es fácil. Los investigadores que lo hacen tienen que
posibilidad de refinar mucho nuestras búsquedas) implica que buscar en él es un crear sus propios buscadores que diseñan en lenguajes de programación como
poco más complejo que en el resto de los corpus. Python o R. o bajar los textos e introducirlos en un software gestor de corpus que
ayuda a ordenar los textos, analizarlos y realizar búsquedas, como el software libre
Volviendo a los corpus académicos, el CREA se quedó corto enseguida, tanto
AntConc (Anthony, 2019) o SketchEngine, de pago, pero con una versión de prueba
por su contenido (mayormente textos literarios y periodísticos casi al m o d o
gratuita (Kilgarriff et al., 2014). En este libro, no explicaremos como usar estos
del Diccionario de Autoridades1) como por su interfaz. Por eso, hoy contamos con
programas o cómo realizar análisis propios en, por ejemplo, Python. Si fueras un
un nuevo corpus heredero del CREA, el CORPES, que permite búsquedas casi
lingüista computacional, o estuvieras cursando un máster de Humanidades Digitales,
igual de refinadas que el Corpus del Español. Este será el segundo corpus que más
lo necesitarías, pero nosotros vamos a usar corpus a nivel usuario.
usaremos.
En cambio, existe una porción de internet que cuenta con su propio buscador y
1 El Diccionario de Autoridades es el primer diccionario publicado por la Real Academia Española. En él solo se que puede ser muy útil en trabajos de cultura y ELE: se trata de Google NGrams
incluían palabras que habían sido documentadas en autores célebres de la literatura española.

32 33
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 2. ¿QUé ES LA LINGÜÍSTICA DE CORPUS?

Viewer, un m o t o r de búsqueda que trabaja con un conjunto de libros extraído 1. Ve a la dirección web: https://www.corpusdelespanol.org/web-clial/
de Google Books (45 000 millones de palabras). Para tener una idea de lo que se 2. Escribe en el cuadro de búsqueda corpus y pulsa el botón FIND MATCHING
puede hacer con un corpus de tantos libros, recomendamos ver una TED talk muy STRINGS. A continuación, aparece la frecuencia de la palabra "FREQ".
amena que presenta Culturnomics, un proyecto para explicar el cambio cultural ¿Cuántas veces aparece la palabra corpus en el corpus web del CdE?
a través de los textos. La charla se llama "¿Qué hemos aprendido de 5 millones 3. Pulsa en la palabra corpus. Se abrirá una nueva ventana con el contexto en
de libros?" y está disponible de manera gratuita en la página de TED Talks y en su el que aparece la palabra. Verás que hay 92 páginas de resultados, eso es
canal deYouTube. porque había muchas ocurrencias de esa palabra. A partir de la primera
Los corpus que hemos mencionado en este capítulo no son ni mucho menos todos página de resultados, ¿podrías decir cuál es el significado más habitual de la
los disponibles para el español; para una lista más exhaustiva puedes consultar Cruz palabra corpus en español?
Pinol (2012), pero nosotros, en este manual y en sus actividades, vamos a usar los 4. Ahora compara los resultados con un corpus de inglés, el COCA (https: / /
que consideramos más útiles y fáciles de manejar para ELE, principalmente: el www.english-corpora.org/coca/), ¿cuál es el significado más habitual en
CORPES, el Corpus del español, la interfaz de búsqueda de Google Books y Google inglés americano?
NGram Viewer. 2 . 7 . 2 . Ve al c o r p u s SOL (https: / / s p r a a k b a n k e n . g u . s e / k o r p / ? m o d e — s p a n i
sh#?lang=en&cqp=%5B%5D&page=0&search=word%7Cemail) y busca
2.6. PARA MÁS INFORMACIÓN las s i g u i e n t e s p a l a b r a s e n s u s t r e s s u b c o r p u s : presidente, presidenta,
Rojo, G. (2016). Los corpus textuales. En: Gutiérrez-Rexach, J. (ed.), Enciclopedia lingüística internet, email.
hispánica. Oxon: Routledge, 285-296.
1. ¿Cuáles aparecen? ¿Por qué crees que no aparecen algunas?
Michel, JB. & Ueberman Aiden, E. (Julio, 2011). What we learned from 5 million books. 2. En la información de los subcorpus, busca los años de los textos que .
Conferencias TED. https: / / www. ted. com / talks / j ean Jbaptiste_michel_erez__lieberman_
contiene cada uno. ¿Cuál de los dos es más útil para un alumno de ELE?
aiden_what_we_learned_from_5_million_books.

2.7. ACTIVIDADES
2 . 7 . 1 . F u e r a d e l m u n d o d e la l i n g ü í s t i c a la g e n t e n o s u e l e p e n s a r
e n d a t o s o m u e s t r a s d e h a b l a c u a n d o d e c i m o s corpus. V a m o s a
c o m p r o b a r e s t a i n t u i c i ó n e n u n c o r p u s d e h a b l a r e a l , e l Corpus
del Español (CdE) ( D a v i e s , 2 0 0 1 ) . Para e l l o , v a m o s a u s a r u n c o r p u s
o n l i n e c o n i n t e r f a z d e b ú s q u e d a . Es d e c i r , u n b u s c a d o r p a r e c i d o a
G o o g l e p e r o c o n t e x t o s o r d e n a d o s . ¡Atención, el c o r p u s d e v e r d a d
s o n las m u e s t r a s d e h a b l a q u e h a y d e t r á s , e l b u s c a d o r e s s o l o u n a
m a n e r a d e c o n s u l t a r l o s d a t o s d e f o r m a m á s fácil! El CdE e s g r a t u i t o ,
pero después de u n n ú m e r o d e búsquedas pide q u e te registres, pío
d u d é i s e n h a c e r l o ! El r e g i s t r o p a r a u s o d e p r o f e s o r e s o e s t u d i a n t e s
e s g r a t u i t o y l o v a m o s a u s a r m u c h o . A n t e s d e l CORPES, e s t e e r a e l
ú n i c o c o r p u s c o n b u s c a d o r l e m a t i z a d o para el e s p a ñ o l ( v e r e m o s
qué significa esto e n el siguiente capítulo), e s o hace q u e haya una
infinidad d e trabajos realizados c o n él.

34 35
3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS

Antes de continuar con la teoría de lingüística de Corpus, vamos a introducir algunos


conceptos clave de la disciplina que servirán para hablar con propiedad (con la
terminología adecuada) durante el resto del libro. En los ejercicios del capítulo
anterior, han aparecido algunos de ellos, pero ahora se van a sistematizar. Para seguir
mejor las explicaciones es recomendable haber hecho (o, para el simple lector, haber
leído) el ejercicio 2 . 5 . 1 .

COMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y


TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS
Esquema 3. Mapa del contenido del tema

3.1. FORMAS Y LEMAS


Los corpus contienen palabras, pero el problema es que la palabra palabra es
bastante escurridiza y difícil de definir. Por ejemplo, es discutible si el lo de piénsalo
es una palabra diferenciada de piensa o si juntos forman una nueva palabra. En
general, en lingüística se pueden tomar diferentes criterios para delimitar las
palabras: fonéticos, morfológicos o funcionales, principalmente (González Calvo,
2000). Para no tener que entrar en ese debate, en corpus se definen como aquello

37
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COHO MODELO 3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS

que queda entre dos espacios, es decir, con un criterio m e r a m e n t e gráfico. A fórmula matemática para expresarlo sería la siguiente (no es más que la notación
esas "palabras entre dos espacios" se las llama f o r m a s . Además, sabemos que las matemática de un porcentaje):
palabras flexionan: por ejemplo, piensa y pienso son formas flexionadas de una
misma palabra; también amiga y amigo, y por eso se agrupan bajo la misma entrada
en el diccionario. Si queremos encontrar en el diccionario el significado de amiga,
buscaremos en la entrada de amigo. Eso en corpus es un l e m a . El lema amigo
( N de ocurrencias
tamaño del corpus
If\ 100

contiene las formas amigo/a/os/as, amiguísimo /a /os /as, amigóte / s, etc. Fórmula 1. Frecuencia normalizada en porcentaje

3.2. OCURRENCIAS Pero existe otra manera (muy parecida, por otro lado) de expresar la frecuencia
de una palabra en un c o r p u s . En vez de hacerse p o r cada 100 palabras
Cada una de las apariciones de una palabra o, mejor dicho, de un lema en el corpus
(porcentaje), se calcula por cada un millón de palabras. ¿Y por qué un millón?
es una o c u r r e n c i a (token). Si una palabra aparece muchas veces en el corpus,
Por una mera casualidad histórica. Durante una época, muchos corpus eran de
decimos que hay muchas ocurrencias de ese lema o de esa forma del lema. Por
un millón de palabras y así, se podían ahorrar el paso de multiplicar, puesto
norma general, cuando hacemos una búsqueda en un corpus, el sistema devuelve
que, en un corpus de un millón de palabras, para calcular la "frecuencia por
cada una de sus ocurrencias; es decir, cada vez que la palabra (sea lema o forma)
millón" habría que dividir entre un millón y después multiplicar por un millón,
se ha documentado en el corpus.
o lo que es lo mismo, no hacer nada. ¿Entonces por qué se ha mantenido esta
3.3. FRECUENCIA normalización vigente hasta ahora? Por una cuestión práctica. Si se calcula el
porcentaje en un corpus grande, los números resultantes son muy pequeños y
La f r e c u e n c i a de una palabra en un corpus es su n ú m e r o de ocurrencias, es
quedan cosas como 0.0000001 %, un tipo de números que son poco prácticos
decir, el n ú m e r o de veces que esa palabra aparece en el mismo. La frecuencia
para escribirlos o recordarlos. Si seguimos con el ejemplo de arriba, nuestras
puede ser absoluta o normalizada.
cinco ocurrencias de estudiante en un corpus de 5 000 0 0 0 de palabras, la
La frecuencia absoluta es un valor muy útil para saber si una palabra se usa mucho frecuencia normalizada en porcentaje es de 0,0001 % , p e r o p o r millón de
o poco, pero no es lo mismo que la palabra estudiante aparezca cinco veces en una palabras sería 1 % : la palabra estudiante aparece una vez p o r cada millón de
redacción de 500 palabras a que aparezca cinco veces en la novela de un autor que palabras. Esta cifra es mucho más intuitiva que la frecuencia en porcentaje.
sea de 5 0 0 0 0 0 0 . Su frecuencia es la misma, cinco, pero la "densidad", no. En la
redacción ha aparecido mucho más y probablemente se trate de uno de los temas
del texto, mientras que estudiante aparezca cinco veces en una novela no nos dice
mucho de los temas de la obra (más que quizá en la novela haya un hijo o un amigo
( N de ocurrencias
tamaño del corpus
I
J
\
* 1 000 000

estudiantes). Fórmula 2. Frecuencia normalizada por millón de palabras

Para que la frecuencia nos diga algo más sobre si la palabra aparece m u c h o o El tipo de frecuencia normalizada que usa un corpus depende de las decisiones que
poco, si tenemos en cuenta el tamaño del corpus en el que aparece, existe la se tomaron en el diseño de este y siempre se indicarán en la documentación o en
f r e c u e n c i a n o r m a l i z a d a . En los dos casos expuestos arriba, la frecuencia es la la página web del corpus. Por ejemplo, en el CORPES, al situar el ratón encima
misma (5), pero no la frecuencia normalizada. En un caso, estudiante representa de Fnorm cuando se busca una palabra, un cuadro explicita "N de ocurrencias por
el 1 % del corpus (1 palabra de cada 100 de las que aparecen), mientras que en cada millón de palabras en cada zona", pero en Google NGrams (otro corpus que
el segundo caso constituye el 0,0001 % del corpus. La frecuencia normalizada se usará en este libro) la frecuencia se expresa en porcentaje.
se calcula dividiendo el n ú m e r o de ocurrencias entre las palabras totales del
corpus y, normalmente, se expresa en porcentaje, como hemos hecho aquí. La

38 39
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS

3.4. CONCORDANCIAS • verbo + nombre: ponerse las pilas, plantear problemas...


Después de ver la frecuencia de la palabra, el sistema de búsquedas ha devuelto cada • verbo + preposición + sustantivo: llevar a cabo, ponerse de acuerdo...
una de las ocurrencias de la palabra en el corpus. Pero no la ha devuelto sola, nos la Aunque estas no son las únicas. A su vez, un c o l o c a d o o c o l o c a t i v o es la palabra
ha devuelto en contexto (y esta es la gracia de los corpus). A esto lo llamamos líneas que aparece habitualmente en una colocación como complemento. Por ejemplo,
de concordancias, o simplemente c o n c o r d a n c i a s (en inglés, Keyword In Context — en la colocación plantear problemas, problemas es un colocado de plantear, porque a)
KWIC—). En la figura 2, hay un ejemplo de KWIC. Si buscamos el lema aprendiente complementa a plantear y b) juntos forman una colocación. Así, en algunos corpus,
en el corpus CORPES, el sistema devuelve: 1) cada ocurrencia (formas aprendiente para buscar colocaciones se busca una palabra y después se buscan sus colocados a una
y aprendientes) que hemos buscado destacada y centrada, en este caso, se destaca en distancia de cero palabras (como en el caso de plantear problemas en que problemas
azul y negrita, pero que en otros corpus destacan la forma buscada de otras maneras; aparece inmediatamente después de plantear), de una palabra (punto de encuentro,
y 2) el contexto por delante y por detrás de donde aparece. encuentro aparece a una palabra de distancia de punto) e incluso hasta una distancia de
seis palabras. Entonces, ¿cómo decidimos qué es una colocación y qué no?

Para decidir si algo merece ser considerado como colocación, medimos su fuerza
calculando el n ú m e r o de veces que las palabras aparecen juntas respecto de
las que aparecen por separado. Esa medición de la "fuerza de la colocación" se
realiza mediante el llamado c r i t e r i o d e c o s t o (cost criterio) que consiste en una
Figura 2. Concordancias del lema aprendiente en el corpus CORPES fórmula, que no veremos aquí, creada por Kita et al. (1994). Esta fórmula se creó
precisamente para determinar qué colocaciones de un corpus sería útil enseñar
3.5. COLOCACIONES en clase de lengua extranjera. Es gracias a ella y a sus adaptaciones que los corpus.
nos pueden ofrecer una lista finita de las colocaciones que aparecen en él. Si no
Relacionado con el concepto de concordancias, existe el concepto de colocación,
existiera un filtro para decidir qué es una colocación, cualquier palabra podría
que quizá conozcas de diferentes estudios de gramática, si has estudiado una
ser colocado de otra en el m o m e n t o en el que aparecieran juntas una vez, como
filología, o de los enfoques léxicos en ELE. De hecho, de los conceptos vistos
aparecer juntas, y eso sería muy poco informativo.
hasta ahora el de colocación es el único que ha sido explotado en ELE gracias al
enfoque léxico. Por lo tanto, dependiendo de su criterio de costo, las colocaciones pueden ser más
fuertes o menos. Es decir, hay palabras que se combinan muy frecuentemente con
Una c o l o c a c i ó n es una secuencia de palabras que aparecen juntas. En términos
otras y solo con esas. Casos de estas serían: módico precio, horas intempestivas, pingües
teóricos, podría ser cualquier tipo de secuencia desde frases lexicalizadas (y el
beneficios, error garrafal; donde el adjetivo módico solo se usa para modificar a precio;
estadio más avanzado sería un refrán) hasta secuencias de palabras que aparecen
en español, lo único que es intempestivo son las horas; lo único que es pingüe
en un orden concreto. Por ejemplo, en español decimos blanco y negro, mientras
son los beneficios; y lo único que es garrafal son los errores. En cambio, otras
que en inglés se dice black and white, que se traduciría literalmente por "negro y
tienen una fuerza más limitada. Blanco y negro es una colocación y como tal estas
blanco". Pero en lingüística de corpus se contemplan principalmente colocaciones
palabras aparecen con mucha frecuencia juntas, pero también usamos con mucha
formadas por dos o tres palabras.
frecuencia las dos palabras por separado, ya que podemos decir que un coche es
En español, son especialmente productivas aquellas formadas por: blanco o que es negro sin problemas.
• un nombre 4- preposición 4 nombre: punto de encuentro, punto de vista, Hoy en día existen al menos dos manuales de ELE que hacen un uso extenso de las
plan de pensiones... colocaciones en clase. El primero, de la editorial Difusión, se presentó en 2011:
• un nombre + adjetivo: horas intempestivas, nariz aguileña... se trata del manual "Bitácora", disponible de A l a B2, y las integra en la clase

40 41
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 3. CÓMO HABLAR DE CORPUS: CONCEPTOS CLAVE Y TERMINOLOGÍA EN LINGÜÍSTICA DE CORPUS

como "Palabras en compañía". El segundo, Frecuencias de Edinumen, se presentó 3.8. PARA MAS INFORMACIÓN
en 2020 y se ha creado a partir del corpus CORPES. Otros manuales que incluyen VUlayandre Llamazares, M. (2008). Lingüística con corpus (I). Estudios Humanísticos. Filología,
colocaciones, pero no están basados únicamente en ellas, son Aula internacional, (30), 329-349.
Gente hoy, Gente joven, C de Cl, Campus Sur y Reporteros internacionales (Difusión) y
Nuevo Prisma de Edinumen en el nivel C. 3.9. ACTIVIDADES
También gramáticas como la Gramática comunicativa del español (Matte Bon, 1995) 3 . 9 . 1 . Ve a l a w e b d e l CORPES (http://web.frl.es/CORPES/view/
usan de manera indirecta las colocaciones cuando pueden sacar provecho de ellas inicioExterno.view).
para explicar de manera más sistemática la gramática. Esto no nos debería extrañar 1. Consulta la estadística de una palabra gramatical, por ejemplo, de y de una
si recordamos que el primer propósito de la creación de corpus fue precisamente palabra léxica, por ejemplo, amigo. Anota la frecuencia relativa de cada una
la creación de diccionarios y gramáticas basados en el uso. Si tienes curiosidad de las palabras que hayas escogido. ¿Cómo está normalizada la frecuencia?
sobre las colocaciones, puedes consultar en línea el Diccionario de Colocaciones del ¿Por millón? ¿En porcentaje? ¿Por qué crees que la palabra gramatical es
Español (DICE). más frecuente?
2. Busca forma y lema de amigas en el CORPES y observa los resultados. ¿Por qué
3.6. CORPUS ANOTADO
amigas no se puede buscar como lema? ¿Cuál sería entonces el lema de amigas?
La ventaja de los corpus es que son conjuntos de datos ordenados y estructurados: 3. Si quiero obtener información sobre el uso de la palabra jueza en los últimos
cuanta mayor información se incluya de las palabras, podremos hacer búsquedas años, ¿tendría que buscar por forma o por lema?
más refinadas. Por ejemplo, en un corpus que contenga errores de estudiantes de
nivel B l , puede ser útil tener los datos ordenados por Ll de los aprendientes o 3.9.2. Ve al C o r p u s D i a c r ó n i c o d e l E s p a ñ o l ( C O R D E ) y r e a l i z a u n a
por tipo de error. Así, podríamos obtener los errores de orden de palabras más c o n s u l t a d e la p a l a b r a cambera,
habituales en sinohablantes de nivel A2. Esto es lo que llamamos un c o r p u s 1. Pincha en VER ESTADÍSTICA para ver la frecuencia, ¿está normalizada?
a n o t a d o . Los niveles de anotación pueden ser múltiples, podemos anotar desde 2. Vuelve atrás y pincha en OBTENCIÓN DE EJEMPLOS > RECUPERAR. Fíjate en los
la categoría morfológica de las palabras, o los papeles temáticos (a veces llamados textos donde se ha encontrado. ¿De dónde es típica?
r o l e s s e m á n t i c o s , como en el corpus ADESSE que veremos en las actividades de 3. ¿Crees que el corpus C O R D E está lematizado?
este capítulo) hasta, como decíamos, el tipo de error o si una grabación contiene
3.9.3. B u s c a e n e l CORPES las c o l o c a c i o n e s ( e n e l CORPES las l l a m a n
risas o si un manuscrito original estaba rasgado. Se verá más en detalle en el
coapariciones) d e c a t e g o r í a v e r b o d e la palabra posibilidad.
capítulo siguiente.
1. ¿Cuáles son las colocaciones V + N (verbo seguido de n o m b r e ) más
3.7. CORPUS LEMATIZADO frecuentes? Para hacerlo, en el menú superior, selecciona COAPARICIONES.
Los corpus pueden estar l e m a t i z a d o s . Es decir, que para cada f o r m a de cada En clase de palabra, selecciona NOMBRE. Para ordenar los resultados, pincha
palabra (variante) alguien ha anotado a qué lema (a qué entrada del diccionario) en los encabezados de la tabla de resultados, por ejemplo, FREQ, CLASE.
pertenece esa forma. De esta manera si buscamos en un corpus el lema vivir, 3.9.4. A h o r a v a m o s a b u s c a r c o l o c a c i o n e s e n e l C o r p u s d e l Español
aparecerán todas las concordancias de formas de ese lema como Yo vivo en Canarias (CdE) e n s u s u b c o r p u s web-dialects.
o Yo vivo en Venezuela, pero también ¿Dónde vives?. 1. ¿Cuáles son los colocados nominales más habituales del verbo querer? Si
buscas querer en minúsculas, solo aparecerán formas en infinitivo. Si
Si un corpus no está lematizado, o si prefiero buscar p o r forma, y realizo la
quieres hacer una búsqueda p o r lema, escribe QUERER en mayúsculas.
consulta vivir, solo aparecerán aquellos contextos en que vivir se ha usado en
Para encontrar los colocados, selecciona en la parte superior del cuadro de
infinitivo como Sefue a vivir a los EE. UU.

42 43
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO

búsqueda COLLOCATES y en la banda con números, selecciona 0 COLLOCATES


por la izquierda de la palabra y 2 COLLOCATES por la parte de la derecha. ¿Por
qué 2 y no 1? Porque el sistema cuenta palabras, así que en una estructura
como "querer la luna" el nombre, luna, está a dos posiciones de distancia.
Elige NOUN en la categoría gramatical (PART OF SPEECH, POS) del colocado y
verbo en la del lema que se buscará.
2. ¿Para qué puede servir en una clase de ELE saber los colocados más
frecuentes de querer?

3.9.5. Ve al f o r m u l a r i o d e b ú s q u e d a a v a n z a d a d e ADESSE ( h t t p : / /
adesse.uvigo.es/data/avanzado.php). Busca p o r rol semántico y
s e l e c c i o n a e l s i g u i e n t e r o l : SENSACIÓN.Al -EXPERIMENTADOR. P u l s a e n
REALIZAR BÚSQUEDA y, d e s p u é s , VERBOS. ¿Por q u é p o d r í a s e r i n t e r e s a n t e
p r e s e n t a r e s a lista d e v e r b o s j u n t o s e n clase?

44
4. TIPOLOGÍA Y DISEÑO DE CORPUS

Este capítulo trata de la creación de corpus. En él se habla de las decisiones técnicas


que hay que tomar antes de empezar a crearlo y de los pasos que se siguen hasta
tenerlo completo. Durante todo el capítulo, se hablará de dos clases de corpus:
los corpus grandes, de millones de palabras, que normalmente consultamos, por
ejemplo, para explicar gramática o crear ejercicios. Y los corpus pequeños que
podemos crear a partir de las producciones de nuestros alumnos con el fin de
conocerlos mejor, poder crear contenido especializado para ellos o preparar un
TFM sobre interlengua.

En particular, hablaremos de cómo decidir el tipo de corpus necesario para el


estudio o la tarea que se tiene que realizar o de qué será representativo el corpus
(por ejemplo, del habla general o del habla de los estudiantes italohablantes de ELE
del nivel B2). Después se verán, de manera muy resumida, los pasos necesarios
para crear un corpus, desde su compilación hasta su anotación.

Este capítulo es, probablemente, el más técnico del libro, pero hay que pensar
que el objetivo no es tanto saber crear un corpus de millones de palabras por
nosotros mismos (ya hay lingüistas que se dedican a ello), como aprender, por
una parte, la filosofía que hay detrás de los corpus para comprender los errores
TIPOLOGÍA Y DISEÑO DE CORPUS o incongruencias que puedan aparecer en las búsquedas, y, por otra, aplicar el
conocimiento desarrollado por personas que consagran su vida a los grandes
corpus a nuestros pequeños corpus de clase tomando prestadas todas las ideas de
organización y anotación que sea posible.

4 . 1 . TIPOS DE CORPUS
Al igual que se puede realizar una clasificación de los alumnos de un aula según
diferentes criterios: como el nivel, la lengua materna, si prefieren destrezas orales
o escritas, etc., también los corpus se pueden clasificar de acuerdo con diferentes
criterios. En este epígrafe, clasificamos los corpus siguiendo muy de cerca los criterios
usados porTorruella y Llisterri (1999), pero no sería la única clasificación posible.

47
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS

y / o lenguas signadas). En ELE, ya sea en corpus creados por profesores a título


particular o disponibles en línea, los c o r p u s e s c r i t o s podrían contener, por
ejemplo, las redacciones de los estudiantes durante todo un año para ver su mejoría
o redacciones de alumnos de Al con diferente lengua materna recogidos durante
Según contenido 10 años. Un c o r p u s oral contendría tareas orales, por ejemplo, los audios de
una tarea de descripción de lámina, o diálogos entre dos estudiantes o entre el
estudiante y el profesor. El corpus oral podría contener solo las transcripciones de
Audiovisuales esas grabaciones o el audio original. Por lo tanto, debemos tener en cuenta que,
si queremos obtener errores de pronunciación, necesariamente tendremos que
acudir a un corpus oral; en cambio si queremos obtener datos sobre cómo abren y
Generales cierran las cartas formales los estudiantes de ELE, el corpus tendrá que ser escrito.
Tipo de lengua O t r o tipo de clasificación depende del tipo de lengua que contienen. Así, los
corpus pueden contener lengua general o especializada (lenguaje jurídico,
Especializados
traducciones...), canónica (toda la obra de un autor), sincrónica (lengua actual)
Tipos de corpus o diacrónica (diferentes etapas de la historia). En ELE, los c o r p u s g e n e r a l e s
pueden servir para preparar clases o atender consultas de uso de una palabra por
Sincrónicos
parte de los estudiantes, mientras que los c o r p u s d e l e n g u a e s p e c i a l i z a d a
Tiempo sirven de apoyo para profesores de español con fines específicos. Existen corpus
dedicados al turismo, al lenguaje jurídico, al lenguaje académico (Ainciburu,
Diacrónicos
2012). Hoy en día, están en auge los corpus de subtítulos y de localización, pero
están más pensados para tareas de investigación.

Monolingües Los c o r p u s c a n ó n i c o s se usan sobre todo en estudios de literatura, por ejemplo,


para caracterizar la lengua de un autor o para establecer la autoría de un texto
comparándolo con toda la obra del autor que se cree que lo escribió. En principio,
Bilingües no se usan con alumnos de habla no nativa, a no ser en grupos de estudiantes
Lenguas
comparables
universitarios que estén cursando asignaturas de lengua y cultura o literatura.

Bilingües Por regla general, los c o r p u s d i a c r ó n i c o s son aquellos que contienen datos
paralelos históricos (como el C O R D E ) . Aunque, de hecho, un corpus como Google
NGrams, también está enfocado a la visión de la evolución en el tiempo de una
Esquema 4. Tipología de corpus palabra, así que hacer búsquedas diacrónicas con él es muy fácil. Además, hay que
tener en cuenta que se puede usar un corpus diacrónico para hacer sincronía, se
Una de las primeras clasificaciones que se puede hacer es por el tipo de contenido puede describir el uso de los pronombres de cortesía en el siglo xvi centrándose
del corpus. Así se puede diferenciar entre corpus escritos, orales o audiovisuales, solo en eso y no en su evolución, y se estaría describiendo en sincronía. Por último,
en el caso de las lenguas de signos. En la misma línea, se pueden clasificar por corpus que describiríamos como sincrónicos (como el SOL), pueden contener, por
soporte: texto (tanto los escritos como los orales transcritos), audio (orales ejemplo, textos de los años setenta, y, por lo tanto, no serían adecuados sustantivos
con transcripción alineada) o audiovisual (en video con anotación de los gestos como ordenador, o internet, porque, aunque sean sincrónicos, no son actuales.

4cS 49
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS

Según esta misma filosofía de clasificación, los corpus pueden ser de Ll o de L2 o D«rabtee»a»tomeftebacWn9prot»ctslhebe«agBlnstenvfronnwnlal [„.J la correa de la contortnadón ambiental y del desgasta causado
pcíutkH»as\wlas(rkakwalW6«rHpoweristransmittedfromtheback pc< la W<xlón si se transmite la potefwáa por el dorso dota correa.
lengua extranjera; estos últimos se llaman c o r p u s d e a p r e n d i e n t e s o c o r p u s OfthebeK. Btgates.com

d e e r r o r e s y, por su relevancia en nuestro campo, les vamos a dedicar todo un YouwMIraveto wear thebandagesforattoast2 weeksafteryour Deberá utilizartaswndas por lo mern» 2 semanas o hasta que su
& hMiswoysahjdguale.com médico le Indique. » turlsmoysaiudgvate.com
capítulo, el 6.
[...] must be deslgned and constructed in such a way as to prsvent [...] elevación se deben diseñar y fabricar de manera que se eviten
teUurefrwnfa%iearKJwe8r,taWngduea<xount^theirlnteno^d losfallosdebidos a la fatiga o al desgaste habida cuenta del uso
También podemos agrupar los corpus según el tipo de anotación que tienen. Así, use. &* ewopaif.wmpa.eu previsto. & europm1.auropa.au

un corpus sin anotación sería un c o r p u s c r u d o (raw), y también tendríamos Tines are subjecttomuch tesa wear -longerservice Ife. Las púas se desgastan muer» menos lo que se traduce en una vida
& poitinger.fr Uta más larga. E* pomnger.tr
c o r p u s m a r c a d o s y a n o t a d o s (veremos qué son en los apartados 4.4 y 4.5).
Asymptomofthlswe8risthespindlerm)t<)rbeoomlngnoisierand Un síntoma da este desgasto es que el motor de giro cada vez hace
read/write performance decreasing. e* storago toshiba.ou más ruido y disminuye el rendimiento de la lectura/escritura.
Un universo particular y especialmente interesante para el ELE es el de los c o r p u s
m u l t i l i n g ü e s . En ellos podemos encontrar corpus comparables, paralelos, Edwards, ahighschoolteacher.seemstoaNvayswearasmieonher Edwards, una profesora de escuela secundarla, siempre parece
faoeamlhaveatrMughtfülwordofadvteetoglve. tener una sonrisa en su rostro y sabios consejos para ofrecer.
paralelos alineados... Veamos en qué se diferencian. Los c o r p u s c o m p a r a b l e s
&* bvinechildreivshospttal.org &*espanol.levinech...ronst>o$pttal.org
contienen textos parecidos en dos o más lenguas: c u r r í c u l u m s , cartas de
presentación (es decir, cartas formales), anuncios de alquiler y venta en inglés y
Figura 3. Ejemplo de búsqueda de la palabra wear en inglés
en español, etc. Estos corpus tienen mucho potencial en nuestro campo porque en
ellos contamos con ejemplos reales de textos que están muy convencionalizados Por último, según la cantidad (tamaño de muestra) y distribución de los contenidos,
para cada lengua. Por ejemplo, recursos que han usado nativos del español para los corpus pueden ser de tres tipos. Pueden ser c o r p u s e q u i l i b r a d o s , que
poner un anuncio de venta que los estudiantes pueden usar como modelo y copiar contienen la misma cantidad de muestras de cada periodo/autor, género, tipo o
adaptando los datos de los metros cuadrados o el número de habitaciones. nacionalidad; c o r p u s m o n i t o r e s , que van creciendo con el paso del tiempo para
reflejar el habla actual; o c o r p u s o p o r t u n i s t a s , aquellos que se crean con un
Otra clase de corpus multilingües son los c o r p u s p a r a l e l o s , que contienen el
propósito concreto, por ejemplo, para ver el uso de la lengua de un grupo que ha
mismo texto traducido a otra lengua, por ejemplo, una novela y su traducción al
seguido un programa lingüístico concreto. Este método de clasificación está ligado
español o una página web en su versión inglesa y española.
íntimamente con la noción de representatividad, por lo tanto, vamos a verlos con
Si además el corpus paralelo está a l i n e a d o , el texto traducido se muestra junto más detalle en el siguiente epígrafe.
con el original para hacer más fácil la comparación. Este tipo de corpus son
especialmente útiles para los estudiantes, y, de hecho, muchos estudiantes los usan 4.2. REPRESENTATIVIDAD
aun cuando sus profesores de lengua extranjera no se los hayan mostrado nunca. Algo r e p r e s e n t a t i v o es algo que refleja de manera fiel la realidad que quiere
Vamos a ver cómo un estudiante podría llegar a un corpus paralelo alineado. imitar. Así, un dibujo representativo de un perro será un dibujo en el que el perro
Pongamos que está preparando una redacción y quiere decir que la ropa del tiene cuatro patas y se parece a un p e r r o de verdad. Además, para que todo el
personaje que está describiendo está muy gastada. En inglés, la palabra en la que mundo lo considere representativo es más probable que el dibujo sea de un pastor
alemán que de un chihuahua. Esto último es la prototipicidad y, aunque es un
estará pensando es wear. Si busca en Google "wear in Spanish", el primer resultado
concepto subyacente en los corpus (lo pro to típico aparece más), no lo vamos
será la traducción automática que dice vestir, pero el alumno sabe que ese no es el
a tratar de manera detallada. El concepto pertenece al ámbito de la lingüística
sentido de la palabra, que él no quiere la palabra wear en el sentido de llevar puesto,
cognitiva (Cuenca & Hilferty, 1999).
no quiere un verbo, que es lo que ha aprendido en clase. Si sigue bajando a los
resultados de búsqueda, encontrará uno de Linguee que promete darle la palabra La primera pregunta que debemos hacernos cuando nos disponemos a recoger
con ejemplos de uso. Lo que verá ahí (figura 3) serán ejemplos en inglés y en un corpus es: ¿De qué queremos que sea representativo?. Si yo quiero hacer un corpus
español. De este modo, el alumno puede buscar la frase en inglés que expresa lo de "la lengua" y solo grabo adolescentes en el patio del instituto, obtendré una
que él quería decir y ver cómo se ha traducido en español. muestra s e s g a d a en la que habrá, por ejemplo, muchos insultos (de hecho, eso es

50 51
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS

algo que pasa en el corpusVal.Es.Co, un corpus más que recomendable para hacer En las clasificaciones del apartado anterior hemos visto que existían corpus
reír a nuestros alumnos) (Briz Gómez et ál., 2002). Si, por el contrario, quiero llamados equilibrados {balancea1), monitor y oportunistas. Visto en términos de
una muestra r e p r e s e n t a t i v a del español, es decir, e q u i l i b r a d a , necesito grabar representatividad, un c o r p u s e q u i l i b r a d o sería el más representativo y el que
a gente de todas las edades. tiene un diseño más riguroso. Este tipo de corpus es útil en términos de calidad
cuando se está creando un corpus muy grande para una editorial que creará un
El concepto de m u e s t r a es clave o, más específicamente, el tamaño de la muestra.
diccionario, pero no siempre más diseño quiere decir mejor.
Cuando creamos un corpus, no tenemos acceso a toda la población, que en
lingüística sería toda la lengua producida por todos los hablantes durante toda la Un c o r p u s m o n i t o r tiene un diseño menos definido porque, según va creciendo
historia. A lo único que tenemos acceso es a una muestra. Exactamente igual que para reflejar el habla de cada m o m e n t o , las proporciones de cada tipo de texto
en las encuestas del CIS cuando dicen que el 30 % de la población española hace pueden ir cambiando. Precisamente por eso, es un corpus que refleja el habla actual
algo, y los niños preguntan: ¿Y cómo lo saben? ¡Si a mí nadie me lo ha preguntado! En de manera más fiel que un corpus general que tenga un diseño más equilibrado.
lingüística, decimos que los hablantes usan el subjuntivo detrás de no creo que, pero Este tipo de corpus es al que acudiremos para hacer consultas de lengua, para
no se lo hemos preguntado a todo el mundo, tenemos m u e s t r a s del habla. saber cómo es el español hablado por nativos, para explicar gramática a nuestros
Solo hay un tipo de corpus en el que no tenemos una muestra, sino toda la lengua: alumnos, para tomar ejemplos de habla real o para dejar que los mismos alumnos
se trata de los corpus c a n ó n i c o s , que contienen toda la obra de un autor. En este hagan ejercicios, pero no es el tipo de corpus que un profesor va a construir, a
caso, como tenemos toda la obra del autor, en términos estadísticos, no tenemos no ser que haga un cambio de carrera, deje las clases (o la formación) y entre a
una muestra de la población, sino la población al completo. Estos corpus son trabajar como lingüista computacional. En cambio, sí que son útiles para usar, y,
perfectamente representativos, aunque poco útiles para nosotros. para ello, es importante que saber sus criterios de diseño y ser conscientes de 1)
qué tipo de lengua tiene, 2) cuántos millones de palabras contiene o, 3) como en
El resto de los corpus, para que sean representativos, tienen que estar bien diseñados. el caso del corpus SOL que vimos en los ejercicios del capítulo 2, qué años cubre.
Antes de recoger los datos, hay que pensar cuántos datos queremos recoger de
cada estamento o de cada grupo. Así, si queremos hacer un corpus de novela,
nos plantearemos qué tanto por ciento de novelas de cada género se incluirán.
Oportunista m Monitor * Equilibrado
¿Incluiremos el mismo porcentaje de cada género? ¿O quizá preferimos incluir más
novelas históricas porque se publican más que, por ejemplo, de ciencia ficción?

Lo mismo se aplica a cualquier tipo de corpus. Tomando el ejemplo de un corpus Esquema 5. Tipos de corpus ordenados según su representatividad
de ELE, ¿cuántos alumnos tenemos que incluir? ¿Tenemos que incluir los mismos
Probablemente, ya sea para realizar un trabajo académico, como creador de
alumnos de Al que de C2? La respuesta a esta pregunta no es fácil y depende del
materiales o como profesor, para tener una idea de los errores que comete un
objetivo de nuestro trabajo. Es cierto que en el mundo hay más estudiantes de Al
grupo de alumnos, se va a crear un c o r p u s o p o r t u n i s t a porque no interesan
que de C2. Por lo tanto, si queremos una muestra representativa de los alumnos
todos los alumnos de ELE del m u n d o . Los corpus oportunistas, pese a la
de español en el mundo escogeremos más de A l . N o obstante, si el corpus es
connotación negativa de la palabra, no son malos, simplemente, están diseñados
para realizar un análisis, nunca vamos a mezclar los datos de Al con C2, porque
para responder una pregunta concreta, y, por lo tanto, solo se pueden usar para el
los tipos de errores que cometen en cada nivel, las estructuras que usan, todo es
trabajo para el que fueron diseñados, mientras que un corpus general de la lengua
demasiado diferente, así que haremos dos análisis y después los compararemos.
puede servir para dar respuesta a todo tipo de trabajos.
Como el resultado final será una comparación entre grupos (grupo de A1 y de
C2) para que esté equilibrado, necesitaremos tener el mismo número de alumnos Cuando tenemos un objetivo concreto, necesitamos un corpus específico y eso
en los dos grupos. significa crear un corpus oportunista. Por ejemplo, en el caso de un estudio en el
que se quieren analizar errores cometidos en el subjuntivo en alumnos de nivel C

52 53
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS

de origen italohablante, necesitamos justamente eso y nada más. Por lo tanto, el En el caso de los corpus orales, se pueden usar grabaciones recogidas de televisión,
corpus que crearemos estará sesgado, porque no incluirá alumnos de diferentes entrevistas, o provenientes de contextos de interacción específicos como por
L l , pero es lo que nos interesa para el objetivo de nuestro trabajo. ejemplo las preguntas en una oficina de venta de billetes de tren. En el caso de los
En el caso de trabajar con un grupo de clase, nos interesarán todas las redacciones corpus de segunda lengua, esas grabaciones serán de tareas de clase.
que han producido nuestros alumnos durante el año, quizás en una tarea concreta, Todos los corpus compilados que se han explicado hasta aquí son tipos de corpus
para ver su tipología de errores. Ese corpus será representativo solo de nuestra profesionales, que se crean para su explotación por parte de una empresa, y son,
clase de ese año y no de todos los grupos que hemos tenido, ya que un grupo por tanto, corpus de gran envergadura. Aunque, una vez más, es poco probable
puede tener muchos problemas con el uso del imperfecto y el indefinido, y al que alguien que se dedica al mundo del ELE tenga que compilar un corpus tan
año siguiente ninguno porque los estudiantes provienen de una lengua materna grande.
diferente. En cualquier caso esos son los datos que nos interesan en ese momento.
En general, el profesor de ELE tendrá bastante con explotar los corpus que hayan
La diferencia tiene que ver con qué se quiere representar: un corpus oportunista es recogido otras personas, pero también es posible que necesite compilar corpus
representativo de una sección muy pequeña de la lengua, mientras que un corpus propios. En ese caso, será un corpus de aprendientes de ELE, es decir, específico, y
equilibrado tiene como objetivo representar la l e n g u a , si es que eso es posible. si se hace para una investigación en concreto (por ejemplo, para el trabajo final de
máster) será, además, un corpus oportunista. Este tipo de corpus, dado su tamaño,
4.3. COMPILACIÓN requerirán de técnicas mucho más artesanas para su recopilación.
Una vez decidido el tipo de corpus que se creará y su tamaño, el primer paso para
Básicamente, el corpus podrá consistir en:
crearlo es recoger (recopilar) los materiales que formarán parte de este.
1. las producciones textuales de nuestros alumnos durante un p e r i o d o
En el caso de los grandes corpus textuales (equilibrados o monitor), esa compilación
determinado, por ejemplo, sus redacciones o los correos electrónicos que
suele consistir en ir a una biblioteca, recoger una serie de libros y revistas y
nos escriban. Siempre estarán digitalizados, es decir, si nuestros alumnos
escanearlos con un reconocedor óptico de caracteres ( O C R ) que permitirá su
nos entregan las redacciones escritas a mano, tendremos que copiarlas en
digitalización. Este proceso se realiza todavía hoy para la digitalización de libros
el ordenador (con sus errores incluidos, así que habrá que desconectar el
impresos. Es lo que hace Google Books, pero también corpus de referencia que
autocorrector), para después poderlas procesar de manera automática;
están digitalizando obras publicadas en el siglo xx, como el CORPES.
2. en las producciones orales de nuestros alumnos grabadas digitalmente y,
Sin embargo, hoy en día, muchos corpus nacen digitalizados; son textos disponibles posteriormente, transcritas.
en la web, que no tienen un formato impreso. Por ejemplo, son muy abundantes
los corpus consistentes en textos de laWikipedia, deTwitter o de las opiniones 4.4. MARCAJE 0 CODIFICACIÓN DE CORPUS (MARK-UP)
que dejan los usuarios en Amazon (Fornaciari & Poesio, 2014; McCreadie et
Imaginemos que durante años recopilamos redacciones de nuestros estudiantes
ál., 2012; Reese et ál., 2010). En este caso, la compilación es diferente, ya que
para convertirlas en un corpus. Cuando r e c u p e r a m o s todos esos archivos,
no es necesario digitalizar los textos. Para recoger este tipo de corpus se crea
pongamos 200, nos damos cuenta de que el nombre del archivo es el que tenía
un pequeño programa informático que se encarga de recoger el texto que se
cuando los alumnos nos lo enviaron por correo electrónico: a veces su nombre,
va generando en la web (por ejemplo, enTwitter) y lo guarda en ficheros txt o
a veces el nombre de la tarea, a veces incluyen el grupo, a veces el nombre del
en una base de datos (web scraping). Desde luego, como profesores de ELE, no
archivo es simplemente "español.doc" y el alumno ni siquiera incluyó su nombre
es necesario que nosotros lleguemos a esto (a no ser que tengamos interés); los
dentro de la redacción (¡qué escenario tan habitual!).
lingüistas computacionales se encargan de recoger esos textos y ofrecérnoslos con
una interfaz de búsqueda bonita y fácil de usar. Hemos recopilado el corpus y lo tenemos digitalizado, pero no tenemos ninguna
pista sobre cómo ordenarlo. Para evitar eso, en nuestros corpus oportunistas,

54 55
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO DE CORPUS

normalmente ponemos un nombre de archivo que sea útil para la clasificación, En la figura 4, se puede ver en qué consisten "las tripas" del mareaje. Sin embargo,
algo c o m o " 2 0 2 0 _ s e p t i e m b r e _ d e s c r i p c i ó n _ L l i n g l é s _ B l . d o c x " . Ese tipo de como usuarios finales de corpus, no necesitamos ver esas tripas. Los corpus con
nombres nos ayudan a identificar el contenido del fichero. los que vamos a trabajar como usuarios nos permiten hacer búsquedas basadas en
un autor o en un periodo de tiempo gracias a que están marcadas de esa manera,
Pues eso, pero un poco más complejo, es el m a r e a j e o codificación de corpus
pero en la visualización final el mareaje no aparece.
(mark-up). Llevando la t e r m i n o l o g í a de c o r p u s al ámbito de la lingüística
más tradicional, podríamos decir que el mareaje explicita datos del contexto
(autor, lugar, f e c h a . . . ) . Los datos que se incluyan en el mareaje dependerán,
de nuevo, del objetivo del corpus. Por ejemplo, si estamos haciendo un estudio
experimental para trabajar la pronunciación con dos grupos de alumnos y en
uno hemos trabajado con m é t o d o verbo-tonal (Billiéres, 2015) y, en el o t r o ,
con método audiolingüe, incluiremos esa información en el mareaje del corpus.
Así, cuando t e n g a m o s que analizar los r e s u l t a d o s , c o m p r o b a r qué g r u p o
ha aprendido más, nos será m u c h o más fácil p o r q u e ya t e n d r e m o s los datos
clasificados. Si, en cambio, estamos creando un corpus de novelas, incluiremos
la fecha de publicación de la novela, los años que tenía el autor cuando la publicó Figura 4. Mareaje del Oxford English Dictionary (fuente: Wikimedia Commons)
o su profesión.

Si los usuarios del corpus vamos a ser nosotros mismos, crearemos un sistema de Saber cómo funciona el mareaje nos sirve para entender cómo son posibles las
mareaje que nos sea útil para nuestro propósito y que para nosotros sea natural, búsquedas y por qué, por ejemplo, Google NGrams nos puede devolver como
que esté en línea con nuestra manera de pensar. Pero ¿qué pasa en los grandes propia del año 2007 la forma medieval mientre. ¿Cómo puede pasar eso? Pues
corpus en los que hay muchos compiladores que trabajan a la vez y muchos porque muchas ediciones modernas de textos antiguos, por ejemplo, publicadas
usuarios potenciales? En esos casos, el mareaje tiene que ser una solución de en los 2000, están marcadas como primera edición del texto (lo cual es cierto)
consenso, algo que sea útil para la mayor cantidad posible de usuarios y, además, y, e n t r e ellas, en el año 2007 hubo un t e x t o que empezaba así: "De los sos
algo que todas las personas que compilan y marcan el corpus hagan de la misma ojos tan fuerte mientre lorando"o que, simplemente, citaba este archiconocido
manera. Por eso, a lo largo de la historia, ha habido grandes iniciativas en las que inicio del Cantar de Mió Cid.
se han propuesto maneras sistemáticas de anotar un corpus. La segunda cosa que podemos aprender del mareaje de textos profesional es la
Para ver una revisión completa de sistemas de codificación se puede consultar estrategia de mareaje que se debe tener para los corpus de clase. Para nosotros,
Hardie (2014). Algunas de las iniciativas más populares han sido la Text Encoding el mareaje no tiene por qué estar en un archivo XML. Puede ser simplemente
Iniciative (TEI) (Ide & Véronis, 1995), C O C O A (McEnery & Wilson, 1996) un n o m b r e de archivo claro, que nos p e r m i t a recuperar toda la información
necesaria del autor de la redacción. La información que debería c o n t e n e r
o Standard Generalised Markup Language (SGML), si bien ahora se prefieren
aplicada al ELE de manera potencial (no siempre hace falta t e n e r en cuenta
métodos basados en etiquetas XML que son también las usadas actualmente en
tantas variables) podría ser:
biblioteconomía.

56 57
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 4. TIPOLOGÍA Y DISEÑO OE CORPUS

1. I d e n t i f í c a d o r d e l a l u m n o : puede ser el n o m b r e o un código para


4.5. ANOTACIÓN
preservar su anonimato.
Si el mareaje daba información del contexto en el que se había producido el
2. N i v e l d e l a l u m n o / G r u p o : de Al a C2, también se puede marcar como
mensaje, la a n o t a c i ó n analiza la lengua del mensaje en sí. Esto posibilita que,
principiante/avanzado, etc. Si hay dos grupos se pueden marcar como "el
en una búsqueda en corpus, se pueda pedir a la interfaz "devuélveme los casos
de los martes a las 18": MA18, y "el de los miércoles a las 4": M i l 6 . Si se
en los que médica está usado como nombre", tal y como hemos hecho en los
está usando un método diferente con cada uno de ellos, indicar el método
ejercicios. Esto es porque detrás de ese corpus, en sus tripas, como decíamos para
que se usa: "audiolingüe" o "verbo-tonal".
el mareaje, existe una anotación morfológica realizada con la ayuda de un anotador
3. Tarea: si es una tarea oral o escrita. Si es una tarea de descripción o de
automático, lo que se llama un POS-tagger, y una sintáctica realizada con la ayuda
narración. Si es una carta formal o informal. Si es un diálogo o un monólogo.
de un anotador sintáctico automático (parser). Estas dos anotaciones son las más
Todas estas facetas de la tarea pueden ser interesantes para después facilitar
clásicas del mundo del corpus, pero no las únicas posibles.
el análisis: por ejemplo, si queremos ver usos del indefinido, buscaremos
narrativas (contar una anécdota o una biografía), ya que el indefinido es un Los corpus se pueden anotar en todos los niveles gramaticales: fonético-fonológico
tiempo que tiene una frecuencia alta con ese tipo de tareas. (sonidos), prosódico (melodía de la frase), morfológico (clase de palabra —artículo,
4. T i e m p o : Si vamos a recoger muestras durante todo el curso, puede n o m b r e , adjetivo, preposición...—), sintáctico (función en la frase —sujeto,
ser útil marcar qué producciones son de septiembre y cuáles de junio, o objeto, complemento...—), semántico (significado). Además, se pueden hacer
simplemente numerarlas por orden cronológico. anotaciones especializadas para cada ámbito. Por ejemplo, en lingüística forense
5. Ll d e l a l u m n o : preferentemente la Ll real, es decir, si un alumno es se anotan los corpus de entrevistas policiales (interrogatorios a sospechosos)
bilingüe, por ejemplo, sinohablante, pero conoce también otra lengua del con información sobre si un enunciado es "verdad", "mentira", "probablemente
país de origen, anotaremos la lengua que sea lengua materna. verdad", "probablemente mentira" o "no comprobable". De esta manera, después
6. Edad: edad y no fecha de nacimiento, porque lo que nos interesa es si se puede estudiar las características del discurso falso e incluso entrenar sistemas
era un alumno adolescente, un niño o un anciano que pudiera tener un para detectarlas de manera automática (Fornaciari & Poesio, 2012).
deterioro cognitivo que afecte a su memorización del léxico.
También en los corpus de segunda lengua existe una anotación especializada, la
7. E d a d d e i n i c i o d e a d q u i s i c i ó n : si es un aprendiente adulto, su
anotación de errores. Es cierto que en un corpus de ELE puede ser útil contar con
adquisición empezó en la niñez o en la adolescencia. Esta variable es
una anotación morfológica, por ejemplo, para ver el n ú m e r o de conectores de
especialmente importante si se hacen estudios de pronunciación.
tiempo (adverbios de tiempo) que usan los alumnos. De esta manera, podríamos
8. P e r i o d o s d e i n m e r s i ó n : si ha vivido en un país hispanohablante, si es
estudiar de manera cuantitativa, basándonos en datos y con porcentajes una
que sí, durante cuánto tiempo.
característica de la interlengua del español L2, pero habitualmente los corpus de
9. S e x o y g é n e r o : Por regla general, si el objetivo es hacer un estudio de
L2 están enfocados a la anotación del error. Anotar errores es básicamente pasar
modelos de aprendizaje, nos interesará contemplar como variable el género
las correcciones de las producciones de los alumnos a un formato digital. Pero
(el papel social que asume el estudiante), pero, para corpus orales, puede
¿cómo se pueden marcar los errores?
ser interesante contar con el sexo biológico codificado para poder aplicar
correcciones automáticas por el timbre de voz (las mujeres tienen la voz La clasificación de los errores depende de cada corpus. D e manera general,
más aguda que los hombres). los corpus anotan el nivel del e r r o r ( e r r o r de pronunciación, morfológico,
sintáctico, léxico...) y después hacen subeategorías con los errores más comunes
Por supuesto, no es necesario que todos los corpus contengan tanta información
o interesantes. Por ejemplo, error de concordancia de n ú m e r o (la gente *eran),
de los estudiantes o de las tareas; como siempre, dependerá del uso que queramos
error de concordancia de género (*el radio), error de tiempo verbal (ayer *voy),
hacer de los datos.
error de persona verbal (ellos *vamos), confusión entre ser y estar (*soy en casa)...

59
4. TIPOLOGÍA Y DISEÑO DE CORPUS
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO

De nuevo, para la anotación de nuestros corpus (sobre todo si es para un trabajo 4.7.4. Hace unos años, el corpus de libros publicados de Google Books
concreto) quizá solo nos interese anotar un tipo de error dependiendo de lo que se habilitó como corpus a través de una interfaz de búsqueda (https:/ /
estemos estudiando. b o o k s . g o o g l e . c o m / n g r a m s ) . Como e x p l i c a b a n e n la charla TED
recomendada en el capítulo 2, este corpus es u n o de los más visuales
La anotación de los corpus lleva mucho tiempo y, si no estamos creando un corpus
para ver cambios culturales en español. En el capítulo 8 veremos cómo
para que esté disponible en línea para un gran número de usuarios, no tiene
llevarlo a clase de ELE, pero de momento, vamos a explorarlo. En la
sentido que le dediquemos horas a un trabajo que después no vamos a explotar.
parte superior, escoge el corpus "Spanish 2012" y busca en esa interfaz
Para dar una idea de la cantidad de trabajo que supone, el tiempo necesario para
de manera conjunta la palabra médico y médica y observa su frecuencia
transcribir un minuto de grabación es de una hora, así que quizá nos merece la
a través del tiempo.
pena hacer un corpus más oportunista y transcribir tan solo aquellos pasajes que
sean interesantes para nuestro objeto de estudio. 1. ¿A qué crees que se deben las ocurrencias de médica anteriores al siglo xx?
2. Asegúrate de que estás buscando en la versión de 2012 (está lematizada,
4.6. PARA MÁS INFORMACIÓN la versión de 2009, no). Ahora realiza la siguiente búsqueda: "médico_
Torruella, J., & Llisterri, J. (1999). Diseño de corpus textuales y orales. Filología e NOUN, médico_ADJ, médica_ADJ, médica_NOUN". ¿Podrías explicar
informática. Nuevas tecnologías en los estudiosfilológicos,45-77. ahora qué ha pasado? Para ver todas las formas de búsqueda que permite el
corpus consulta https: / /books.google.com/ngrams/info.
4.7. ACTIVIDADES
4.7.1. Busca la información de diseño del corpus CREA, disponible
aquí ( h t t p s : / / w w w . r a e . e s / r e c u r s o s / b a n c o - d e - d a t o s / c r e a - e s c r i t o ) .
¿Crees que es un corpus equilibrado respecto al origen de las obras?
¿Por qué?
4.7.2. En el mundo del ELE, ¿un corpus de errores de alumnos de Ll de
todas las lenguas del mundo estaría equilibrado? ¿Sería útil?
4.7.3. El corpus CLUVI, recopilado por la Universidad de Vigo, es
el corpus más c o m p l e t o e n español de lenguajes especializados y
traducción. Es u n o de los corpus q u e se puede usar en español c o n
fines específicos. Para ver algunas d e sus funcionalidades ve a la
web: h t t p : / / s l i . u v i g o . e s / C L l I V I / i n d e x . p h p # . En la parte superior
i z q u i e r d a , PESCUDAR TEXTOS, e n c o n t r a r á s el a c c e s o a l o s c o r p u s
organizados por tipo lengua especializada y lenguas:
1. En el corpus de terminología legal, busca como se traduce el "fallo" jurídico
de español a gallego.
2. Busca la traducción de totally al español y de completamente al inglés en
textos literarios. ¿Qué puedes decir sobre cómo se traducen esos adverbios?
3. ¿Cuál es la traducción de habitual de ignore al español en textos literarios?
¿Y en subtítulos?

60 61
5. APLICACIONES DE LOS CORPUS EN LA ACTUALIDAO

El uso que nosotros le daremos a los corpus, la didáctica de la lengua, no es el


más habitual ni el que mueve más dinero. El desarrollo de corpus anotados en la
actualidad está ligado con el desarrollo de las herramientas para el procesamiento
de lenguaje natural. Es decir, en el mundo empresarial, los corpus no se están
usando para enseñar lenguas a humanos, sino a máquinas. Es gracias a los corpus
que asistentes virtuales como Alexa, Cor tana o Siri pueden responder a nuestras
preguntas y nos entienden cuando les hablamos. N o obstante, este uso de los
corpus queda un poco alejado del objetivo de este manual, así que, en este
capítulo, vamos a ver algunas aplicaciones de los corpus que quedan más cerca del
quehacer del profesional de la lengua, aunque no sea estrictamente profesor de
ELE. Específicamente, hablamos de su aplicación a la lexicografía, a la investigación
lingüística, a la lingüística forense y a la lingüística clínica.

5.1. LEXICOGRAFÍA
Tal y como hemos visto en la sección de historia, uno de los primeros usos de los
corpus fue la creación de diccionarios, es decir, la lexicografía (Rojo, 2009).

Si pensamos en la historia de los diccionarios, estos llevan siglos incluyendo en


APLICACIONES DE LOS CORPUS EN LA sus acepciones ejemplos de uso y, en algunos casos, de uso real de la lengua. En el
ACTUALIOAD caso del español, el primer diccionario de la Academia, el llamado de Autoridades,
se llamó así porque incluía ejemplos de uso de autores considerados clásicos. Por
ejemplo, bajo el lema patata se recoge el ejemplo de Quevedo ilustrado en (1) con
el estilo políticamente incorrecto que le caracteriza.

1. Quev. Orland. Cant. I. Los Andaluces de valientes feos, cargados de patatas


y ceceos.

Hoy en día, los diccionarios siguen incluyendo ejemplos, pero, cada vez más,
estos están extraídos de corpus, por ejemplo, de noticias. Aunque este no es su
único uso.

63
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 5. APLICACIONES DE LOS CORPUS EN LA ACTUALIDAD

Para empezar, tal y como pasaba en el COBUILD, los corpus se usan para un corpus como base es Longman Grammar ofSpoken andWritten English (LGSWE,
seleccionar el léxico que se incluye en los diccionarios. En algunos casos, los B i b e r e t á l . 1999).
diccionarios aspiran a incluir todo el lexicón de una lengua, pero, en otros, se
Las ventajas del uso de corpus en la investigación lingüística radican en que se
incluyen solo las palabras m á s f r e c u e n t e s . La determinación de cuáles son las
pueden comprobar las hipótesis con datos, por lo tanto, hacen que el estudio
palabras más frecuentes se hace mediante corpus.
empírico del lenguaje sea posible y, además, permiten la cuantificación de los
Muchos diccionarios, además del significado de la palabra, incluyen alguno de fenómenos. Así, afirmaciones basadas en las creencias de los lingüistas, como que
sus patrones colocacionales. Por ejemplo, para los verbos que rigen preposición las mujeres hablan más que los hombres, (específicamente. Liberman afirmó en
se incluye esa preposición, como en llenar de. En el caso de los diccionarios 2006 que los hombres usan exactamente 7000 palabras al día mientras que las
combinatorios, se incluyen el lema y las palabras junto a las que aparece más mujeres usan 2 0 0 0 0 (Liberman, 2006)), se ven refutadas por los datos que nos
frecuentemente, como llenar a medias o llenar de alegría. muestran que tanto hombres como mujeres dicen unas 15 000 palabras al día
(Mehletál.,2007).
Sabemos que existen corpus enriquecidos con anotaciones que permiten extraer
de manera automática información como las categorías gramaticales. La existencia El uso de corpus facilita estudios que no se podrían realizar de modo introspectivo
de estos corpus permite que algunos diccionarios incluyan información sobre como, por ejemplo, las diferencias entre el uso oral y el escrito del lenguaje,
cómo se usa la palabra, es decir, ¿se usa el adjetivo conocido como nombre (me usos particulares del discurso oral, estudios de dialectología... Como se puede
encontré a un conocido)? ¿Es más frecuente el uso de joven como nombre (el joven) o observar las posibilidades de los estudios basados en corpus son infinitos y, de
como adjetivo (el hombre joven)? hecho, cualquier investigación lingüística que se precie en la actualidad hará uso
de corpus.
En el caso de que un corpus contenga información semántica, esta también se
puede aprovechar para la realización de diccionarios. Por ejemplo, se pueden
5.3. ESTUDIOS DE TRADUCCIÓN
extraer todas las palabras de un campo semántico o confeccionar un diccionario
de hiperónimos y sus hipónimos, o agrupar palabras por polisemia o homonimia. Los estudios de traducción se caracterizan por el uso (junto con los de lingüística
contrastiva), de los corpus multilingües o bilingües, y paralelos (alineados o no).
Por último, el enriquecimiento constante de los corpus (monitor) permite que
se puedan incluir rápidamente los extranjerismos y monitorizar como se está Estos corpus se usan en los estudios de traducción para avanzar en sus teorías
adaptando un préstamo de reciente incorporación, una información que es sobre los rasgos de la lengua traducida, el llamado traducciones (Corpas Pastor,
fundamental en un diccionario de uso. Por ejemplo, ¿es más habitual, marketing, 2008). Además, a partir de estos corpus se realizan comparaciones de estructuras
márqueting o márquetin? ¿Cuál de estas tres opciones debería aceptar la Academia? lingüísticas en dos lenguas y se cuantifican. Vamos a ver un ejemplo entre español
e inglés con las palabras completamente y absolutamente. A partir de corpus, se puede
5.2. INVESTIGACIÓN LINGÜÍSTICA estudiar qué tanto por ciento de las veces absolutely se traduce por absolutamente
y en qué casos p o r completamente y al revés, cuando completelj se traduce por
Los corpus también son una herramienta útil para la investigación básica en
completamente. El resultado de este estudio permite mostrar que la distribución es
lingüística. Con ellos se puede describir un fenómeno lingüístico o una lengua
diferente en inglés que en castellano, es decir, absolutely, no siempre se traduce por
completa. Se pueden hacer descripciones generales de la lengua o de una variedad
absolutamente y completely no siempre se traduce por completamente.
concreta, ya sea una variedad dialectal, sociolectal o un registro.
O t r o ejemplo interesante es el de los verbos causar y cause. A partir del análisis
Tal y como pasaba con los diccionarios, los corpus se han usado para crear
del contexto en el que aparecen, se puede observar que, en español, causar se
gramáticas desde hace mucho tiempo. En paralelo a la creación del COBUILD, se
puede usar con predicados con una carga semántica positiva o negativa, es decir,
creó una gramática basada en el mismo corpus: se trata de A Comprehensive Grammar
se pueden causar cosas buenas y malas, pero en inglés no. De las apariciones de
ofthe English Language (Quirk et ál., 1985). Otra gramática clásica realizada usando

64 65
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 5. APLICACIONES DE LOS CORPUS EN LA ACTUALIDAD

causar en castellano solo aquellas que causan cosas negativas se traducen al inglés listas de vocabulario básico o de alta frecuencia. En los dos casos, el resultado
con el verbo cause. Por lo tanto, los contextos en los que aparece causar en español es un t e x t o o una lista de vocabulario que usan los logopedas para evaluar o
no son totalmente equiparables con los de cause; no es una traducción perfecta. rehabilitar el lenguaje.

Esto se aplica después a la enseñanza, mostrando a los estudiantes de traducción los El segundo son corpus de hablas patológicas donde se ha grabado y transcrito a
contextos de traducción de cada palabra para que puedan refinar sus traducciones. pacientes. Este tipo de corpus son los que se usan para describir el habla afectada
Además, estos corpus se usan para entrenar sistemas de traducción automática. Es y así poder determinar qué ámbitos hay que rehabilitar o para describir el habla de
decir, los sistemas informáticos aprenden que house se traduce como casa a partir cierta patología o condición. Por ejemplo, la prosodia en personas con síndrome
de corpus paralelos donde se ha traducido de esa manera. de Asperger, o incluso determinar en qué estadio se encuentra una enfermedad
degenerativa, dependiendo del tipo o la gravedad del error.
5.4. LINGÜÍSTICA FORENSE
La lingüística forense saca partido de los corpus en dos grandes campos de estudio.
El primero es el estudio del lenguaje jurídico y su simplificación para hacerlo
más accesible a los ciudadanos. El segundo (que más interés suscita) es el uso de
muestras de lengua como prueba en un juicio.

Para el primero, se usan corpus que contienen lenguaje jurídico, como sentencias
o actas, y se analiza su uso de la lengua para proponer versiones simplificadas que
hagan las leyes entendibles para el ciudadano medio.

Sobre el segundo, se pueden crear y usar corpus de muchos tipos dependiendo


de la tarea que haya que realizar (Coulthard, 2013). Por ejemplo, en casos de
detección de autoría y plagio, se comparan dos textos o dos grabaciones (por
lo tanto, el corpus está formado por dos muestras) para determinar si pueden
pertenecer a la misma persona. Si la tarea que hay que realizar es la determinación
de origen del locutor, se recoge un corpus de la persona investigada y se usan,
como corpus de referencia, corpus de diferentes dialectos para comprobar a qué
dialecto se parece más el m o d o de hablar o de escribir (sobre todo en el caso de
crímenes cibernéticos) del investigado.

5.5. LINGÜÍSTICA CLÍNICA


La lingüística clínica se encarga de estudiar las características del habla patológica
y en su vertiente más aplicada evaluar y rehabilitar pacientes (sus profesionales son
logopedas y fonoaudiólogos) (Crystal, 2013). Para hacerlo, la lingüística clínica
puede hacer uso de dos tipos de corpus.

En primer lugar, los corpus generales de la lengua. Este tipo de corpus se pueden
usar para crear textos fonéticamente equilibrados (que contienen todos los
sonidos de la lengua en la misma proporción que un texto real) y para realizar

66 67
6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA

Hasta este m o m e n t o , hemos visto una introducción a los corpus y a sus tipos,
hemos aprendido la terminología del campo y hemos visto algunas de las formas en
las que se puede explotar un corpus (hacer búsquedas). Pero en todo este tiempo,
aunque haya habido ejemplos de ELE, no se han abordado tareas específicas de ELE.
A partir de ahora, vamos a hablar de cómo explotar un corpus, específicamente en
el campo del ELE. En primer lugar, en este capítulo, vamos a tratar cómo hacer
investigaciones de ELE basadas en corpus y, en capítulos posteriores, veremos cómo
usar corpus para crear materiales, cómo llevarlos a clase para que los alumnos los
puedan usar en actividades y cómo crear corpus para corregir mejor.

Empezamos con la investigación. La investigación en el m u n d o del ELE gira


alrededor de crear prácticas, didácticas más efectivas (Brown & Rodgers, 2002).
Para crear esas prácticas en lo primero que hay que fijarse (o más bien lo segundo,
después de un análisis contrastivo entre la lengua meta y la lengua de origen del
estudiante) es en los errores que cometen los alumnos. Por eso, para poder ver
una gran cantidad de errores cometidos por alumnos de ELE, existen los corpus
de aprendientes. Este tema recoge las posibilidades de la investigación en ELE,
define y explica los corpus de aprendientes y hace una revisión de los corpus de
CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL
aprendientes de español disponibles en línea.
LENGUA EXTRANJERA
6.1. ¿QUÉ SE PUEDE INVESTIGAR EN ELE?
La mayor parte de las investigaciones sobre ELE se realizan desde el mundo
universitario, bien sea por parte de profesores especializados, doctorandos o
alumnos que preparan su trabajo final de máster (TFM) o incluso su trabajo final
de grado (TFG). En todos estos casos, para preparar sus trabajos o artículos, los
investigadores pueden contar con corpus ya recopilados o preparar un corpus
propio con un grupo concreto de estudiantes en el que están interesados. Por
ejemplo, un grupo de sinohablantes de nivel Bl y otro de nivel C2 para comparar
sus resultados.

69

_
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA

Pero eso no significa que los profesores de ELE no investiguen. En realidad, ¡lo 2) el análisis de errores y 3) el análisis de interlengua. Todas ellas, al tener como
hacen constantemente! La diferencia es que cuando un profesor de ELE realiza objeto de estudio la lengua, se estudian a partir de corpus.
una investigación, normalmente la hace sobre el grupo con el que trabaja en esos El análisis contrastivo supone hacer una comparación de los sistemas de dos
momentos. Es decir, creará su propio minicorpus (un corpus oportunista), que lenguas para observar sus diferencias y así prever los casos de transferencia
contendrá toda la información que tiene de su grupo de alumnos de determinado positiva y negativa que tendrán los aprendientes. Por ejemplo, si pensamos en
año junto con, por ejemplo, sus redacciones. Así, el profesor conocerá a sus la pronunciación, los francófonos tendrán problemas para pronunciar la erre [r]
alumnos, sus dificultades y sabrá si en su próxima clase tiene que volver a repasar pero no la eñe |jl], ya que la primera no existe en sus lenguas, pero la segunda
los usos del subjuntivo o el léxico de la familia. Esto es también investigación, pero sí. En cambio, los anglófonos sí tendrán problemas con el sonido nasal palatal
con algunas diferencias respecto a la investigación de las universidades. |jl], ya que no existe en inglés. Si pasamos a ver un ejemplo en el léxico, los
La mayoría de los profesores no crean un corpus propiamente dicho (no lo anglófonos pueden tener problemas para usar correctamente el verbo creer para
necesitan), sino una base de datos, ya que, como hemos repetido varias veces, un expresar opinión y harán, en su lugar, un uso demasiado habitual de pensar. Es
corpus necesariamente tiene que contener las redacciones digitalizadas y muchas decir, usarán la construcción "Yo pienso q u e . . . " , en ocasiones en que un nativo
veces el profesor las tendrá en papel. Pero quizá, a partir de ellas, haya extraído hubiera preferido "Yo creo q u e . . . " .
una lista de errores frecuentes que haya colocado en un Excel o simplemente se
Para hacer un análisis contrastivo, se pueden usar corpus generales o de referencia
haya hecho una lista de cosas que no han quedado claras. Esos apuntes-resumen que
de las dos lenguas a comparar. Si volvemos al ejemplo de pensar/creer, podríamos
tomamos los profesores al corregir una tarea no serían un corpus, sino más bien una
consultar el C O R P E S para el español y el BYU para el inglés y obtener las
base de datos. Crear un corpus digitalizado y completo de las producciones de los
concordancias de los verbos creer y believe para comprobar si tienen los mismos
alumnos llevaría un tiempo que, si no se va a explotar el corpus más tarde (se va a
usos. Pero esta no es la manera más directa de hacerlo. La manera más rápida
poner en línea o se va a compartir por toda la escuela, por ejemplo), no merece la
de acometer un análisis contrastivo es a partir de corpus paralelos, de los que ya
pena. Sin embargo, saber la metodología de los corpus de investigación hace que las
hemos hablado en capítulos anteriores. A partir de estos, podemos ver como se han
bases de datos estén organizadas de manera más eficaz, porque se pueden aplicar
traducido las piezas léxicas en la otra lengua. Siguiendo con el ejemplo de creer que
mareajes o anotaciones que se han usado en los grandes corpus de ELE.
hemos usado arriba, una búsqueda en Linguee (https://www.linguee.es/español-
Seas profesor, formador, investigador o estés haciendo un TFM (o trabajo final ingles/traducción/creer, html) revela que creer en el sentido de "pensar u opinar
de asignatura) de investigación, el objetivo final es determinar y / o mejorar la algo" se traduce por think y no por believe. Y ahí tendríamos la explicación para
eficiencia del aprendizaje. Y para explicar esa eficiencia, se pueden tener en la transferencia negativa que observábamos arriba que causa que los anglófonos
cuenta varios factores: 1) factores cognitivos (inteligencia, m e m o r i a . . . ) y factores usen el verbo pensar ("Yo pienso que") en momentos en que, en español, sería más
personales del aprendizaje (motivación, autoimagen...) y 2) factores relacionados adecuado usar creo que. Creer, en su lengua, no se usa para expresar opinión.
con las diferencias de los sistemas lingüísticos de los alumnos.
La segunda línea de investigación es el análisis de errores. Este consiste en
Para estudiar las primeras, no se usan corpus propiamente dichos, sino entrevistas describir las producciones desviadas de los alumnos. El análisis de errores
personales con datos sociolingüísticos asociados que nos muestran las actitudes de los puede ser de cualquier nivel: fonético (sonidos o entonación), morfológico
alumnos a través de preguntas directas o de escenarios comunicativos controlados. (concordancias, tiempos verbales), sintáctico, léxico-semántico o pragmático-
Esta línea de investigación, que se ha trabajado desde el construccionismo social contextual. Los errores de los alumnos se han podido dar en tareas orales dirigidas,
(Williams & Burden, 1999), no la trataremos en este libro. redacciones, interacciones de clase... Para estudiarlos se necesitan, obviamente,
las producciones de esos alumnos, preferentemente transcritas y anotadas, es
En cuanto a las dificultades que supone la lengua meta dependiendo de la Ll de los
decir, convertidas en un corpus, ya sea de tus alumnos de este año, o de los del
alumnos, existen tres líneas de investigación principales, 1) el análisis contrastivo,
Cervantes en los últimos 10 años. Por eso, la mayor parte de publicaciones de

70 71
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA

análisis de errores lo estudian en corpus (Cestero et ál., 2002; Ferreira et ál., una producción como "la gente son" aparecería anotada la palabra son como "error
2014; Pérez Serrano, 2014). morfológico, concordancia". Y eso posibilitaría realizar búsquedas de todos los
El análisis de interlengua c o m p r e n d e el estudio de las producciones de los errores de concordancia cometidos en un grupo de estudiantes y de esta manera
alumnos de lengua extranjera, tanto las correctas como las desviadas, el e r r o r se podría comprobar qué palabras causan más errores de concordancia y en qué
(Selinker, 1972). Sin embargo, ya que los errores se tratan en profundidad en la nivel dejan de causarlos.
investigación basada en análisis de errores que acabamos de explicar, el análisis de Habíamos dicho ya en un apartado anterior que los docentes e investigadores
interlengua trata aquellas producciones que, sin ser necesariamente erróneas, son tienen dos posibilidades: consultar un corpus de errores ya creado, o crear su
comunes en todas las personas que estudian una lengua extranjera, muchas veces, propio corpus. Pero crear un corpus propio implica recoger datos, digitalizarlos,
no directamente relacionados con la L l . marcarlos, anotarlos y, después de haber hecho todo eso, empezar a realizar su
Nos referimos a características como la abundancia de pausas, el uso de frases cortas pequeña investigación. La realización de todo ese trabajo, por ejemplo, en el caso
y simples (sin subordinación), uso de términos poco precisos como cosa, etc. Para de un trabajo de final de grado, certificaría que el alumno se desenvuelve bien
afrontar el análisis de interlengua, igual que en el análisis de errores, se necesitan con el método empírico, que sabe realizar todas esas tareas, y, por lo tanto, que
producciones de alumnos de lengua extranjera, por lo tanto, corpus de los alumnos. es buen investigador, pero ser investigador no es lo mismo que ser profesor. Así
A este tipo de corpus le llamamos c o r p u s d e a p r e n d i e n t e s o c o r p u s d e que a no ser que se esté preparando unTFM de investigación o una tesis doctoral,
errores.Y es el único tipo de corpus específico para el aprovechamiento en ELE. recomendamos que se use un corpus ya disponible y solo se cree el corpus de
la clase si hay un objetivo concreto que realmente lo haga necesario, como dar
6.2. LOS CORPUS DE APRENDIENTES correcciones personalizadas a los estudiantes. A esto volveremos más adelante
Los c o r p u s d e a p r e n d i e n t e s contienen datos de muestras de habla real de en el libro.
los estudiantes de una determinada lengua. En la bibliografía, también se han
6.3. CORPUS DISPONIBLES
llamado c o r p u s d e i n t e r l e n g u a o c o r p u s d e e r r o r e s . Existen corpus de
aprendientes para muchas lenguas meta y desde muchas lenguas de origen de En el caso de que no tengas alumnos de los que recoger datos y quieras hacer una
los estudiantes. Por ejemplo, si estuviéramos interesados, podríamos consultar investigación (publicar un artículo, hacer un trabajo de investigación original), hay
los errores más frecuentes en inglés de los aprendientes hispanohablantes. En el numerosos corpus disponibles y anotados listos para su explotación.
ámbito internacional, se puede encontrar incluso una asociación de estudiosos La parte positiva de usar un corpus ya compilado es que ahorrarás el tiempo que
de corpus de aprendientes que organiza congresos y mantiene recursos útiles en necesitarías invertir en compilar tu propio corpus y anotarlo. La parte negativa es
diferentes lenguas (https: //www.learnercorpusassociation.org). que puede que el corpus no cumpla los criterios que te interesarían.
Los corpus de aprendientes pueden tener, como los corpus en general, diferentes
Por ejemplo, puede que quieras hacer una comparación de los alumnos de dos
tipos de mareaje y anotación. En p r i m e r lugar, suelen estar codificados con la
lenguas y que el corpus no contenga estudiantes de esas lenguas en concreto o que
Ll del estudiante y su nivel, y, muchas veces, además incluyen información
quieras estudiar grupos que hayan aprendido con determinado método y no los
sociolingüística o del aprendizaje del alumno, como, por ejemplo, si ha pasado un
incluya o que no diferencie a los alumnos que han estado en inmersión de aquellos
periodo de inmersión en un país hispanohablante y cuánto tiempo.
que no y esa variable fuera muy importante para ti.También puede ser que quieras
Además, existen corpus lematizados y corpus en crudo, que son simplemente una estudiar un error en concreto, por ejemplo, errores en el uso del artículo, y que
recopilación de, por ejemplo, redacciones realizadas por los alumnos de B2 que no encuentres un corpus que lo tenga anotado.
estudian español en una universidad de Berlín.
Antes de empezar la tarea napoleónica de recoger un corpus para la investigación,
Los corpus más anotados contienen los errores marcados en el texto y algunas siempre merece la pena echar un vistazo a lo que hay en la web. En los siguientes
veces contienen también información sobre el tipo de error cometido. Así, en

72 73
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA

párrafos vamos a hacer un repaso de los corpus de aprendientes disponibles y sus puntos CEDEL2 (Irwtructtons] JCorpu* SpanWi nattves] [Corpu»: L1 Englteh - L2 Spartsh] [Cwpus: L1 Gre«k-L2SpantahJ

fuertes. Para cada corpus, hay una referencia citada al final del libro. Esa referencia es
¡ Q | O a w a i M n o * ™ ™ e.g, 'PStar-jp-J,*- •%pa^tic i . w U ' s i a r t ; se 9 0 ?i. 0 ? NLPj i
siempre un artículo donde se explica el diseño (el proceso de creación), las decisiones
metodológicas de creación del corpus y tipología y cómo está conformado, y su tipo Ageofleamer 1 Proficiencytevel(pte<»rnantte»t8co«) Proffciency teveJ (serf-evaJuatton) 9
•—r-,?—r-f
f-
de mareaje y anotación. Es decir, al consultar cualquiera de esos artículos, podrás ver 0-100 rt rrrrrrrrrrrrrrs i o-e
0 100
la aplicación práctica de todo lo que hemos explicado en el libro hasta ahora y, además,
A^ofexposuretoSpanlsh * YearestudytngSpanWi f Stayabroad(morrths) ?
te harás una idea más clara de los puntos fuertes y débiles del corpus, así como de las i " ! . __ .— : í . l i- _ . ._ >J _J ._ ...... .....—_ , _, f~
-_ —rrrrn...
• — . . . _

0-100 0 - 50 0-300
dificultades a las que se enfrentaron los autores a la hora de crearlos.
OttorfonrignlaiHluagM t Esaaytffle ?

La tradición de los corpus de errores, como todo en la lingüística de corpus, Japanes» C 0 1 . ¿Cómo as la región dónete vivas?

Khmer 02. Habla de una persona famosa.


comienza con el inglés. En los años noventa del siglo pasado nace el International Korean 03. Resume una p-fcula que has visto recientemente.
Latín 04. ¿Qué hiciste al ano pasado durante las vacaciones?
Corpus of Learner English (ICLE) (Granger, 2003) y, a partir de ese m o m e n t o , Matay " 05. ¿Cuáles son tus planas para el futuro?
06. Desoribe un viaje que has hecho recientemente
empiezan a recoger datos sobre la enseñanza del inglés. El corpus sigue en activo * Malayalam
' Maori 07. Cuenta una experiencia que hayas vivido.

hoy en día; contiene redacciones de alumnos de nivel intermedio y avanzado de 22 ' Portuguesa 08. Habla del problema del terrorismo en et mundo.

Punjabl 09. ¿Qué opinas de la nueva ley antl-tabaco?

lenguas maternas con un total de 5,7 millones de palabras. ' anta» 1 0 , ; Crees Que las oareias oav tienen el derecho de casarse v adoptar renos?

Pero pasemos a nuestro interés real. En el caso del español, la tradición empieza
con el corpus CEDEL (Lozano, 2009; Lozano & Mendikoetxea, 2013) del cual
* Afleo* Years
ya existe una segunda versión en línea. Como la mayoría de corpus, se trata de K>
AQS of
learner
fpMoement test
score)
Profiolenoy levet
(setf svahiatlon)

un corpus de textos escritos, en concreto, de redacciones sobre diferentes temas. «n_wr.9_20.0JU.nlp 26 21 1.75 26 0 02. Habla de una persona

Contiene aprendientes con Ll inglés (y un subcorpus más pequeño de Ll griego)


y se puede consultar en línea y descargar. Tiene una interfaz cómoda e intuitiva
Figura 5. Interfaz de búsqueda de CEDEL v2
con la que se pueden filtrar las características de los alumnos (figura 5).
Hoy en día, el corpus que podríamos considerar "oficial" para el español es el
Este es un corpus útil para hacer análisis de interlengua, pero no tanto para buscar
Corpus de aprendices de español (CAES) realizado por la Universidad de Santiago de
errores, ya que la interfaz no lo permite. Sí permite, en cambio, buscar por nota
Compostela con la ayuda del Cervantes (http://galvan.usc.es/caes). Este corpus,
concreta de los alumnos o por el título de la redacción, lo que facilita estudios
como el CEDEL, tiene una interfaz de búsqueda muy lograda para seleccionar
centrados, por ejemplo, en un determinado tipo de texto (descripción, resumen,
las variables de los alumnos. Además, en él se puede buscar por tipo de palabra
narración...) o en un tema (persona famosa, viajes...). Este sería un ejemplo de
gramatical al modo de los corpus de lengua general y ofrece comparativas de la
producción de una alumna de Al para la descripción de una persona famosa:
frecuencia de la palabra de búsqueda separadas por Ll de los alumnos y por nivel.
Denzel Washington es muy guapo. Señor Washington te gusta pelicula. Señor
Pero en todos estos corpus la búsqueda se realiza por una palabra o colocación,
Washington esta alto y m u c h o tiene deniro. Señor Washington vive en Los
es decir, si bien tienen anotación morfosintáctica, no contienen los errores de los
Angeles California con el novia en mucho encasa. Denzel Washington encanta
alumnos anotados. Por eso, es especialmente interesante para nuestro cometido el
football y basebol. Washington Tiene tres niños, el niño camine Morehouse
corpus que presentamos a continuación.
Universidad y juege football. Denzel Washingtons Pelicuas es John Q, Remember
theTitans, y inside man. Me gusta Denzel Washington, el es me favorito actor. En el Corpus Oral de Español como Lengua Extranjera (COELE) se encuentran
las producciones transcritas de 40 alumnos de español lengua extranjera, una
muestra más bien pequeña. Pero el punto fuerte de este corpus es que contiene

74 75
6. CORPUS PARA INVESTIGAR SOBRE EL ESPAÑOL LENGUA EXTRANJERA
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO

anotaciones de los errores, así que p e r m i t e hacer búsquedas de errores. Estas de ELE, que está en línea y contiene únicamente un PDF de las redacciones con
búsquedas pueden ser p o r nivel de lengua, p o r errores de pronunciación, o el marcado de nivel, curso y edad, pero sin ningún tipo de anotación o buscador.
incluso más específicas, p o r ejemplo, errores de concordancia de n ú m e r o o Como este se pueden encontrar más, de otras L l , en el apartado CORPUS de la
errores de tiempo verbal. Los ejercicios de este capítulo permiten explorarlo de web de la revista científica LinRed ( h t t p : / / w w w . l i n r e d . e s / c o r p u s . h t m l ) . Se
manera guiada. trata, básicamente, de corpus oportunistas como los que podemos crear nosotros
a partir de las redacciones de nuestros alumnos.
Por supuesto existen muchos más corpus de aprendientes. Algunos de ellos (más
bien pocos) son de variedades lingüísticas que n o son la española peninsular, 6.4 PARA MÁS INFORMACIÓN
como el Corpus de aprendientes de español como lengua extranjera y segunda lengua NÚñez Noguerales, E. (2019). Pasado, presente y futuro de los corpus de aprendientes
(CÁELE/2) de español de Colombia (Hincapié, 2018).También existen versiones de ELE. Una revisión bibliográfica. Reidocrea. Monográfico 2019 - enseñanza de lenguas,
especializadas según la Ll de los alumnos como el Corpus ORal de Aprendientes de 170-190.
Francés (CORAF), el Aprescrilov para aprendientes que hablan neerlandés (Buyse &
González Melón, 2012) o el CELEN para hablantes de japonés (Valverde, 2020). 6.5 ACTIVIDADES
Este último no tiene una interfaz web propia donde realizar las consultas, sino 6.5.1. Visita la página h t t p s : / / u c l o u v a i n . b e / e n / r e s e a r c h - i n s t i t u t e s /
que tiene que ser consultado a través de Sketch Engine, que, como dijimos en la i l c / c e c l / l e a r n e r - c o r p o r a - a r o u n d - t h e - w o r l d . h t m l . ¿Cuántos c o r p u s
sección 2.5, es un programa en el que se puede cargar cualquier corpus (conjunto
t i e n e n el español c o m o lengua de e s t u d i o (target)! ¿Y c ó m o Ll (first
de textos anotados) para facilitar su consulta y la realización de búsquedas.
language)! ¿Cuál d e estas es más interesante para los profesores d e
En cuanto a los corpus orales, existen muchos menos y, en la mayoría de los casos, ELE? ¿Por qué?
no cuentan con audios descargables disponibles para hacer un análisis acústico de 6.5.2. Visita la página https://slabank.talkbank.org/access/. ¿Cuál de
los errores de los estudiantes, sino únicamente con las transcripciones (como el los corpus orales que hay disponibles te parece más interesante?
de García Gutiérrez (2005)). Eso hace que la mayoría de tesistas que se deciden
6.5.3. Busca en el h t t p : / / c a r t a g o . l l l f . u a m . e S / e x i s t / r e s t / / d b / c o r p u s /
a hacer un trabajo de fin de máster o una tesis de pronunciación de ELE se vean
obligados a recoger su propio corpus. Algunos corpus orales disponibles son el e r r o r e s . h t m l p o r TIPO DE ERROR " I n d i c a t i v o / s u b j u n t i v o " y LENGUA
Spanish Learner Language Oral Corpora de la Universidad de Southampton (Mitchell MATERNA "Francés". Después d e ver esos datos, ¿qué tema repasarías

et ál. 2008) o el C O R A L - R O M , en versión CD (Llanos et ál., 2007). en clase?

Si necesitas un corpus sobre una Ll en concreto, puedes encontrar una lista 6.5.4. Busca ahora resultados de errores de concordancia de número
exhaustiva y actualizada de corpus de aprendientes de diferentes lenguas con su en estudiantes cuya lengua materna es el inglés. ¿Qué errores son más
clasificación en h t t p s : / / u c l o u v a i n . b e / e n / r e s e a r c h - i n s t i t u t e s / i l c / c e c l / l e a r n e r - comunes? ¿A qué rasgo lingüístico del inglés se p u e d e n deber (esta
corpora~around-the-world.html. Además, algunos corpus orales de español L2 están pregunta p r e s u p o n e q u e tienes un nivel de inglés de al m e n o s Bl)?
disponibles a través de la sección Second Language Acquisition de Talkbank, un gran Un estudio c o m p l e t o y extenso sobre este tema podría dar lugar a un
banco de corpus lingüísticos de todo tipo (https://slabank.talkbank.org/access/). trabajo de curso: "La concordancia de n ú m e r o en la interlengua en
español de aprendientes anglohablantes".
El problema es que todas estas bases de datos incluyen solo corpus que cumplen
ciertos requisitos de tamaño y anotación: se consideran corpus de verdad los que 6.5.5. Ve al CEDEL ( h t t p : / / c e d e l 2 . l e a r n e r c o r p o r a . c o m ) , y entra o
son ordenados, anotados y reutilizables. Eso hace que para fines específicos existan descarga cualquier producción. ¿Qué datos han incluido en el mareaje
muchos más corpus que no están indexados. Por ejemplo, Gutiérrez Quintana del corpus?
(2005) creó un corpus de textos escritos p o r universitarios italianos estudiantes

77
76
7. LOS CORPUS EN LA CREACIÓN DE MATERIALES

La preparación de libros de ELE, cuadernos de ejercicios o el material de clase


para un curso en concreto (las fichas), sigue un proceso parecido a la creación de
cualquier gramática. Así que, como en estas, de manera clásica, nos encontraríamos
a un "gramático sabio" encerrado en su despacho decidiendo qué contenidos
forman parte de la lengua, cuáles son más básicos y qué ejemplos son perfectos
para ellos. Ya hemos visto que, en el mundo real, se ha comprobado que a veces lo
que los profesores prevemos como básico y fácil no lo es tanto, que los ejemplos
creados por lingüistas a veces tienen poco uso en una situación comunicativa y que
cuando más necesitas pensar en léxico de comida o léxico que contenga grafías g
yj es cuando menos se te ocurren. Para hacer todas estas decisiones más fáciles
se puede acudir a diccionarios, diccionarios combinatorios, gramáticas, listas de
vocabulario y, cómo no, corpus.

7 . 1 . USO DE CORPUS EN LA SELECCIÓN DE CONTENIDO DEL


CURSO 0 LIBRO
El planteamiento de un libro de texto y del contenido o currículo de un curso de
lengua (sjllabus) es muy parecido. En los dos casos, lo primero que hay que decidir
son los contenidos que entrarán. Es posible que esta tarea no recaiga nunca sobre
LOS CORPUS EN LA CREACIÓN DE MATERIALES nosotros, porque no trabajemos como editores en una editorial de ELE, porque
en la escuela en la que trabajamos esa tarea recaiga sobre un coordinador, etc.
Pero también es posible que en una escuela pequeña en la que, o bien no había un
programa de lengua montado o bien se ha cambiado el claustro, haya que crear
el programa. Montar un curso desde cero es una tarea que ocupa muchas horas
(aunque se puede aprovechar una parte de un año para otro) y buscar un buen
manual siempre ahorra horas de preparación. Pero, por bueno que sea el manual,
siempre hay que "hacer nuestro el contenido" y, para lograrlo, lo primero que hay
que hacer es tener una panorámica del temario que se va a enseñar en el curso.

79
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COHO MODELO 7. LOS CORPUS EN LA CREACIÓN DE MATERIALES

Para decidir el contenido que hay que cubrir en un curso o libro, normalmente, de las más frecuentes). Aunque, como decíamos al principio, esto no supone un
miramos el Plan Curricular del Instituto Cervantes (PCIC) o, más a grandes rasgos, gran problema p o r q u e siempre t e n d r e m o s el PCIC para saber qué funciones
el Marco Común Europeo de Referencia para las Lenguas (MCER o CFER, según si lo incluir.
citamos por sus siglas en castellano o en inglés) y, a partir de ahí, decidimos. Esa es
En cambio, una vez que tenemos algunos límites de contenido establecidos, por
la manera más rápida y fácil de no equivocarse, aunque hay que tener en cuenta que
ejemplo, el registro que queremos tocar, podemos buscar un corpus especializado
el PCIC no contiene todo, suele ser más bien una guía general.
en el que aparezca ese tipo de lengua. Por ejemplo, en un tema de dar la opinión,
Además, no todos los planes de estudios siguen el currículo del Cervantes. podemos usar un corpus de opiniones de Amazon y un corpus de cartas formales
Por ejemplo, en las universidades estadounidenses los estudiantes de ELE no nos puede servir para extraer los saludos más frecuentes, pero esto lo veremos con
persiguen obtener el título DELE o SIELE, sino un grado universitario. Tampoco más detalle en el epígrafe siguiente.
usan el MCER que, por motivos obvios, no está implantado fuera de Europa.
Volvamos a la selección de contenido de un curso. Hay un tipo de cursos para el
Muchos de los profesores del sistema estadounidense ni siquiera lo conocen y los
que se tiene una idea clara del campo que se quiere tratar y muchas veces no se
coordinadores generales no suelen ser proclives a dejar que los profesores de su
cuenta con un currículo claro: el español para fines específicos. El e s p a ñ o l para
sistema usen un currículo europeo para decidir su syllabus. Sin embargo, muchas
fines e s p e c í f i c o s tiene varias particularidades que hacen que no se pueda aplicar
universidades chinas sí se guían por el MCER porque tienen en mente el DELE.
un plan general como el PCIC. Estas peculiaridades se encuentran, básicamente,
En casos como esos, la decisión o la justificación de qué incluir en un programa y en la terminología y el registro que se enseña. Vamos a ver por qué.
en qué nivel hacerlo se puede hacer a partir de corpus (Caballero et ál., 2012). A
La t e r m i n o l o g í a (vocabulario) que en un curso general no se vería hasta niveles
través de ellos, se puede ver qué situaciones comunicativas y recursos lingüísticos
altos o incluso no se vería en absoluto puede tenerse que dar en un curso de fines
son más frecuentes y, por lo tanto, interesantes para incluir en un método o en un
específicos en niveles bajos. Por ejemplo, para un médico, una palabra como vía
curso de ELE.
(en la colocación vía intravenosa) o bisturí formarán parte de su vocabulario más
La idea de decidir qué incluir en un programa o justificarlo mediante corpus usado y, sin embargo, no entran en ningún programa de ELE. O t r o ejemplo, un
es buena, p e r o ¿cómo se puede buscar el contenido que debemos incluir en curso de español a una cadena de panaderías que quiere entrar en el mercado
un determinado nivel en un corpus? La respuesta no es fácil. Para empezar, el español, a sus empleados no les bastará con conocer la palabra harina, sino que
contenido que queremos buscar puede ser: a) g r a m a t i c a l (¿debería incluir el necesitarán, además, sus tipos (defuerza, de repostería, de centeno...). Además, las
imperativo en un A2?), b) l é x i c o (¿incluyo vocabulario sobre las vacaciones diferentes profesiones usan jergas, a veces, por necesidad, como en los ejemplos
en Al?) o c) f u n c i o n a l (¿en qué nivel incluiría ofrecer una justificación?). Los de léxico que acabamos de ver, pero otras, simplemente por convención, por
corpus, tal y como los hemos explorado hasta ahora, nos pueden servir para los ejemplo, los médicos usan molestias en vez de dolor y a primera vista no hay una
dos primeros tipos de contenido, pero no para el tercero. En cambio, hoy en explicación del por qué (Cordella, 2002).
día, la mayoría de los programas de ELE se estructuran alrededor de funciones
En los cursos de lengua general, se suele enseñar un r e g i s t r o estándar, con algunas
comunicativas.
tendencias al formal (por ejemplo, cuando se trabajan cartas de presentación) o
Hasta donde llega nuestro conocimiento, solo existe un corpus en el que se al coloquial (cuando se hacen intervenciones en clase). Pero en uno de español
puede buscar por función comunicativa, el C-Or-Dial (Nicolás Martínez, 2012, para fines específicos, por ejemplo, en un curso de español de los negocios, a los
2015), y solo se puede realizar esa búsqueda en su versión en C D - R O M y no en alumnos solo les interesará el registro más formal; en cambio, en uno de español
su web. En la práctica, que no esté disponible en línea significa que no es posible para el turismo, se buscará un lenguaje más cercano.
elegir qué funciones comunicativas incluiremos en un curso directamente desde
Todo esto hace que sea oportuno usar corpus, en concreto, un corpus de lengua
un corpus (a no ser que nos leamos el corpus completo para hacernos una idea
especializada.

80 81
USO DE CORPUS EN CLASE DE ELE. LA LENGUA REAL COMO MODELO 7. LOS CORPUS EN LA CREACIÓN DE MATERIALES

Para poder establecer nuestro propio plan de estudios para fines específicos En este epígrafe nos hemos centrado en aquellos casos en los que hay que montar
p o d e m o s acudir a corpus especializados, p e r o la mayoría de ellos no están unidades desde cero, pero estos no son los únicos en los que podemos tener que
disponibles con un buscador en línea como los que hemos visto hasta ahora. Por decidir qué contenido incluir. Cada clase (cada unidad didáctica ya creada) necesita
ello, resulta mucho más cómodo acudir a los estudios que se han realizado a partir adaptarse al contexto de nuestro grupo concreto y eso también significa elegir qué
de esos corpus. En ellos, se pueden encontrar listas de léxico y reflexiones sobre formas lingüísticas se van a ver.
su discurso ya preparadas.
7.2. QUÉ FORMAS LINGÜÍSTICAS INCLUIR EN CADA UNI0AD
Por ejemplo, a partir del análisis del Corpus Aíultilingiie de Turismo de la Universitat
DIDÁCTICA 0 EN CLASE
de Valencia (COMETVAL) se ha podido confeccionar un diccionario y publicar
n u m e r o s o s estudios. En estos últimos se p u e d e n e n c o n t r a r p a t r o n e s de Las situaciones comunicativas que se incluyen en una unidad condicionan las
denominaciones como turismo + adj o turismo de + n o m b r e : turismo de aventura, formas lingüísticas que se enseñarán. Sin embargo, siempre hay un espacio para
turismo activo, turismo rural. Y también léxico de uso habitual en español del la elección. Casi todos los métodos de ELE de Al empiezan por una unidad 1,
turismo, como quad, avistaje de aves, hidrotrineo o escafandrismo (López Santiago & o incluso 0, en la que se ven los saludos y las presentaciones. En esa unidad,
Giménez Folqués, 2017). n o r m a l m e n t e se incluyen formas como hola, buenos días / buen día o buenas
tardes. Sin embargo, en casi todo el mundo hispanohablante, hay una forma que
Si no existe un corpus del tipo concreto de lengua que queremos enseñar (que se los alumnos oirán mucho pese a ser un préstamo: ciao, chao o chau. Esta forma,
sepa, no existe un corpus de lengua de los panaderos o de los albañiles, por poner probablemente, no es la primera en la que uno piensa al montar una unidad, pero
algún ejemplo), se pueden usar manuales o glosarios. Pero enseñar el léxico de sí es una forma actual y muy frecuente.
una profesión suele ser insuficiente, las jergas suelen incluir también otros rasgos.
Por ejemplo, en derecho eliden la conjunción que en subordinadas de subjuntivo Cuando uno se enfrenta a crear una unidad, después de haber elegido la situación
(dicen solicito sea tenido en cuenta donde deberían decir solicito que sea tenido en comunicativa o la función que va a incluir, el paso siguiente consiste en buscar
cuenta), algo que no es normativo en la lengua general, también hacen un uso más las formas lingüísticas que se incluirán. Para ello, un acercamiento natural sería
abundante del subjuntivo, de las subordinadas y de las formas impersonales que el siguiente. Pongamos que queremos que el alumno sea capaz de describir la
en la lengua general. Además, mantienen formas arcaicas como Jallo por jo hallo imagen de una persona. Una vez tengamos decidido eso, nuestra intuición de
o el futuro de subjuntivo si no comparecieren. Así que también deberemos tener en docentes y lingüistas (y no nuestra intuición como nativos) nos indica que, para
cuenta la sintaxis cuando enseñemos lenguas especializadas. hacerlo, el alumno necesita el presente de indicativo y léxico de descripción
física. De ahí, escogeremos las formas que nos parezcan más adecuadas al nivel
Otra posibilidad es crear nuestro propio corpus a partir de muestras de la lengua (o de nuevo acudiremos al P C I C ) . Ahora, para c o m p r o b a r las ventajas, los
especializada que queremos enseñar. Para hacer esto, Vangehuchten (2004) problemas y dificultades que conlleva, vamos a ver el mismo proceso con un
muestra un método bastante rápido (si se tienen conocimientos de informática/ ejemplo en el que se ha confiado en corpus en vez de en nuestra intuición para
p r o g r a m a c i ó n suficientes) y eficaz. Él p r o p o n e seleccionar los manuales realizar la misma tarea.
académicos de introducción a la disciplina (por ejemplo, Manual de las ciencias del
deporte o Introducción al derecho romano) más usados en el ámbito y, a partir de esos Imaginemos una unidad que tiene como objetivo final "ser capaz de desenvolverse
manuales, seleccionar el vocabulario y las formas propias de la materia. En su en una estación de tren". Caballero et ál., (2014) proponen un acercamiento de
artículo, Vangehuchten (2004) presenta una manera matemática de seleccionar ese corpus para llegar a cumplir esa tarea. Para definir las formas lingüísticas que se
vocabulario y nos recuerda que, según la bibliografía, el conocimiento del 95 % incluirán en la unidad, Caballero et ál. (2014) ofrecen un análisis de las expresiones
del léxico de un texto asegura su correcta comprensión y la capacidad de extraer en las taquillas usadas por los nativos, InfoTren, y una comparación con un corpus
significados desconocidos a partir del contexto, mientras que un conocimiento del de simulaciones (role-play) tanto con nativos como no nativos, FerroviELE. Ese
98 % del léxico proporciona una lectura cómoda. análisis les permite descubrir que, contrariamente a lo que se pudiera pensar, los

82 83
Another random document with
no related content on Scribd:
In der Schule war Henry Ford ein »Dummkopf«, der Lehrer konnte
wenig mit ihm anfangen.
Henry hatte mit 15 Jahren die Schule satt, lief davon und fand eine
Stellung in einer Maschinenwerkstatt. Er begann mit 10 Schilling die
Woche — heute verdient er 28 Schilling die Sekunde.
Einige Jahre später starb sein Vater und er mußte nach Hause,
um die Farm zu verwalten. Doch als Farmer blieb er erfolglos.
Das beste, was er tat, während er auf der Farm lebte, war seine
Heirat mit der Tochter eines Nachbarn.
Eines Abends, bei der Lektüre einer Farmerzeitung, sah er das
Bild eines neuen pferdlosen Wagens, den ein Franzose erfunden
hatte.
Er war fasziniert. Das Bild packte ihn und änderte völlig die
Richtung seines Lebens.
Er vernachlässigte seine Farm und begann in seiner Scheune
einen pferdlosen Wagen zu bauen. Er spannte eine alte Maschine
vor einen alten Jagdwagen — die ganze Umgebung machte sich
über ihn lustig.
In den Armenhäusern Amerikas leben heute verschiedene alte
Männer und Frauen, die vor 25 Jahren sich herrlich damit
amüsierten, Henry Ford auszulachen.
Gegen den Rat aller verließ er plötzlich die Farm und ging nach
Detroit. Er bekam eine Anstellung als Mechaniker mit 30 Pfund
monatlich und arbeitete nachts an seinem pferdlosen Wagen.
Er baute einen, der einen Zylinder hatte — ein verschrobenes,
schnaufendes, lächerliches Ding. Aber es bewegte sich.
Acht lange Jahre besserte er an diesem absurden Motor herum.
Endlich ging er — so gut, daß Henry damit ein Rennen gewann.
Mit einem Schlag wurde er und sein Motor berühmt. Er gewann
weitere Rennen. Er schlug sogar Barmey Goldfield, den besten
Rennfahrer in jenen Tagen. Er schlug Goldfield in einem Dreimeilen-
Rennen.
Einige Freunde liehen ihm 3000 Pfund, mit denen er eine kleine
Motorenfabrik begann. Er verschaffte sich die besten Betriebsleiter.
Er zahlte sie gut und sie organisierten ihm ein riesiges Geschäft.
Er ist ein schlanker, athletischer, sonnverbrannter Mann von
einfachstem Geschmack. Macht und Reichtum haben ihn nicht
verdorben. Als ich ihn das letztemal in seiner Detroiter Fabrik sah,
zeigte er einem Telephonmädchen, wie sie ihr Schaltbrett zu
bedienen habe.
Er ist kein Geschäftsmann im gewöhnlichen Sinne. Er ist ein
Mechaniker — ein Erfinder. Er begründete seinen Erfolg durch die
richtige Schätzung des Prinzipes der Standardisation.
Henry Ford weiß, wie man es macht.
Er hat die Probleme seines Geschäftes gelöst. Er hat uns den
einen richtigen Weg gezeigt, Menschen zu behandeln, Güter zu
erzeugen und Profite zu machen, ohne sich Feinde zu machen.
Hätten wir 1000 Fords, wir würden hohe Löhne, hohe Profite,
niedrigere Preise und keine Arbeiterunruhen haben. Wir würden
Frieden und Wohlfahrt haben.
Nehmen Sie beispielsweise Fords Methoden als Arbeitgeber. In
dieser Hinsicht ist er ganz eigenartig. Er ist einen vollkommen
ungewöhnlichen Weg gegangen und hat damit einen großen Erfolg
erzielt.
Tatsächlich scheint Henry Ford sich weit mehr als Arbeiterführer
denn als Arbeitgeber zu betrachten.
Er gibt seinen Leuten mehr als sie verlangen.
Er gibt ihnen bessere Arbeitsbedingungen, als sie jemals sich
träumen konnten.
Er beobachtet und beschützt sie. Er hat aus seinen 55 000 Leuten
die bestbezahlte und zufriedenste Arbeiterarmee gemacht, die die
Welt je gesehen hat.
Kein Arbeiterführer hat für die Arbeiter so viel getan, wie Henry
Ford.
Im Jahre 1914 waren seine Arbeiter vollständig zufrieden, aber
plötzlich verdoppelte er ihre Löhne. Als Ergebnis machte er im Jahre
1915 einen größeren Reingewinn, als je zuvor.
Er schützt seine Arbeiter gegen jede Ungerechtigkeit. Er hat 2000
Werkführer, und nicht einer von ihnen darf einen Arbeiter entlassen.
Im Jahre 1919 wurden von 50 000 Arbeitern nur 118 entlassen.
Ein eigener Stab von dreißig Leuten untersucht alle
Schwierigkeiten zwischen den Werkführern und den Arbeitern. Hat
ein Werkführer häufige Konflikte mit seinen Leuten, so wird er sehr
bald in das Direktionsbureau berufen und darüber aufgeklärt, daß
seine Methoden falsch sind.
Ford hat nichts gegen die Gewerkschaften, aber er macht es in
jeder Beziehung besser als sie. Er betrachtet das
Gewerkschaftswesen als einen notwendigen Schutz gegen törichte
oder ihre Leute schindende Arbeitgeber, aber er ist weder töricht
noch ein Leuteschinder.
In seiner Fabrik gibt es keine Rücksichtslosigkeit und keine
Unbarmherzigkeit. Sie ist wirklich eine der gütigsten und
menschlichsten Einrichtungen. In ihr herrscht mehr Sympathie und
Herzensgüte, als in den meisten Kirchen. So gibt es zum Beispiel in
den Ford-Werken vierhundert Arbeiter, die entlassene Sträflinge
sind. Sie wurden als Verbrecher ausgestoßen, aber Ford hat ihnen
eine Chance geboten. Er hat sie zur Selbstachtung zurückgeführt
und sie leben jetzt ein ehrenhaftes und glückliches Leben.
Es gibt in den Ford-Werken zweitausend schwache und
verkrüppelte Leute. Sie tragen ein Abzeichen, das besagt: »Nur für
leichte Arbeit.«
Es ist eine von Fords Theorien, die er hartnäckig vertritt, daß er
seinen Anteil an der Sorge für Krüppel, Verbrecher und Blinde zu
tragen hat. Einer seiner tüchtigsten Arbeiter ist ein blinder Mann.
Vor sechs Jahren stellte Ford zweihundert Leute an, um
herauszufinden, wie seine Arbeiter leben. »Ich wünsche, daß meine
Leute ein reines und gesundes Leben führen«, sagte er.
Vor kurzem aber hat er dies wieder eingestellt. »Es bringt zu viel
Herumschnüffeln in Privatangelegenheiten mit sich«, sagte er. »Wir
wollen diese Abteilung in eine Erziehungsabteilung umwandeln.«
Er spart keine Ausgabe, um seinen Arbeitern in der Fabrik die
besten Arbeitsbedingungen zu schaffen. Er hat einen besonderen
Stab von siebenhundert Malern, Fensterwaschern, Tischlern usw.,
um alles rein und frisch zu erhalten. Der Boden seiner Werke ist so
sauber wie ein Küchenboden.
Alle zwölf Minuten wird die Luft erneuert. Aller Rauch und alles
Gas der Gießerei wird beseitigt. Es gibt keine kalten oder überhitzten
Räume.
John R. Commons hat vor kurzem die Ford-Werke besucht, um
sich über die »Schnelligkeitshetzen« zu informieren. Und er
berichtet, daß er nichts davon bemerkt hat, außer »in einem Teil der
Gießerei unter neuangestellten Arbeitern«.
Kurz gesagt: Zwischen Ford und seinen Leuten besteht kein Krieg.
Auf keiner Seite gibt es einen Verdacht. Ford glaubt an seine Leute
und sie glauben an Ford.
Er hat eine Gewerkschaft von achtzigtausend Mann organisiert
und er ist ihr Führer.
Er hat sein ganzes Geschäft hoch über Ausstände und
Aussperrungen erhoben.
Er hat dem Krieg zwischen den Arbeitern und der Betriebsleitung
ein Ende gemacht. Er hat Friede auf Erden und den Menschen ein
Wohlgefallen in seinen Werken verwirklicht.
Er ist wahrscheinlich kein Mann von großem Wissen, aber er hatte
den Mut, die Grundsätze der Gerechtigkeit und Wirksamkeit zur
Anwendung zu bringen. Er handelte. Er führte. Er hat jedem anderen
Arbeitgeber gezeigt, was getan werden kann.
Von

HERBERT N. CASSON
sind in unserem Verlag erschienen:

Business
16 Lehrsätze vom Geschäftserfolg. Dritte
Auflage.
Das Buch für den größten und den kleinsten Kaufmann. Es
behandelt die neue Wissenschaft vom Geschäft. Es gibt in reiner
Wahrheit und Klarheit viel von dem Besten, was auf amerikanischem
Boden an Erkenntnis und Erfahrung gereift ist.

Brosch. Mk. 4.—, geb. Mk. 5.—


Der Mann an der Spitze


12 Tips von der Führerschaft. 1.—10. Tausend.
Der Autor sagt in dem Vorwort über sein Buch: »Hier habe ich die
Erfahrungen von 35 Jahren zusammengedrängt, während derer ich
viele Führer des Handels und der Finanz treffen und studieren
konnte. Auf einen Mann von fünfzig Jahren wird dieses Buch nicht
mehr von großem Einfluß sein; gibt es doch wenig Menschen, die ihr
Wesen und ihre Methoden in diesem Alter noch ändern können.
Aber für jeden jungen Kaufmann von, sagen wir unter vierzig, müßte
dieses Buch fast unschätzbar sein. Es wir d je d e n j u n g e n Ma n n
v o n gu te n A n la g e n in sta n d se tze n , mi n d e ste n s f ü n f
J a h r e se i n e s L e b e n s zu e r sp a r e n .
Brosch. Mk. 2.—, geb. Mk. 3.—

JOSEF SINGER VERLAG A.-G. LEIPZIG C1,


Industriepalast.
Anmerkungen zur Transkription
Offensichtliche Fehler wurden stillschweigend korrigiert. Der Schmutztitel wurde
entfernt.
Korrekturen:
S. 36: Im Buchtext wird »eine jährliche Pension von 400 Lire« angegeben. Es
ist zu vermuten, dass vom Autor 400 Pfund Sterling (£) gemeint waren.
S. 61: Johannisburg → Johannesburg
marschierte gegen Johannesburg
S. 74 - S. 85: Bei den zahlreichen Nennungen der Veröffentlichung wurde auf
die richtige Schreibweise »Ladies’ Home Journal« korrigiert.
S. 74: »Country Gentlemen« → »Country Gentleman«
S. 121 & 122: Endikott → Endicott
Finanzmann namens Endicott
aber Endicott war ein weiser Mann
die sie »Endicott« und
Gerade so wie Endicott
Endicott-Johnson-Gesellschaft
*** END OF THE PROJECT GUTENBERG EBOOK DIE
ERFOLGREICHEN ***

Updated editions will replace the previous one—the old editions


will be renamed.

Creating the works from print editions not protected by U.S.


copyright law means that no one owns a United States copyright
in these works, so the Foundation (and you!) can copy and
distribute it in the United States without permission and without
paying copyright royalties. Special rules, set forth in the General
Terms of Use part of this license, apply to copying and
distributing Project Gutenberg™ electronic works to protect the
PROJECT GUTENBERG™ concept and trademark. Project
Gutenberg is a registered trademark, and may not be used if
you charge for an eBook, except by following the terms of the
trademark license, including paying royalties for use of the
Project Gutenberg trademark. If you do not charge anything for
copies of this eBook, complying with the trademark license is
very easy. You may use this eBook for nearly any purpose such
as creation of derivative works, reports, performances and
research. Project Gutenberg eBooks may be modified and
printed and given away—you may do practically ANYTHING in
the United States with eBooks not protected by U.S. copyright
law. Redistribution is subject to the trademark license, especially
commercial redistribution.

START: FULL LICENSE


THE FULL PROJECT GUTENBERG LICENSE
PLEASE READ THIS BEFORE YOU DISTRIBUTE OR USE THIS WORK

To protect the Project Gutenberg™ mission of promoting the


free distribution of electronic works, by using or distributing this
work (or any other work associated in any way with the phrase
“Project Gutenberg”), you agree to comply with all the terms of
the Full Project Gutenberg™ License available with this file or
online at www.gutenberg.org/license.

Section 1. General Terms of Use and


Redistributing Project Gutenberg™
electronic works
1.A. By reading or using any part of this Project Gutenberg™
electronic work, you indicate that you have read, understand,
agree to and accept all the terms of this license and intellectual
property (trademark/copyright) agreement. If you do not agree to
abide by all the terms of this agreement, you must cease using
and return or destroy all copies of Project Gutenberg™
electronic works in your possession. If you paid a fee for
obtaining a copy of or access to a Project Gutenberg™
electronic work and you do not agree to be bound by the terms
of this agreement, you may obtain a refund from the person or
entity to whom you paid the fee as set forth in paragraph 1.E.8.

1.B. “Project Gutenberg” is a registered trademark. It may only


be used on or associated in any way with an electronic work by
people who agree to be bound by the terms of this agreement.
There are a few things that you can do with most Project
Gutenberg™ electronic works even without complying with the
full terms of this agreement. See paragraph 1.C below. There
are a lot of things you can do with Project Gutenberg™
electronic works if you follow the terms of this agreement and
help preserve free future access to Project Gutenberg™
electronic works. See paragraph 1.E below.
1.C. The Project Gutenberg Literary Archive Foundation (“the
Foundation” or PGLAF), owns a compilation copyright in the
collection of Project Gutenberg™ electronic works. Nearly all the
individual works in the collection are in the public domain in the
United States. If an individual work is unprotected by copyright
law in the United States and you are located in the United
States, we do not claim a right to prevent you from copying,
distributing, performing, displaying or creating derivative works
based on the work as long as all references to Project
Gutenberg are removed. Of course, we hope that you will
support the Project Gutenberg™ mission of promoting free
access to electronic works by freely sharing Project
Gutenberg™ works in compliance with the terms of this
agreement for keeping the Project Gutenberg™ name
associated with the work. You can easily comply with the terms
of this agreement by keeping this work in the same format with
its attached full Project Gutenberg™ License when you share it
without charge with others.

1.D. The copyright laws of the place where you are located also
govern what you can do with this work. Copyright laws in most
countries are in a constant state of change. If you are outside
the United States, check the laws of your country in addition to
the terms of this agreement before downloading, copying,
displaying, performing, distributing or creating derivative works
based on this work or any other Project Gutenberg™ work. The
Foundation makes no representations concerning the copyright
status of any work in any country other than the United States.

1.E. Unless you have removed all references to Project


Gutenberg:

1.E.1. The following sentence, with active links to, or other


immediate access to, the full Project Gutenberg™ License must
appear prominently whenever any copy of a Project
Gutenberg™ work (any work on which the phrase “Project
Gutenberg” appears, or with which the phrase “Project
Gutenberg” is associated) is accessed, displayed, performed,
viewed, copied or distributed:

This eBook is for the use of anyone anywhere in the United


States and most other parts of the world at no cost and with
almost no restrictions whatsoever. You may copy it, give it
away or re-use it under the terms of the Project Gutenberg
License included with this eBook or online at
www.gutenberg.org. If you are not located in the United
States, you will have to check the laws of the country where
you are located before using this eBook.

1.E.2. If an individual Project Gutenberg™ electronic work is


derived from texts not protected by U.S. copyright law (does not
contain a notice indicating that it is posted with permission of the
copyright holder), the work can be copied and distributed to
anyone in the United States without paying any fees or charges.
If you are redistributing or providing access to a work with the
phrase “Project Gutenberg” associated with or appearing on the
work, you must comply either with the requirements of
paragraphs 1.E.1 through 1.E.7 or obtain permission for the use
of the work and the Project Gutenberg™ trademark as set forth
in paragraphs 1.E.8 or 1.E.9.

1.E.3. If an individual Project Gutenberg™ electronic work is


posted with the permission of the copyright holder, your use and
distribution must comply with both paragraphs 1.E.1 through
1.E.7 and any additional terms imposed by the copyright holder.
Additional terms will be linked to the Project Gutenberg™
License for all works posted with the permission of the copyright
holder found at the beginning of this work.

1.E.4. Do not unlink or detach or remove the full Project


Gutenberg™ License terms from this work, or any files
containing a part of this work or any other work associated with
Project Gutenberg™.
1.E.5. Do not copy, display, perform, distribute or redistribute
this electronic work, or any part of this electronic work, without
prominently displaying the sentence set forth in paragraph 1.E.1
with active links or immediate access to the full terms of the
Project Gutenberg™ License.

1.E.6. You may convert to and distribute this work in any binary,
compressed, marked up, nonproprietary or proprietary form,
including any word processing or hypertext form. However, if
you provide access to or distribute copies of a Project
Gutenberg™ work in a format other than “Plain Vanilla ASCII” or
other format used in the official version posted on the official
Project Gutenberg™ website (www.gutenberg.org), you must, at
no additional cost, fee or expense to the user, provide a copy, a
means of exporting a copy, or a means of obtaining a copy upon
request, of the work in its original “Plain Vanilla ASCII” or other
form. Any alternate format must include the full Project
Gutenberg™ License as specified in paragraph 1.E.1.

1.E.7. Do not charge a fee for access to, viewing, displaying,


performing, copying or distributing any Project Gutenberg™
works unless you comply with paragraph 1.E.8 or 1.E.9.

1.E.8. You may charge a reasonable fee for copies of or


providing access to or distributing Project Gutenberg™
electronic works provided that:

• You pay a royalty fee of 20% of the gross profits you derive from
the use of Project Gutenberg™ works calculated using the
method you already use to calculate your applicable taxes. The
fee is owed to the owner of the Project Gutenberg™ trademark,
but he has agreed to donate royalties under this paragraph to
the Project Gutenberg Literary Archive Foundation. Royalty
payments must be paid within 60 days following each date on
which you prepare (or are legally required to prepare) your
periodic tax returns. Royalty payments should be clearly marked
as such and sent to the Project Gutenberg Literary Archive
Foundation at the address specified in Section 4, “Information
about donations to the Project Gutenberg Literary Archive
Foundation.”

• You provide a full refund of any money paid by a user who


notifies you in writing (or by e-mail) within 30 days of receipt that
s/he does not agree to the terms of the full Project Gutenberg™
License. You must require such a user to return or destroy all
copies of the works possessed in a physical medium and
discontinue all use of and all access to other copies of Project
Gutenberg™ works.

• You provide, in accordance with paragraph 1.F.3, a full refund of


any money paid for a work or a replacement copy, if a defect in
the electronic work is discovered and reported to you within 90
days of receipt of the work.

• You comply with all other terms of this agreement for free
distribution of Project Gutenberg™ works.

1.E.9. If you wish to charge a fee or distribute a Project


Gutenberg™ electronic work or group of works on different
terms than are set forth in this agreement, you must obtain
permission in writing from the Project Gutenberg Literary
Archive Foundation, the manager of the Project Gutenberg™
trademark. Contact the Foundation as set forth in Section 3
below.

1.F.

1.F.1. Project Gutenberg volunteers and employees expend


considerable effort to identify, do copyright research on,
transcribe and proofread works not protected by U.S. copyright
law in creating the Project Gutenberg™ collection. Despite
these efforts, Project Gutenberg™ electronic works, and the
medium on which they may be stored, may contain “Defects,”
such as, but not limited to, incomplete, inaccurate or corrupt
data, transcription errors, a copyright or other intellectual
property infringement, a defective or damaged disk or other
medium, a computer virus, or computer codes that damage or
cannot be read by your equipment.

1.F.2. LIMITED WARRANTY, DISCLAIMER OF DAMAGES -


Except for the “Right of Replacement or Refund” described in
paragraph 1.F.3, the Project Gutenberg Literary Archive
Foundation, the owner of the Project Gutenberg™ trademark,
and any other party distributing a Project Gutenberg™ electronic
work under this agreement, disclaim all liability to you for
damages, costs and expenses, including legal fees. YOU
AGREE THAT YOU HAVE NO REMEDIES FOR NEGLIGENCE,
STRICT LIABILITY, BREACH OF WARRANTY OR BREACH
OF CONTRACT EXCEPT THOSE PROVIDED IN PARAGRAPH
1.F.3. YOU AGREE THAT THE FOUNDATION, THE
TRADEMARK OWNER, AND ANY DISTRIBUTOR UNDER
THIS AGREEMENT WILL NOT BE LIABLE TO YOU FOR
ACTUAL, DIRECT, INDIRECT, CONSEQUENTIAL, PUNITIVE
OR INCIDENTAL DAMAGES EVEN IF YOU GIVE NOTICE OF
THE POSSIBILITY OF SUCH DAMAGE.

1.F.3. LIMITED RIGHT OF REPLACEMENT OR REFUND - If


you discover a defect in this electronic work within 90 days of
receiving it, you can receive a refund of the money (if any) you
paid for it by sending a written explanation to the person you
received the work from. If you received the work on a physical
medium, you must return the medium with your written
explanation. The person or entity that provided you with the
defective work may elect to provide a replacement copy in lieu
of a refund. If you received the work electronically, the person or
entity providing it to you may choose to give you a second
opportunity to receive the work electronically in lieu of a refund.
If the second copy is also defective, you may demand a refund
in writing without further opportunities to fix the problem.

1.F.4. Except for the limited right of replacement or refund set


forth in paragraph 1.F.3, this work is provided to you ‘AS-IS’,
WITH NO OTHER WARRANTIES OF ANY KIND, EXPRESS
OR IMPLIED, INCLUDING BUT NOT LIMITED TO
WARRANTIES OF MERCHANTABILITY OR FITNESS FOR
ANY PURPOSE.

1.F.5. Some states do not allow disclaimers of certain implied


warranties or the exclusion or limitation of certain types of
damages. If any disclaimer or limitation set forth in this
agreement violates the law of the state applicable to this
agreement, the agreement shall be interpreted to make the
maximum disclaimer or limitation permitted by the applicable
state law. The invalidity or unenforceability of any provision of
this agreement shall not void the remaining provisions.

1.F.6. INDEMNITY - You agree to indemnify and hold the


Foundation, the trademark owner, any agent or employee of the
Foundation, anyone providing copies of Project Gutenberg™
electronic works in accordance with this agreement, and any
volunteers associated with the production, promotion and
distribution of Project Gutenberg™ electronic works, harmless
from all liability, costs and expenses, including legal fees, that
arise directly or indirectly from any of the following which you do
or cause to occur: (a) distribution of this or any Project
Gutenberg™ work, (b) alteration, modification, or additions or
deletions to any Project Gutenberg™ work, and (c) any Defect
you cause.

Section 2. Information about the Mission of


Project Gutenberg™
Project Gutenberg™ is synonymous with the free distribution of
electronic works in formats readable by the widest variety of
computers including obsolete, old, middle-aged and new
computers. It exists because of the efforts of hundreds of
volunteers and donations from people in all walks of life.

Volunteers and financial support to provide volunteers with the


assistance they need are critical to reaching Project
Gutenberg™’s goals and ensuring that the Project Gutenberg™
collection will remain freely available for generations to come. In
2001, the Project Gutenberg Literary Archive Foundation was
created to provide a secure and permanent future for Project
Gutenberg™ and future generations. To learn more about the
Project Gutenberg Literary Archive Foundation and how your
efforts and donations can help, see Sections 3 and 4 and the
Foundation information page at www.gutenberg.org.

Section 3. Information about the Project


Gutenberg Literary Archive Foundation
The Project Gutenberg Literary Archive Foundation is a non-
profit 501(c)(3) educational corporation organized under the
laws of the state of Mississippi and granted tax exempt status by
the Internal Revenue Service. The Foundation’s EIN or federal
tax identification number is 64-6221541. Contributions to the
Project Gutenberg Literary Archive Foundation are tax
deductible to the full extent permitted by U.S. federal laws and
your state’s laws.

The Foundation’s business office is located at 809 North 1500


West, Salt Lake City, UT 84116, (801) 596-1887. Email contact
links and up to date contact information can be found at the
Foundation’s website and official page at
www.gutenberg.org/contact

Section 4. Information about Donations to


the Project Gutenberg Literary Archive
Foundation
Project Gutenberg™ depends upon and cannot survive without
widespread public support and donations to carry out its mission
of increasing the number of public domain and licensed works
that can be freely distributed in machine-readable form
accessible by the widest array of equipment including outdated
equipment. Many small donations ($1 to $5,000) are particularly
important to maintaining tax exempt status with the IRS.

The Foundation is committed to complying with the laws


regulating charities and charitable donations in all 50 states of
the United States. Compliance requirements are not uniform
and it takes a considerable effort, much paperwork and many
fees to meet and keep up with these requirements. We do not
solicit donations in locations where we have not received written
confirmation of compliance. To SEND DONATIONS or
determine the status of compliance for any particular state visit
www.gutenberg.org/donate.

While we cannot and do not solicit contributions from states


where we have not met the solicitation requirements, we know
of no prohibition against accepting unsolicited donations from
donors in such states who approach us with offers to donate.

International donations are gratefully accepted, but we cannot


make any statements concerning tax treatment of donations
received from outside the United States. U.S. laws alone swamp
our small staff.

Please check the Project Gutenberg web pages for current


donation methods and addresses. Donations are accepted in a
number of other ways including checks, online payments and
credit card donations. To donate, please visit:
www.gutenberg.org/donate.

Section 5. General Information About Project


Gutenberg™ electronic works
Professor Michael S. Hart was the originator of the Project
Gutenberg™ concept of a library of electronic works that could
be freely shared with anyone. For forty years, he produced and
distributed Project Gutenberg™ eBooks with only a loose
network of volunteer support.

Project Gutenberg™ eBooks are often created from several


printed editions, all of which are confirmed as not protected by
copyright in the U.S. unless a copyright notice is included. Thus,
we do not necessarily keep eBooks in compliance with any
particular paper edition.

Most people start at our website which has the main PG search
facility: www.gutenberg.org.

This website includes information about Project Gutenberg™,


including how to make donations to the Project Gutenberg
Literary Archive Foundation, how to help produce our new
eBooks, and how to subscribe to our email newsletter to hear
about new eBooks.

También podría gustarte