Corpus de Aprendices de Español como Lengua Extranjera

 

  • El Instituto Cervantes prepara el Corpus de Aprendices de Español como Lengua Extranjera (CAES)
  • El proyecto, cuya segunda fase concluirá en diciembre de 2013, recoge miles de muestras de estudiantes de ELE de todo el mundo
  • Será una herramienta de gran alcance para investigaciones aplicadas a la enseñanza del español

 

El Instituto Cervantes trabaja en la elaboración del Corpus de aprendices de español como lengua extranjera (CAES), cuyo objetivo es construir un Corpus de muestras de lengua —principalmente escritas, pero también orales— producidas por estudiantes de español con diferente grado de dominio lingüístico (niveles A1 a C1 del Marco común europeo de referencia) y procedentes de seis lenguas de origen: inglés, francés, portugués, árabe, chino y ruso.

El proyecto puesto en marcha por el Instituto Cervantes se desarrolla en colaboración con la Universidad de Santiago de Compostela bajo la dirección técnica de los profesores Guillermo Rojo e Ignacio Palacios.

La necesidad de disponer de un sistema eficaz para el procesamiento del material lingüístico proveniente de producciones de aprendices de español como lengua extranjera (ELE) obedece a la importancia de dar fundamento empírico a la investigación aplicada que se desarrolla desde hace años en la definición de niveles de referencia o estándares de producciones lingüísticas, así como a la realizada en otros ámbitos de su enseñanza y aprendizaje.

Con esta iniciativa, el Instituto Cervantes ofrecerá una herramienta de gran alcance y de acceso libre a los profesionales del campo de ELE y de L2 que quieran llevar a cabo investigaciones aplicadas sobre la base de criterios sólidos y objetivos. Esas investigaciones tendrán como punto de partida datos reales que están siendo sido recogidos, compilados y tratados informáticamente para este fin.

El proyecto CAES arrancó en el curso académico 2011-2012 y está previsto que la fase actual concluya el próximo mes de diciembre. El Corpus contendrá entonces en torno a un millón de formas.

Primera fase del CAES

En la primera fase del CAES, que se prolongó a lo largo del pasado curso académico, se realizó la recogida sistemática de muestras de lengua escrita organizadas por niveles —A1 a C1— mediante un sistema en línea, vía web, diseñado específicamente para el proyecto. En esa primera etapa se consideraron cuatro lenguas de origen: inglés, francés, portugués y árabe.

Los textos han sido codificados en formato XML y se han asociado a formularios con una serie de datos de los aprendices: nivel de competencia, lengua de origen, edad, sexo, país de procedencia, etc. Esto permitirá, en el proceso posterior de recuperación de la información, que las formas contenidas en los textos se muestren de forma selectiva según los diferentes parámetros de datos de los estudiantes incluidos en los formularios.

En el proceso de recogida de muestras, que fue previamente experimentado con un número reducido de personas, participaron estudiantes de 34 centros del Instituto Cervantes repartidos por 14 países de los cinco continentes: Argelia, Australia, Bélgica, Brasil, Egipto, Estados Unidos, Francia, Jordania, Líbano, Marruecos, Portugal, Reino Unido, Siria y Túnez.

También colaboraron en la recogida de muestras la Universidad de Alcalá de Henares, la Universidad de Salamanca, la Universidad de Santiago de Compostela y la Universidad de Vigo.

Segunda fase del CAES

A finales de 2012 comenzó la segunda fase del proyecto, que durará hasta diciembre de 2013. En ella se recogen más muestras y se incorporan dos nuevas lenguas de origen de los aprendices: chino y ruso.

De este modo, a los 34 centros del Instituto Cervantes que participaron en la primera fase se suman ahora los centros del Instituto en China y en Rusia. Continúa, asimismo, la colaboración con las cuatro universidades que participaron en la primera fase. Además, se incorporan ahora al proceso de recogida de muestras, entre otras, la Universidade do Minho (Portugal), la University of Washington State (Estados Unidos), la University de Manchester (Reino Unido) y varias universidades españolas, como la Universidad de León.

Durante esta segunda fase se desarrollará un sistema integrado de codificación, lematización y anotación morfosintáctica de los textos recogidos. Todo ello permitirá recuperar la información de forma selectiva y realizar distintas consultas de datos del Corpus por todos los parámetros de los datos de los aprendices (nivel, país, sexo, edad, L1, etc.), por forma ortográfica, lema, categoría gramatical, así como los cruces correspondientes entre todos estos parámetros.

El proyecto contempla también la transcripción de una pequeña muestra de producciones orales de aprendices de ELE. Gracias a ello se incorporarán al Corpus textos y sonidos alineados, de modo que se podrá obtener el sonido correspondiente a partir de la búsqueda por texto.


© Instituto Cervantes (España), 1991-2014. Reservados todos los derechos. Aviso legal
Alcalá, 49. 28014 Madrid. Tel.: (+34) 91 436 76 00. Libreros, 23. 28801 Alcalá de Henares (Madrid). Tel.: (+34) 91 436 75 70
informa@cervantes.es