CORPES – Corpus del Español del Siglo XXI

El CORPES es un conjunto de textos que han sido marcados o etiquetados para que se puedan analizar y extraer de ellos datos lingüísticos de interés. Puede ser muy útil para investigadores y correctores. El objetivo de esta marcación es preparar los textos y facilitar la recuperación de información en un formato codificado en XML, siguiendo los estándares de la Text Encoding Initiative. El desarrollo de este sistema de codificación se basa en la experiencia de la Real Academia Española en la marcación de otros corpus, como el CREA y el CORDE. Se enfatiza que la etiquetación debe ser objetiva y no interpretativa, y su propósito principal es permitir el acceso a la información.

El CORPES busca ser un corpus de referencia que cumpla con los parámetros actuales de trabajo en esta área, con una distribución aproximada de 25 millones de formas por cada año del siglo XXI. Los textos incluidos en el CORPES se han seleccionado siguiendo varios criterios:

  • Medio: El 90 % de los textos pertenecen al lenguaje escrito y el 10 % al lenguaje oral.
  • Soporte: Los textos escritos provienen de libros (40 %), publicaciones periódicas (40 %), material de Internet (7,5 %) y otros (2,5 %).
  • Geográfico: La distribución general del CORPES asigna el 30 % del total a textos provenientes de España y el 70 % a textos provenientes de América. Estos últimos se clasifican según las áreas lingüísticas habituales. Además, el CORPES incluye textos de Guinea Ecuatorial y Filipinas.
  • Temático: Todos los textos siguen una clasificación temática común, lo que permite la búsqueda por temas específicos. Se divide en ficción y no ficción, con subcategorías dentro de cada categoría.
  • Tipos de texto: Los textos también se caracterizan por su tipo o género, como novela, relato, teatro, guion (ficción); noticias, reportajes, opinión, crónica, prosa académica, prosa no académica, entrevistas, conversaciones (no ficción). También se incluyen textos de blogs, publicaciones de Instagram, tuits, etc., provenientes de Internet.

La posibilidad de combinar todos esos criterios permite abarcar una amplia tipología textual, lo que les facilita a los investigadores la recuperación selectiva de la información en la consulta.

La Real Academia Española lanzó la versión 1.0 del Corpus del Español del Siglo XXI (CORPES) en mayo de 2023. Es importante tener en cuenta que esta versión es un recurso en construcción, por lo que puede presentar desequilibrios y desajustes, que se irán corrigiendo en futuras versiones. En la versión 1.0, se incluyeron más de 395 millones de formas. En comparación con la versión anterior (enero de 2023), esta nueva versión ha incorporado alrededor de 15 millones de formas adicionales.

Conocé más sobre esta herramienta en https://www.rae.es/corpes/.

Etiquetado , , .