Instituto de Investigaciones Lingüísticas

Recursos en la web

Difusión Lingüística

TítuloDescripciónEnlace
Humans Who Read GrammarsBlog dedicado a la variedad y la descripción de más de 7000 lenguas del mundohttp://humans-who-read-grammars.blogspot.com/
GeLaToGenomes and Languages Together Base de datos lingüísticos vinculados con datos genómicoshttps://gelato.clld.org/

Recursos Técnicos

Anotación de Corpus

TítuloDescripciónEnlace
Phonological CorpusToolsHerramienta especializada en el manejo de corpus fonológicos. Tiene dos interfaces: una gráfica y otra de línea de comando.http://phonologicalcorpustools.github.io/CorpusTools/
UAM CorpusToolHerramienta para la anotación de corpus textuales.http://www.corpustool.com/
MMAX2Herramienta flexible de anotación de corpus, especialmente apta para anotar relaciones a nivel de discurso.http://mmax2.net/index.html

 

Estadística y Manejo de Datos

TítuloDescripciónEnlace
RLenguaje de análisis estadístico y visualización de datos.http://www.r-project.org/
WekaSoftware en Java para clasificación (regresiones, SVM, etc.).https://www.cs.waikato.ac.nz/ml/weka/

Fonética y Fonología

TítuloDescripciónEnlace
Praat Software de análisis fonético.http://www.fon.hum.uva.nl/praat/
Phonological CorpusToolsHerramienta especializada en el manejo de corpus fonológicos. Tiene dos interfaces: una gráfica y otra de línea de comando.http://phonologicalcorpustools.github.io/CorpusTools/
TypeItTeclado para símbolos fonéticos.http://ipa.typeit.org/
PHOIBLE 2.0Repositorio lingüístico de datos fonológicos extraídos de fuentes documentales y bases de datos terciarias.https://phoible.org/

Herramientas de Procesamiento de Lenguaje Natural

TítuloDescripciónEnlace
Etiquetador morfológico bribriParser morfológico para la lengua bribri. http://morphology.bribri.net/
NLTK - Natural Language Processing ToolkitLibrería de Python con gran variedad de herramientas de procesamiento de texto, como parsers, tokenizadores, etc. Incluye interfaces a herramientas como Wordnet y diferentes corpora.http://www.nltk.org/
Stanford CoreNLPToolkit con herramientas del state-of-the-art en parsing, resolución de correferencias, PoS-tagging, entre muchas otras.especialmente apta para anotar relaciones a nivel de discurso.https://stanfordnlp.github.io/CoreNLP/
GensimLibrería de python para vectorización (word2vec, etc.) y análisis semántico.https://radimrehurek.com/gensim/
PytorchLibrería de python para deep learning. https://pytorch.org/
AntConcParser para el análisis de concordancias y textoshttps://www.laurenceanthony.net/software/antconc/
Sketch EngineParser para el análisis de palabras en un corpushttps://www.sketchengine.eu/
LinguakitHerramienta empleada para análisis lingüístico y textualhttps://linguakit.com/es/analisis-completo

Herramientas de la Biblioteca Virtual Miguel de Cervantes

TítuloDescripción Enlace
Análisis de investigadores en el portal de Teatro clásico españolEsta herramienta permite la visualización y análisis de los investigadores en autores de teatro clásico español. https://data.cervantesvirtual.com/investigadores-teatro-clasico-espanol
Analizador de versos Herramienta que realiza el escaneo automatizado de poesía española con la librería Rantanplan basada en SpaCy y desarrollada por LINDH.https://data.cervantesvirtual.com/versos
Analizador morfológico Parser morfosintáctico para el español que utiliza la librería de Stanford CoreNLP para realizar el análisis de forma automática.https://data.cervantesvirtual.com/analizador
Buscador de datos enlazados (FRBR-RDA)Herramienta para consultar los autores y obras del repositorio de datos enlazados. https://data.cervantesvirtual.com/search-form
Buscador diacrónico Este corpus contiene 86 obras de la Biblioteca Virtual Miguel de Cervantes, publicadas entre 1482 y 1627, cubriendo una gran variedad de autores y géneros. https://data.cervantesvirtual.com/diasearch
Buscador geográfico El buscador geográficos de obras permite obtener localizaciones geográficas por su nombre, consultando diferentes fuentes (DBpedia y GeoNames) conforme a los criterios seleccionados.https://data.cervantesvirtual.com/geosearch
Corpus de sonetos del Siglo de Oro Corpus conformado por los sonetos escritos en castellano entre los siglos XVI y XVII del catálogo de obras de la Biblioteca Virtual Miguel de Cervantes https://data.cervantesvirtual.com/goldenage
Editor de consultas SPARQL Catálogo realizado con el lenguaje de búsqueda SPARQL. https://data.cervantesvirtual.com/sparql
Generador de resúmenes Herramienta que permite introducir un texto y obtener un resumen. https://data.cervantesvirtual.com/generador-resumenes

Visualización de Árboles Sintácticos

TítuloDescripciónEnlace
phpSyntaxTreeVisualizador de árboles sintácticos.http://ironcreek.net/phpsyntaxtree/

Visualización de Corpus

TítuloDescripciónEnlace
Annotation of Information Structure (ANNIS)Visualizador de corpora que puede ser utilizado localmente o alojarse en un servidor. http://corpus-tools.org/annis/documentation.html
NoSketch EngineSoftware libre de manejo de corpus.https://nlp.fi.muni.cz/trac/noske
WoPossHerramienta para visualizaciones gráficas de significados, conceptos y funciones (en su evolución diacrónica), utilizando un corpus latino del período del s. III a.C. al s. VII d.C.https://woposs.unine.ch/pygmalion.php

Corpus y bases de datos

TítuloDescripciónEnlace
Corpus LAELE NebrijaCompilación de corpus personalizables para el estudio de fenómenos lingüísticoshttps://www.corpusnebrija.proyectoemilia.es/corpus/
CODESCorpus especializado en el estudio de la descortesía afiliativa en distintos medios de comunicación.https://codescorpus.wordpress.com/
OccOr-esCorpus diacrónico que reúne textos redactados o publicados en lengua española entre 1850 y 1939 sobre temas relacionados con Asia oriental.https://dh.dlls.univr.it/corpora/occores/
DIACOM-esCorpus diacrónico especializado que reúne textos de ámbito comercial (temporal, geográfico y funcional), en lengua española.https://dh.dlls.univr.it/corpora/diacomes/
Glottolog 5.1Base de datos referencial e informativa sobre las lenguas alrededor del mundo, especializado en las menos conocidas.https://glottolog.org/
APiCS OnlineBase de datos provista de 130 rasgos gramaticales y léxicos de 76 lenguas "pidgin" y criollas alrededor del mundo.https://apics-online.info/
AILLARepositorio trilingüe [inglés, español, portugués] de grabaciones, textos y otros materiales multimedias referente a las lenguas indígenes latinoamericanas.https://ailla.utexas.org/

Clasificación y tipología de lenguas

TítuloDescripción Enlace
EthnologueCatálogo en línea de referencia y tipología lingüística para el estudio de las lenguas alrededor del mundo.https://www.ethnologue.com/
WALSBase de datos para el estudio de propiedades estructurales de diversas lenguas, recopiladas a partir de fuentes descriptivas.https://wals.info/

Instituto de Investigaciones Lingüísticas