Índice

Definición del problema Lenguaje natural

La importancia de las aplicaciones de text mining no ha dejado de aumentar en estos últimos años. La emergencia de las redes sociales ha intensificado este fenómeno. La principal característica de los datos textuales, y que los diferencia de los datos semiestructurados (archivos XMLXML o JSONJSON) o estructurados (bases de datos), reside en la necesidad de tener que inspeccionar de forma no determinista dentro de cada ítem de datos. Text mining

Los datos textuales pueden tratarse a diversos niveles de profundidad:

  • Identificación de palabras que pertenecen a listas de palabras (bag of words). bag of words

  • Identificación de cadenas de palabras (frases o expresiones).

  • Identificación de elementos semánticos (reconocer palabras en función de su significado).

Otra de las características, típica de un texto, reside en la débil proporción que existe entre el número de palabras de un texto y el número total de palabras posibles. Esto crea estructuras de datos muy dispersas, en particular cuando se trata de representar la información como una estructura en forma de tabla (sparse matrix). Sparse matrix

En este capítulo, vamos a centrar nuestra atención en un método potente, pero que puede resultar algo disuasivo en cuanto a su formulación: el análisis semántico latente. Análisis semántico latente

Existen bastantes otras técnicas en el contexto NLPNLP muchas ...