Posicionamiento del problema Lenguaje natural

La importancia de las aplicaciones de text mining (minería de texto) no ha dejado de crecer de manera constante en los últimos años. El surgimiento de las redes sociales ha intensificado este fenómeno. La principal característica de los datos textuales, y que marcan la diferencia respecto a los datos semiestructurados (archivos XML o JSON) o estructurados (bases de datos), radica en que hay que buscar de forma no determinista dentro de cada elemento de datos. Text mining JSON

Los datos de texto se pueden procesar a diferentes niveles de profundidad:

  • Identificación de palabras que pertenecen a listas de palabras (bag of words). Bag of words

  • Identificación de cadenas de palabras (frases o expresiones).

  • Identificación de elementos semánticos (reconocimiento de palabras por su significado).

Otra característica típica de un texto es la baja proporción entre el número de palabras del texto y el número total de palabras posibles en un idioma o jerga. Esto crea estructuras de datos muy irregulares, especialmente cuando se intenta representar información en estructuras como las tablas (sparse matrix). Sparse matrix

En este capítulo vamos a centrar nuestra atención en un método potente, pero que puede resultar un poco disuasorio respecto a su formulación: el análisis semántico latente. Análisis:semántico latente

Hay muchas otras técnicas en el contexto NLP, algunas muy útiles...

Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Complementos metodológicos
Siguiente
Análisis semántico latente y SVD