Índice

Análisis semántico latente y SVDSVD

1. Aspectos teóricos

Llamado LSALSA (Latent Semantic Analysis) en inglés, el análisis semántico latente se basa en la construcción de una matriz que incluye los valores de una función particular calculada a partir de las ocurrencias de los distintos términos (palabras) presentes en los diferentes documentos. Latent Semantic Analysis

Los documentos pueden ser textos, correos electrónicos, tweets, artículos escritos en blogs, CV...

Cada término forma parte de una fila de esta matriz, y cada columna de la matriz se corresponde con un documento.

En la intersección de filas y columnas se encuentra el resultado del cálculo de una función. Este resultado es tanto mayor cuanto mayor sea el número de ocurrencias del término en el documento y si el término es extraño en general. Los paquetes se proporcionan con diversas funciones clásicas, aunque nuestro problema requerirá posiblemente refinar nuestra propia función. Dicha función siempre debe reflejar el hecho de que un término extraño es más significativo que un término corriente.

La función que mide habitualmente la importancia de un término en un documento en función del corpus se denomina TF-IDFTF-IDF (Term Frequency-Inverse Document Frequency). Se basa en la Ley:de Zipfley de Zipf, que trata de la frecuencia de las palabras en un texto y cuya interpretación teórica ...