Análisis semántico latente y SVD SVD
1. Aspectos teóricos
Denominado LSA (Latent Semantic Analysis) en inglés, el análisis semántico latente se basa en la creación de una matriz que incluye los valores de una función particular, calculada a partir de las ocurrencias de los diversos términos (palabras) presentes en los distintos documentos. LSA Latent Semantic Analysis
Los documentos pueden ser textos, correos electrónicos, tweets, publicaciones en blogs, currículos, etc.
Cada término considerado forma parte de una fila de esta matriz y cada columna de la matriz se corresponde con un documento.
En la intersección entre filas y columnas, se encuentra el resultado del cálculo de una función. Este resultado es tanto mayor cuanto mayor sea el número de apariciones del término en el documento y dicho término sea poco habitual en general. Los paquetes vienen con varias funciones comunes, pero su problema puede requerir que desarrolle las suyas propias. Una función como esta al menos siempre debería reflejar el hecho de que un término poco habitual es más significativo que un término común.
La función que mide la importancia de un término en un documento en función del corpus se llama TF-IDF (Term Frequency-Inverse Document Frequency). Se basa en la ley de Zipf, que se ocupa de la frecuencia de las palabras en un texto y cuya interpretación teórica apela a la noción...