Análisis semántico latente y SVD SVD

1. Aspectos teóricos

Denominado LSA (Latent Semantic Analysis) en inglés, el análisis semántico latente se basa en la creación de una matriz que incluye los valores de una función particular, calculada a partir de las ocurrencias de los diversos términos (palabras) presentes en los distintos documentos. LSA Latent Semantic Analysis

Los documentos pueden ser textos, correos electrónicos, tweets, publicaciones en blogs, currículos, etc.

Cada término considerado forma parte de una fila de esta matriz y cada columna de la matriz se corresponde con un documento.

En la intersección entre filas y columnas, se encuentra el resultado del cálculo de una función. Este resultado es tanto mayor cuanto mayor sea el número de apariciones del término en el documento y dicho término sea poco habitual en general. Los paquetes vienen con varias funciones comunes, pero su problema puede requerir que desarrolle las suyas propias. Una función como esta al menos siempre debería reflejar el hecho de que un término poco habitual es más significativo que un término común.

La función que mide la importancia de un término en un documento en función del corpus se llama TF-IDF (Term Frequency-Inverse Document Frequency). Se basa en la ley de Zipf, que se ocupa de la frecuencia de las palabras en un texto y cuya interpretación teórica apela a la noción...

Si desea saber más, le proponemos el siguiente libro:
couv_EPT3DASR.png
60-signet.svg
Versión impresa
20-ecran_lettre.svg
Versión online
41-logo_abonnement.svg
En ilimitado con la suscripción ENI
130-boutique.svg
En la tienda oficial de ENI
Anterior
Posicionamiento del problema
Siguiente
Introducción