information-retrieval - true - tf idf stop words

¿Por qué se utiliza el registro al calcular el peso de frecuencia de término y IDF, frecuencia de documentos inversa? (2)

La respuesta de Debasis es correcta. No estoy seguro de por qué se bajó el voto.

Aquí está la intuición: si el término frecuencia para la palabra ''computadora'' en doc1 es 10 y doc2 es 20, podemos decir que doc2 es más relevante que doc1 para la palabra ''computadora''.

Sin embargo, si el término frecuencia de la misma palabra, ''computadora'' para doc1 es 1 millón y doc2 es 2 millones, en este punto, ya no hay mucho más diferente en términos de relevante porque ambos contienen una cuenta muy alta para el término '' computadora''.

Al igual que la respuesta de Debasis, agregar log es atenuar la importancia del término que tiene una alta frecuencia, por ejemplo, al usar log base 2, ¡la cuenta de 1 millón se reducirá a 19.9!

También agregamos 1 al registro (tf) porque cuando tf es igual a 1, el registro (1) es cero. al agregar uno, distinguimos entre tf = 0 y tf = 1.

¡Espero que esto ayude!

La fórmula para IDF es log (N / df t) en lugar de solo N / df t.

Donde N = total de documentos en la colección, y df t = frecuencia del documento t.

Se dice que el registro se usa porque "amortigua" el efecto de las FDI. ¿Qué significa esto?

Además, ¿por qué utilizamos el pesaje de frecuencia de registro para la frecuencia de término como se ve aquí:

No es necesariamente el caso que más la ocurrencia de un término en un documento sea más relevante ... la contribución del término frecuencia a la relevancia del documento es esencialmente una función sub-lineal ... por lo tanto, el registro para aproximarse a este sub-lineal función...

lo mismo es aplicable para idf también ... una función idf lineal puede aumentar demasiado las puntuaciones de los documentos con términos idf altos (que pueden ser términos poco comunes debido a errores ortográficos) ... una función sublineal funciona mucho mejor ...