pattern-matching - para - patrones secuenciales mineria de datos
Diferencia entre algoritmos de minería de patrones secuenciales cerrados y abiertos (3)
Consulte este capítulo sobre Conjuntos de elementos frecuentes y conjuntos de elementos frecuentes Reglas de asociación y minería
Quiero usar algunos algoritmos para minar mis datos de registro.
Encontré un marco de minería de patrones en: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php
He intentado varios algoritmos, el algoritmo BIDE + realiza el mejor.
El algoritmo BIDE + es para extraer patrones secuenciales cerrados frecuentes de una base de datos de secuencias.
¿Puede alguien explicar la definición sobre patrones secuenciales "cerrados" y abiertos?
Google para "cerrado conjuntos de elementos frecuentes". Habrá muchas páginas explicando esto, al igual que cualquier libro de minería de datos (busque el algoritmo APRIORI).
"Cerrado" dice que no hay un conjunto de elementos más grande con el mismo soporte. Puede haber conjuntos de elementos más grandes, pero deben tener menor soporte.
Para la mayoría de los casos de uso, es suficiente con mirar solo los conjuntos de elementos cerrados o cerrados.
Me alegra que estés usando mi software SPMF .
El soporte de un patrón secuencial es el número de secuencias que contiene el patrón secuencial.
Un patrón secuencial frecuente es un patrón que aparece al menos en las secuencias "minsup" de una base de datos de secuencias, donde minsup es un parámetro establecido por el usuario.
Un patrón secuencial cerrado frecuente es un patrón secuencial frecuente tal que no está incluido en otro patrón secuencial que tenga exactamente el mismo soporte.
Algoritmos como PrefixSpan encuentran patrones secuenciales frecuentes. Algoritmos como BIDE + encuentran frecuentes patrones secuenciales cerrados. BIDE + suele ser mucho más rápido que PrefixSpan porque usa técnicas de poda para evitar generar todos los patrones secuenciales. Además, el conjunto de patrones cerrados suele ser mucho más pequeño que el conjunto de patrones secuenciales, por lo que BIDE + también es más eficiente en memoria.
Otra cosa importante que se debe saber es que los patrones secuenciales cerrados son una representación compacta y sin pérdidas de todos los patrones secuenciales. Esto significa que el conjunto de patrones secuenciales cerrados suele ser mucho más pequeño pero sin pérdidas, lo que significa que permite recuperar el conjunto completo de patrones secuenciales (sin pérdida de información), lo cual es muy conveniente.
Te puedo dar un ejemplo simple.
Consideremos 4 secuencias:
a b c d e
a b d
b e a
b c d e
Digamos que minsup = 2.
bc
es un patrón secuencial frecuente porque aparece en dos secuencias (tiene un soporte de 2). bc
no es un patrón secuencial cerrado porque está contenido en un patrón secuencial más grande bcd
tiene el mismo soporte.
bcd
tiene un soporte de 2. Tampoco es un patrón secuencial cerrado porque está contenido en un patrón secuencial más grande bcde
tiene el mismo soporte. bcde
es un patrón secuencial cerrado porque allí no se incluye en ningún otro patrón secuencial que tenga el mismo soporte.
Por cierto, también puede consultar mi encuesta sobre minería de patrones secuenciales . Da una buena introducción sobre este tema y los diferentes algoritmos.