machine learning - tipos - selección de características en el método de envoltura y filtrado de información?
tipos de filtracion (2)
How many features will be selected by mutual information filtering?
La selección de características de información mutua evalúa la candidatura de cada característica de forma independiente . Dado que hay esencialmente 100 características que son realmente informativas, terminaremos con 100 características mediante el filtrado de información mutua.
How many features will be selected by a wrapper method?
Un método de envoltura evalúa un subconjunto de características, por lo que tiene en cuenta las interacciones entre las características. Como 50 características son copias directas de las otras 50 características, el método de envoltura es capaz de descubrir que, condicionada a las primeras 50 características, el segundo conjunto de 50 características no agrega ninguna información adicional . Terminamos con 50 características después del filtrado. Supongamos que el primer conjunto de 50 características son A1, A2, ..., A50
y la copia de las 50 características son C1, C2, ..., C50
. El resultado final de las funciones seleccionadas podría ser similar a:
A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.
Por lo tanto, cada característica única debe tener solo una ocurrencia (ya sea desde el conjunto de características de A
o desde el conjunto de características de C
).
Veo un ejemplo en el examen de mitad de camino de la persona conocida Tom Mitchell
, de la siguiente manera:
Considere aprender un clasificador en una situación con 1000 funciones en total. 50 de ellos son realmente informativos sobre la clase. Otras 50 características son copias directas de las primeras 50 características. Las características finales de 900 no son informativas. Supongamos que hay suficientes datos para evaluar de manera confiable cómo son las características útiles, y los métodos de selección de características están utilizando buenos umbrales.
How many features will be selected by mutual information filtering?
Solución: 100
How many features will be selected by a wrapper method?
solución: 50
Mi desafío es cómo se logra esta solución? Lo intento mucho, pero no puedo entender la idea detrás de esto.
¿Cuántas características se seleccionarán mediante el filtrado de información mutua?
Si seguimos la descripción de la pregunta, solo deberíamos tener 50 características seleccionadas. Pero este filtrado se basa en la correlación con la variable para predecir. Y, también uno de los principales inconvenientes del filtro de información mutua es que tienden a seleccionar variables redundantes porque no consideran las relaciones entre las variables.
¿Cuántas características serán seleccionadas por un método de envoltura?
Considérelo como un enfoque de búsqueda heurística del espacio de todos los subconjuntos de características posibles. Por definición, "Un método de envoltura evalúa un subconjunto de características, así toma en cuenta las interacciones entre las características".
Ejemplo: Hill Climbing, es decir, sigue agregando características de a una por vez hasta que no se pueda lograr más mejora.
Como tenemos 50 funciones que tienen la mayor cantidad de información, otras 50 son una copia de la anterior y la característica 900 es o no tiene uso. Por lo tanto, obtenemos solo 50 características.