machine learning - ¿Cómo derivar las características KDD99 del archivo pcap DARPA?

machine-learning intrusion-detection (1)

Recientemente trabajé con los paquetes de tráfico de red DARPA y su versión derivada se usó en KDD99 para la evaluación de detección de intrusos.

Disculpe mi conocimiento de dominio limitado en redes de computadoras, solo pude derivar 9 características de los encabezados de paquetes DARPA. y No las 41 funciones utilizadas en KDD99.

Tengo la intención de continuar mi trabajo en el Conjunto de Datos de Evaluación de Detección de Intrusos ISB de UNB. Sin embargo, quiero derivar de los archivos pcap las 41 características utilizadas en el KDD99 y guardarlas en formato CSV. ¿Hay una forma rápida / fácil de lograr esto?

como ya se hizo anteriormente para el KDD99, ¿hay una biblioteca o convertidor que pueda hacer esto por mí? si no, ¿hay alguna guía sobre cómo derivar estas características de un archivo pcap?

Tenga cuidado con este conjunto de datos.

http://www.kdnuggets.com/news/2007/n18/4i.html

Algunos extractos:

los datos artificiales se generaron usando una red cerrada, algunos generadores de tráfico de red propietarios y ataques inyectados a mano
Entre los problemas planteados, el más importante parecía ser que no se realizaba ninguna validación para demostrar que el conjunto de datos de DARPA realmente se parecía al tráfico de red real.
En 2003, Mahoney y Chan construyeron un sistema de detección de intrusos trivial y lo ejecutaron contra los datos de tcpdump de DARPA. Encontraron numerosas irregularidades, incluyendo eso, debido a la forma en que se generaron los datos, todos los paquetes maliciosos tenían un TTL de 126 o 253, mientras que casi todos los paquetes benignos tenían un TTL de 127 o 254.
el conjunto de datos DARPA (y, por extensión, el conjunto de datos de la Copa KDD ''99) se rompió fundamentalmente, y no se pudo sacar ninguna conclusión de ningún experimento realizado al usarlos
Recomendamos encarecidamente que (1) todos los investigadores dejen de utilizar el conjunto de datos de la Copa KDD ''99

En cuanto a la extracción de características utilizada. IIRC la mayoría de las características simplemente eran atributos de los encabezados IP / TCP / UDP analizados . Tales como, número de puerto, último octeto de IP y algunos indicadores de paquetes.

Como tal, estos hallazgos ya no reflejan los ataques realistas de todos modos. Las pilas de TCP / IP de hoy en día son mucho más robustas que en el momento en que se creó el conjunto de datos, donde un "ping de la muerte" bloquearía instantáneamente un host de Windows. Cada desarrollador de una pila de TCP / IP debería estar al tanto del riesgo de tales paquetes mal formados y probar la tensión contra tales cosas.

Con esto, estas características se han vuelto casi sin sentido . Configurar incorrectamente los indicadores SYN, etc. ya no se usan en los ataques de red; estos son mucho más sofisticados; y lo más probable es que ya no ataque la pila TCP / IP, sino los servicios que se ejecutan en la siguiente capa. Así que no me molestaría averiguar qué banderas de paquete de bajo nivel se usaron en esa simulación defectuosa del 99 usando ataques que funcionaron a principios de los 90 ...