compression - Analizando archivo empaquetado de formato desconocido, ¿cómo continuar?
reverse-engineering decompression (1)
Estoy interesado en profundizar en el firmware de mi mesa de mezclas Behringer X32, así que descargué el archivo real de ( http://www.behringerdownload.de/X32/X32_Firmware_2.10.zip ) e inicié IDA pro. El archivo .update contenido contenido en el interior comienza con algún tipo de marca de tiempo y la siguiente cadena de caracteres se parece bastante a una lista de directorios, asumo que esos son los archivos que de alguna manera se concatenaron en el archivo de actualización del firmware. Por ejemplo, hay la cadena
seg000:00005480: logo/X32RACK.bmp
pero como no hay una estructura similar a un mapa de bits, asumo que se trata de datos comprimidos. ¿Cómo puedo continuar desde aquí? ¿Hay una manera de interpretar diversos formatos de archivo empaquetados y / o concatenados adivinando y tratando / error del formato?
O, mejor aún, ¿alguien conoce a un empaquetador que usa este tipo de estructura que se encuentra aquí?
64 bytes c-string
24 bytes zero, probably reserved
DWORD with some index, increasing thru the file but not always +1
DWORD of files Size
32 bytes additional data
Lo que he descubierto hasta ahora:
00000000 db ''"2.10 23db64e4672e (Thu, 20 Nov 2014 14:50:29 +0100) (clean)"'',0,0,0; UpdateID
00000000 dd 6 dup(0) ; reserved
00000000 dd 181 ; NumberOfContainedFiles
00000000 dd 12380 ; SomeUnknownValue
00000000 dd 44B026A4h, 0BA3708DBh, 4DD38F6Eh, 0F7C30159h, 31D6B225h; Data
00000000 dd 0DAA98CD6h, 26BF22F1h, 0BD9644B1h; Data
00000080 db ''binary/cheditC_C.bin'', 45 dup(0); fileName
00000080 dd 6 dup(0) ; reserved
00000080 dd 46 ; someValue
00000080 dd 4704 ; fileSize
00000080 dd 0DF3241E4h, 89FA54F6h, 12151762h; Data
00000080 dd 5D8FCCCAh, 19A58A36h, 0C47912D5h; Data
00000080 dd 0A629BC65h, 0C8706863h; Data
00000100 db ''binary/cheditP_P.bin'', 45 dup(0); fileName
00000100 dd 6 dup(0) ; reserved
00000100 dd 56 ; someValue
00000100 dd 4896 ; fileSize
00000100 dd 7567F90Fh, 94027A93h, 131CEDFCh; Data
00000100 dd 6D712A26h, 8CD5722Bh, 35D860h; Data
00000100 dd 3BF0E937h, 8BDAFFE2h; Data
00000180 db ''binary/cheditR_R.bin'', 45 dup(0); fileName
00000180 dd 6 dup(0) ; reserved
00000180 dd 66 ; someValue
00000180 dd 5024 ; fileSize
00000180 dd 97B9D746h, 6FF72013h, 6FC5761Bh; Data
00000180 dd 333181A9h, 0EF312D82h, 0CD39570Bh; Data
00000180 dd 0DE1D71F7h, 4B6047DAh; Data
(... datos similares ...)
00005A80 db ''styles/ablesque.rsrc.z'', 42 dup(0); fileName
00005A80 dd 6 dup(0) ; reserved
00005A80 dd 7111 ; someValue
00005A80 dd 2697635 ; fileSize
00005A80 dd 2B368721h, 929F40Eh, 0DE923A1Bh; Data
00005A80 dd 152F06D2h, 86D758BBh, 0B73DC55h; Data
00005A80 dd 0F418E36Ah, 0D03D2C4Ah; Data
Luego sigue los datos comprimidos.
Este pequeño programa ayuda a analizarlo:
struct descriptor
{
char zName[64]; // filename or update name
UINT32 reserved[6]; // unused
UINT32 lIndex; // kind of index?
// size of file, in update:
// datastart + chunksize / chunk_block_size
// = file_size in blocks á 512 bytes
UINT32 lFileSize;
// unknown but shared between some files
// it seems to be infact a 128-bit structure, as
// those data records sharing the first sig have the
// 2nd sig also equal.
UINT64 signature[2];
// unknown but probably also a "UINT128"
// for some records, sig and data are completely the same
UINT64 data[2];
};
int _tmain(int argc, _TCHAR* argv[])
{
descriptor dsc;
if (argc < 2)
{
printf("ERROR: missing filename.");
return 0;
}
std::ifstream fin;
fin.open(argv[1], std::ios::binary);
if (fin.fail()) {
printf("ERROR: cannot open file/n%S", argv[1]);
return 0;
}
fin.read((char*)&dsc, 128);
printf("firmware update version/n%s/n", dsc.zName);
int iFiles = dsc.lIndex;
long lSize = 0;
printf("containing %d files./n/n", iFiles);
printf("index/t size/tname/t/n");
printf("------------------------------------------------/n");
while (iFiles-->0)
{
fin.read((char*)&dsc, 128);
if (fin.fail())
{
printf("ERROR: read-error/n");
return 0;
}
printf("%5d/t%8d/t%s/n", dsc.lIndex, dsc.lFileSize, dsc.zName);
lSize += dsc.lFileSize;
}
fin.close();
printf("------------------------------------------------/n");
printf("%8d bytes in total.", lSize);
return 0;
}
Encontré alguna forma de continuar, aunque no lograra descifrar los datos, ahora estoy menos seguro de que tiene que estar cifrado / comprimido, porque tiene una entropía muy alta.
Escribí una herramienta que crea cuatro mapas de bits a partir de los archivos de bloques de datos. Analicé el archivo en palabras y en bytes, contando todas las apariciones de ciertos bytes / palabras y obtuve esos dos histogramas, el más pequeño es Σ (b) = h (x + y * 16) y el más grande es Σ (w) = h (x + y * 256). Esas son las firmas histográficas:
El byte más frecuente es 0x62 (Σ = 25136), el menor es 0x33 (Σ = 24176), la palabra que aparece más es 0x80b7 (Σ = 81) y el menor es 0x77a5 (Σ = 22).
Los otros dos archivos son la histografía de los datos, que son demasiado grandes para publicarlos aquí, pero no tienen ninguna estructura visible en ellos.