validos - utf 8 unicode with bom text

Muy bueno, mal ejemplo de prueba UTF-8 de datos (5)

Así que tenemos la hoja de trucos XSS para probar nuestro filtrado XSS, pero aparte de una página benigna de ejemplo, no puedo encontrar ningún dato de prueba malvado o malformado para asegurarme de que mi código UTF-8 pueda manejar los datos erróneos.

¿Dónde puedo encontrar algunos buenos ... malos datos para probar? ¿O qué es una secuencia complicada de caracteres?

Consulte también ¿Cómo sabe un archivo con caracteres chinos cuántos bytes usar por carácter? - sin duda, hay otras preguntas SO que también podrían ayudar.

En UTF-8, obtienes los siguientes tipos de bytes:

Binary Hex Comments 0xxxxxxx 0x00..0x7F Only byte of a 1-byte character encoding 10xxxxxx 0x80..0xBF Continuation bytes (1-3 continuation bytes) 110xxxxx 0xC0..0xDF First byte of a 2-byte character encoding 1110xxxx 0xE0..0xEF First byte of a 3-byte character encoding 11110xxx 0xF0..0xF4 First byte of a 4-byte character encoding

(La última línea parece que debería leer 0xF0..0xF7; sin embargo, el rango de 21 bits de Unicode (U + 0000 - U + 10FFFF) significa que el valor máximo válido es 0xF4; los valores 0xF5..0xF7 no pueden ocurrir en UTF-8 válido.)

Ver si una secuencia particular de bytes es válida UTF-8 significa que necesita pensar:

Los bytes de continuación aparecen donde no se espera
Los bytes de no continuación que aparecen donde se espera un byte de continuación
Caracteres incompletos al final de la cadena (variación del ''byte de continuación esperado'')
Secuencias no mínimas
Sustitutos UTF-16

En UTF-8 válido, los bytes 0xF5..0xFF no pueden ocurrir.

Secuencias no mínimas

Hay múltiples representaciones posibles para algunos personajes. Por ejemplo, el carácter Unicode U + 0000 (ASCII NUL) podría representarse por:

0x00 0xC0 0x80 0xE0 0x80 0x80 0xF0 0x80 0x80 0x80

Sin embargo, el estándar Unicode establece claramente que las últimas tres alternativas no son aceptables porque no son mínimas. Ocurre que los bytes 0xC0 y 0xC1 nunca pueden aparecer en UTF-8 válido porque los únicos caracteres que podrían codificarse están codificados mínimamente como caracteres de un solo byte en el rango 0x00..0x7F.

Sustitutos UTF-16

Dentro del Plano Bilingüe Básico (BMP), los valores Unicode U + D800 - U + DFFF están reservados para los sustitutos UTF-16 y no pueden aparecer codificados en UTF-8 válido. Si fueran válidos en UTF-8 (que, enfatizo, no lo son), entonces los sustitutos serían codificados:

U + D800 - 0xED 0xA0 0x80 (sustituto alto más pequeño)
U + DBFF - 0xED 0xAF 0xBF (sustituto alto más grande)
U + DC00 - 0xED 0xB0 0x80 (sustituto bajo más pequeño)
U + DFFF - 0xED 0xBF 0xBF (sustituto bajo más grande)

Malos datos

Por lo tanto, sus datos MALOS deberían contener muestras que violen estas diversas prescripciones.

Byte de continuación no precedido por uno de los valores de bytes iniciales
Bytes iniciales de varios caracteres no seguidos de suficientes bytes de continuación
Caracteres multibyte no mínimos
Sustitutos UTF-16
Bytes inválidos (0xC0, 0xC1, 0xF5..0xFF).

Tenga en cuenta que una marca de orden de bytes (BOM) U + FEFF, también conocida como espacio de no separación de ancho cero (ZWNBSP), no puede aparecer sin codificar en UTF-8; los bytes 0xFF y 0xFE no están permitidos en UTF-8 válido. Un ZWNBSP codificado puede aparecer en un archivo UTF-8 como 0xEF 0xBB 0xBF, pero la lista de materiales es completamente superflua en UTF-8.

También hay algunos noncharacters en Unicode. U + FFFE y U + FFFF son dos de estos caracteres (y los dos últimos puntos de código en cada plano, U + 1FFFE, U + 1FFFF, U + 2FFFE, U + 2FFFF, ... U + 10FFFE, U + 10FFFF son otros ) Normalmente, estos no deberían aparecer en los datos Unicode para el intercambio de datos, pero pueden aparecer en uso privado. Consulte el enlace de Preguntas frecuentes de Unicode para obtener muchos detalles sórdidos, incluido el historial bastante complejo de caracteres distintos en Unicode. ( Corrigendum n. ° 9: Clarification About Noncharacters , que se publicó en enero de 2013, hace lo que sugiere su título: aclara el significado de los caracteres distintos).

La parte superior de mi cabeza:

0xff y 0xfe

Bytes individuales de alto bit

Representación de varios bytes de caracteres de bajo byte: una buena forma de contrabando de nulos después de verificaciones anticipadas

Marcas de orden de bytes: ¿vas a ignorarlas?

NFC vs. NFD

Puede utilizar esta práctica herramienta en línea de Jeffrey Bergamini para convertir cualquier texto en una cadena UTF8 Homoglyphs realmente cableada.

Un típico

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.

ser así:

ḼơᶉḼơᶉᶆᶆᶙṁᶙṁᶙṁᶙṁᶙṁĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒĉṓɲṩḙċťᶒ்

Vea la prueba de esfuerzo del decodificador UTF-8 de Markus Kuhn

El artículo UTF-8 de Wikipedia tiene un buen resumen de qué secuencias de bytes son válidas / inválidas. Otro artículo que vale la pena leer es W3C I18N FAQ: Formularios multilingües .