example - tests in java

¿Existe un conjunto de archivos "Lorem ipsums" para probar problemas de codificación de caracteres? (4)

¿Qué hay de tratar de usar los archivos de la suite de pruebas de la ICU ? No sé si son lo que necesita para su prueba, pero al parecer tienen archivos de mapeo UTF bastante completos desde / hasta: Enlace al repositorio para los archivos de prueba de la ICU

Para el diseño tenemos nuestro famoso texto "Lorem ipsum" para probar cómo se ve.

Lo que busco es un conjunto de archivos que contenga texto codificado con varias codificaciones diferentes que pueda usar en mis pruebas JUnit para probar algunos métodos que se ocupan de la codificación de caracteres cuando se leen archivos de texto.

Ejemplo:

Tener un archivo de prueba codificado ISO 8859-1 y un archivo de prueba codificado Windows-1252 . El Windows-1252 tiene que desencadenar las diferencias en la región 80 ₁₆ - 9F ₁₆ . En otras palabras, debe contener al menos un carácter de esta región para distinguirlo de ISO 8859-1.

Quizás el mejor conjunto de archivos de prueba es aquel en el que el archivo de prueba para cada codificación contiene todos sus caracteres una vez. Pero tal vez no soy consciente de algo, a todos nos gusta esta codificación, ¿verdad? :-)

¿Existe un conjunto de archivos de prueba para problemas de codificación de caracteres?

Bueno, había usado una herramienta en línea para crear mis conjuntos de mensajes de texto de Lorem Ipsum. Creo que puede ayudarte. No tengo uno que tenga todos los diferentes conjuntos de caracteres en una sola página.

http://generator.lorem-ipsum.info /

El artículo de Wikipedia sobre diacritics es bastante completo, desafortunadamente debes extraer estos caracteres manualmente. También puede haber algunos mnemotécnicos para cada idioma. Por ejemplo, en polaco utilizamos:

Zażółć gęślą jaźń

que contiene los 9 diacríticos polacos en una oración correcta. Otra sugerencia de búsqueda útil son pangrams : oraciones con cada letra del alfabeto al menos una vez :

en español, " El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja " (todas las 27 letras y diacríticos).
en ruso, " Съешь же ещё этих мягких французских булок, да выпей чаю " (todas las 33 letras del alfabeto cirílico ruso).

La lista de pangramas contiene un resumen exhaustivo. Alguien quiere envolver esto de una manera simple:

public interface NationalCharacters { String spanish(); String russian(); //... }

¿biblioteca?

No conozco ningún documento de texto completo, pero si puede comenzar con una descripción general simple de todos los conjuntos de caracteres, hay algunos archivos disponibles en el servidor ftp.unicode.org

Aquí está WINDOWS-1252, por ejemplo. La primera columna es el valor de carácter hexadecimal, y el segundo el valor de Unicode.

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT