utf8_encode utf8 htmlentities html_entity_decode ejemplo array aacute php utf-8 ascii iconv transliteration

htmlentities - utf8_encode array php



Transcriba cualquier char convertible utf8 en equivalente ascii (5)

¿Hay alguna buena solución que haga esta transliteración de una buena manera?

He intentado usar iconv() , pero es muy molesto y no se comporta como uno podría esperar.

  • Usando //TRANSLIT intentará reemplazar lo que pueda, dejando todo no convertible como "?"
  • Usando //IGNORE no saldrá "?" en texto, pero tampoco se transliterará y también aumentará E_NOTICE cuando se encuentre un carácter no convertible, por lo que debe usar iconv con @supresor de error
  • Usar //IGNORE//TRANSLIT (como algunas personas sugirieron en el foro de PHP) es realmente igual a //IGNORE (lo probé en las versiones de PHP 5.3.2 y 5.3.13)
  • También usar //TRANSLIT//IGNORE es lo mismo que //TRANSLIT

También utiliza la configuración regional actual para transcribir.

ADVERTENCIA: ¡muchos textos y códigos están siguiendo!

Aquí hay unos ejemplos:

$text = ''Regular ascii text + čćžšđ + äöüß + éĕěėëȩ + æø€ + $ + ¶ + @''; echo ''<br />original: '' . $text; echo ''<br />regular: '' . iconv("UTF-8", "ASCII//TRANSLIT", $text); //> regular: Regular ascii text + ????? + ???ss + ?????? + ae?EUR + $ + ? + @ setlocale(LC_ALL, ''en_GB''); echo ''<br />en_GB: '' . iconv("UTF-8", "ASCII//TRANSLIT", $text); //> en_GB: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @ setlocale(LC_ALL, ''en_GB.UTF8''); // will this work? echo ''<br />en_GB.UTF8: '' . iconv("UTF-8", "ASCII//TRANSLIT", $text); //> en_GB.UTF8: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

Ok, eso sí convirtió č ć ĕ ĕ

// now specific locales setlocale(LC_ALL, ''hr_Hr''); // this should fix croatian đ, right? echo ''<br />hr_Hr: '' . iconv("UTF-8", "ASCII//TRANSLIT", $text); // wrong > hr_Hr: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @ setlocale(LC_ALL, ''sv_SE''); // so this will fix swedish ø? echo ''<br />sv_SE: '' . iconv("UTF-8", "ASCII//TRANSLIT", $text); // will not > sv_SE: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @ //this is interesting setlocale(LC_ALL, ''de_DE''); echo ''<br />de_DE: '' . iconv("UTF-8", "ASCII//TRANSLIT", $text); //> de_DE: Regular ascii text + cczs? + aeoeuess + eeeeee + ae?EUR + $ + ? + @ // actually this is what any german would expect since ä ö ü really is same as ae oe ue

Probemos con //IGNORE :

echo ''<br />ignore: '' . iconv("UTF-8", "ASCII//IGNORE", $text); //> ignore: Regular ascii text + + + + + $ + + @ //+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 49" // with translit? echo ''<br />ignore/translit: '' . iconv("UTF-8", "ASCII//IGNORE//TRANSLIT", $text); //same as ignore only> ignore/translit: Regular ascii text + + + + + $ + + @ //+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 54" // translit/ignore? echo ''<br />translit/ignore: '' . iconv("UTF-8", "ASCII//TRANSLIT//IGNORE", $text); //same as translit only> translit/ignore: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @

Usar la solución de este tipo tampoco funciona como se desea: Regular ascii text + YYYYY + aous + eYYYeY + aoY + $ + + @

Incluso el uso de la clase PICL intl Normalizer (que no está disponible siempre aunque tenga PHP> 5.3.0, ya que ICU package intl uses puede no estar disponible para PHP, es decir, en ciertos servidores de alojamiento) produce resultados incorrectos:

echo ''<br />normalize: '' .preg_replace(''//p{Mn}/u'', '''', Normalizer::normalize($text, Normalizer::FORM_KD)); //>normalize: Regular ascii text + cczsđ + aouß + eeeeee + æø€ + $ + ¶ + @

Entonces, ¿hay alguna otra forma de hacer esto bien o la única cosa adecuada para hacer es hacer preg_replace() o str_replace() y definir tablas de transliteración usted mismo?

// appendix: He encontrado en el debate wiki de ZF de 2008 sobre la propuesta de Zend_Filter_Transliterate, pero el proyecto fue descartado ya que en algunos idiomas no es posible convertirlo (es decir, chino), pero para cualquier idioma latino y cirílico esta opción es IMO debería existir


Desde este sitio web , encontré algo que podría ayudarte:

function removeAccents($str) { $a = array(''À'', ''Á'', ''Â'', ''Ã'', ''Ä'', ''Å'', ''Æ'', ''Ç'', ''È'', ''É'', ''Ê'', ''Ë'', ''Ì'', ''Í'', ''Î'', ''Ï'', ''Ð'', ''Ñ'', ''Ò'', ''Ó'', ''Ô'', ''Õ'', ''Ö'', ''Ø'', ''Ù'', ''Ú'', ''Û'', ''Ü'', ''Ý'', ''ß'', ''à'', ''á'', ''â'', ''ã'', ''ä'', ''å'', ''æ'', ''ç'', ''è'', ''é'', ''ê'', ''ë'', ''ì'', ''í'', ''î'', ''ï'', ''ñ'', ''ò'', ''ó'', ''ô'', ''õ'', ''ö'', ''ø'', ''ù'', ''ú'', ''û'', ''ü'', ''ý'', ''ÿ'', ''Ā'', ''ā'', ''Ă'', ''ă'', ''Ą'', ''ą'', ''Ć'', ''ć'', ''Ĉ'', ''ĉ'', ''Ċ'', ''ċ'', ''Č'', ''č'', ''Ď'', ''ď'', ''Đ'', ''đ'', ''Ē'', ''ē'', ''Ĕ'', ''ĕ'', ''Ė'', ''ė'', ''Ę'', ''ę'', ''Ě'', ''ě'', ''Ĝ'', ''ĝ'', ''Ğ'', ''ğ'', ''Ġ'', ''ġ'', ''Ģ'', ''ģ'', ''Ĥ'', ''ĥ'', ''Ħ'', ''ħ'', ''Ĩ'', ''ĩ'', ''Ī'', ''ī'', ''Ĭ'', ''ĭ'', ''Į'', ''į'', ''İ'', ''ı'', ''IJ'', ''ij'', ''Ĵ'', ''ĵ'', ''Ķ'', ''ķ'', ''Ĺ'', ''ĺ'', ''Ļ'', ''ļ'', ''Ľ'', ''ľ'', ''Ŀ'', ''ŀ'', ''Ł'', ''ł'', ''Ń'', ''ń'', ''Ņ'', ''ņ'', ''Ň'', ''ň'', ''ʼn'', ''Ō'', ''ō'', ''Ŏ'', ''ŏ'', ''Ő'', ''ő'', ''Œ'', ''œ'', ''Ŕ'', ''ŕ'', ''Ŗ'', ''ŗ'', ''Ř'', ''ř'', ''Ś'', ''ś'', ''Ŝ'', ''ŝ'', ''Ş'', ''ş'', ''Š'', ''š'', ''Ţ'', ''ţ'', ''Ť'', ''ť'', ''Ŧ'', ''ŧ'', ''Ũ'', ''ũ'', ''Ū'', ''ū'', ''Ŭ'', ''ŭ'', ''Ů'', ''ů'', ''Ű'', ''ű'', ''Ų'', ''ų'', ''Ŵ'', ''ŵ'', ''Ŷ'', ''ŷ'', ''Ÿ'', ''Ź'', ''ź'', ''Ż'', ''ż'', ''Ž'', ''ž'', ''ſ'', ''ƒ'', ''Ơ'', ''ơ'', ''Ư'', ''ư'', ''Ǎ'', ''ǎ'', ''Ǐ'', ''ǐ'', ''Ǒ'', ''ǒ'', ''Ǔ'', ''ǔ'', ''Ǖ'', ''ǖ'', ''Ǘ'', ''ǘ'', ''Ǚ'', ''ǚ'', ''Ǜ'', ''ǜ'', ''Ǻ'', ''ǻ'', ''Ǽ'', ''ǽ'', ''Ǿ'', ''ǿ''); $b = array(''A'', ''A'', ''A'', ''A'', ''A'', ''A'', ''AE'', ''C'', ''E'', ''E'', ''E'', ''E'', ''I'', ''I'', ''I'', ''I'', ''D'', ''N'', ''O'', ''O'', ''O'', ''O'', ''O'', ''O'', ''U'', ''U'', ''U'', ''U'', ''Y'', ''s'', ''a'', ''a'', ''a'', ''a'', ''a'', ''a'', ''ae'', ''c'', ''e'', ''e'', ''e'', ''e'', ''i'', ''i'', ''i'', ''i'', ''n'', ''o'', ''o'', ''o'', ''o'', ''o'', ''o'', ''u'', ''u'', ''u'', ''u'', ''y'', ''y'', ''A'', ''a'', ''A'', ''a'', ''A'', ''a'', ''C'', ''c'', ''C'', ''c'', ''C'', ''c'', ''C'', ''c'', ''D'', ''d'', ''D'', ''d'', ''E'', ''e'', ''E'', ''e'', ''E'', ''e'', ''E'', ''e'', ''E'', ''e'', ''G'', ''g'', ''G'', ''g'', ''G'', ''g'', ''G'', ''g'', ''H'', ''h'', ''H'', ''h'', ''I'', ''i'', ''I'', ''i'', ''I'', ''i'', ''I'', ''i'', ''I'', ''i'', ''IJ'', ''ij'', ''J'', ''j'', ''K'', ''k'', ''L'', ''l'', ''L'', ''l'', ''L'', ''l'', ''L'', ''l'', ''l'', ''l'', ''N'', ''n'', ''N'', ''n'', ''N'', ''n'', ''n'', ''O'', ''o'', ''O'', ''o'', ''O'', ''o'', ''OE'', ''oe'', ''R'', ''r'', ''R'', ''r'', ''R'', ''r'', ''S'', ''s'', ''S'', ''s'', ''S'', ''s'', ''S'', ''s'', ''T'', ''t'', ''T'', ''t'', ''T'', ''t'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''W'', ''w'', ''Y'', ''y'', ''Y'', ''Z'', ''z'', ''Z'', ''z'', ''Z'', ''z'', ''s'', ''f'', ''O'', ''o'', ''U'', ''u'', ''A'', ''a'', ''I'', ''i'', ''O'', ''o'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''U'', ''u'', ''A'', ''a'', ''AE'', ''ae'', ''O'', ''o''); return str_replace($a, $b, $str); }

Ejemplo de uso:

$text = ''Regular ascii text + čćžšđ + äöüß + éĕěėëȩ + æø€ + $ + ¶ + @''; echo removeAccents($text);

Muestra:

Regular ascii text + cczsd + aous + eeeeeȩ + aeo€ + $ + ¶ + @

Necesitarás mejorarlo, pero entiendes la idea ... Si hay una manera directa de hacer ese trabajo, no lo sé.


Como ninguna de las soluciones anteriores funcionó para mí (necesitaba transcribir muchos juegos de caracteres europeos en ASCII), finalmente encontré este viejo paquete PECL que parecía funcionar http://derickrethans.nl/projects.html#translit . Tuve problemas especialmente con los juegos de caracteres cirílicos, y esto parece manejarlos perfectamente.


Si lo he entendido correctamente, es posible que tenga una respuesta para usted: he escrito una clase PHP básica que le permite convertir la mayoría de los caracteres en sus equivalentes ASCII.

A continuación se muestra una captura de pantalla de su salida convirtiendo varios nombres de compositores con acentos en su nombre.

Puede bifurcarlo desde github aquí https://github.com/LukeMadhanga/transliterator .

NB: Todavía no está documentado, pero debería ser fácil de entender.



Creo que establecer el lugar correcto es el camino a seguir. Tenga en cuenta que la configuración regional específica también debe estar disponible en el sistema, verifíquela utilizando la locale -a . Si solo tiene de_DE.utf8 , también debe usar set_locale ( de_DE.utf8 )