una - substring php

Detectar lenguaje de cadena en PHP (15)

En PHP, ¿hay alguna forma de detectar el lenguaje de una cadena? Supongamos que la cadena está en formato UTF-8.

Como Google Translate API se está cerrando como un servicio gratuito, puedes probar esta alternativa gratuita, que es un reemplazo para Google Translate API:

http://detectlanguage.com

El paquete Text_LanguageDetect pear produjo resultados terribles: "apartamentos de lujo en el centro" se detecta como portugués ...

Google API sigue siendo la mejor solución, dan 300 $ de crédito gratis y advierten antes de cobrarle nada

A continuación se muestra una función muy simple que utiliza file_get_contents para descargar la lang detectada por la API, por lo que no es necesario descargar o instalar bibliotecas, etc.

function guess_lang($str) { $str = str_replace(" ", "%20", $str); $content = file_get_contents("https://translation.googleapis.com/language/translate/v2/detect?key=YOUR_API_KEY&q=".$str); $lang = (json_decode($content, true)); if(isset($lang)) return $lang["data"]["detections"][0][0]["language"]; }

Ejecutar:

echo guess_lang("luxury apartments downtown montreal"); // returns "en"

Puede obtener su clave de API de Google Translate aquí: https://console.cloud.google.com/apis/library/translate.googleapis.com/

Este es un ejemplo simple de frases cortas para que empieces. Para aplicaciones más complejas, querrás restringir tu clave API y usar la biblioteca obviamente.

Intenté con la biblioteca Text_LanguageDetect y los resultados que obtuve no fueron muy buenos (por ejemplo, el texto "prueba" se identificó como estonio y no como inglés).

Puedo recomendarle que pruebe la API de traducción de Yandex, que es GRATUITA para 1 millón de caracteres por 24 horas y hasta 10 millones de caracteres por mes. Es compatible (de acuerdo con la documentación) en más de 60 idiomas.

<?php function identifyLanguage($text) { $baseUrl = "https://translate.yandex.net/api/v1.5/tr.json/detect?key=YOUR_API_KEY"; $url = $baseUrl . "&text=" . urlencode($text); $ch = curl_init($url); curl_setopt($ch, CURLOPT_CAINFO, YOUR_CERT_PEM_FILE_LOCATION); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, TRUE); curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); $output = curl_exec($ch); if ($output) { $outputJson = json_decode($output); if ($outputJson->code == 200) { if (strlen($outputJson->lang) > 0) { return $outputJson->lang; } } } return "unknown"; } function translateText($text, $targetLang) { $baseUrl = "https://translate.yandex.net/api/v1.5/tr.json/translate?key=YOUR_API_KEY"; $url = $baseUrl . "&text=" . urlencode($text) . "&lang=" . urlencode($targetLang); $ch = curl_init($url); curl_setopt($ch, CURLOPT_CAINFO, YOUR_CERT_PEM_FILE_LOCATION); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, TRUE); curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); $output = curl_exec($ch); if ($output) { $outputJson = json_decode($output); if ($outputJson->code == 200) { if (count($outputJson->text) > 0 && strlen($outputJson->text[0]) > 0) { return $outputJson->text[0]; } } } return $text; } header("content-type: text/html; charset=UTF-8"); echo identifyLanguage("エクスペリエンス"); echo " "; echo translateText("エクスペリエンス", "en"); echo " "; echo translateText("エクスペリエンス", "es"); echo " "; echo translateText("エクスペリエンス", "zh"); echo " "; echo translateText("エクスペリエンス", "he"); echo " "; echo translateText("エクスペリエンス", "ja"); echo " "; ?>

Intenta usar codificación ascii. Yo uso ese código para determinar ru / en languages en mi proyecto bot social

No puedes detectar el idioma del tipo de personaje. Y no hay formas infalibles para hacer esto.

Con cualquier método, solo estás haciendo una conjetura educada. Hay disponibles algunos articles relacionados con matemáticas por ahí

Podría implementar un módulo de Apache Tika con Java, insertar los resultados en un archivo txt, un DB, etc. y luego leer desde el archivo, db, lo que sea con php. Si no tiene tanto contenido, puede usar la API de Google, aunque tenga en cuenta que sus llamadas serán limitadas y que solo puede enviar un número restringido de caracteres a la API. En el momento de escribir esto, había terminado de probar la versión 1 (que resultó no ser tan precisa) y la versión 2 de los laboratorios (la abandoné después de leer que hay un límite de 100.000 caracteres por día) de la API.

Podrías hacer esto completamente del lado del cliente con ~~la API de lenguaje AJAX de Google~~ (ahora desaparecida).

Con la API de idioma de AJAX, puede traducir y detectar el idioma de bloques de texto dentro de una página web utilizando solo Javascript. Además, puede habilitar la transliteración en cualquier campo de texto o área de texto en su página web. Por ejemplo, si estuvieras transliterando al hindi, esta API les permitirá a los usuarios escribir fonéticamente las palabras en hindi utilizando el inglés y hacer que aparezcan en el guión hindi.

Puedes detectar automáticamente el lenguaje de una cuerda

var text = "¿Dónde está el baño?"; google.language.detect(text, function(result) { if (!result.error) { var language = ''unknown''; for (l in google.language.Languages) { if (google.language.Languages[l] == result.language) { language = l; break; } } var container = document.getElementById("detection"); container.innerHTML = text + " is: " + language + ""; } });

Y traducir cualquier cadena escrita en uno de los ~~idiomas admitidos~~ (también difunto)

google.language.translate("Hello world", "en", "es", function(result) { if (!result.error) { var container = document.getElementById("translation"); container.innerHTML = result.translation; } });

Probablemente pueda usar Google Translate API para detectar el idioma y traducirlo si es necesario.

Puede ver cómo detectar el lenguaje de una cadena en php usando el paquete Text_LanguageDetect Pear o descargando para usarlo por separado como una biblioteca php normal.

Sé que esta es una publicación anterior, pero esto es lo que desarrollé después de no encontrar ninguna solución viable.

otras sugerencias son demasiado pesadas y demasiado engorrosas para mi situación
Admitir un número finito de idiomas en mi sitio web (en este momento dos : ''en'' y ''de'' - pero la solución se generaliza para obtener más información).
Necesito una suposición plausible sobre el lenguaje de una cadena generada por el usuario, y tengo una alternativa (la configuración de idioma del usuario).
Así que quiero una solución con un mínimo de falsos positivos , pero no me importan tanto los falsos negativos .

La solución usa las 20 palabras más comunes en un idioma, cuenta las ocurrencias de aquellos en el pajar. Luego solo compara los recuentos del primer y segundo idioma más contados. Si el número de segundo lugar es inferior al 10% del ganador, el ganador se lo lleva todo.

Código: ¡cualquier sugerencia para mejorar la velocidad es más que bienvenida!

Tal vez envíe la cadena a este adivinador de lenguaje:

http://www.xrce.xerox.com/competencies/content-analysis/tools/guesser

Tomaría documentos de varios idiomas y los compararía contra Unicode. A continuación, puede utilizar un razonamiento bayesiano para determinar qué idioma es el solo con los caracteres Unicode utilizados. Esto separaría el francés del inglés o ruso.

No estoy seguro exactamente de qué otra cosa se podría hacer, excepto buscar las palabras en los diccionarios de idiomas para determinar el idioma (utilizando un enfoque probabilístico similar).

Un enfoque podría ser dividir la cadena de entrada en palabras y luego buscar esas palabras en un diccionario de inglés para ver cuántas de ellas están presentes. Este enfoque tiene algunas limitaciones:

los nombres propios pueden no ser manejados bien
los errores de ortografía pueden interrumpir sus búsquedas
abreviaturas como "lol" o "b4" no necesariamente estarán en el diccionario

Utilicé el paquete Text_LanguageDetect pear con algunos resultados razonables. Es muy fácil de usar y tiene una base de datos de 52 idiomas modesta. La desventaja es que no hay detección de idiomas asiáticos orientales.

require_once ''Text/LanguageDetect.php''; $l = new Text_LanguageDetect(); $result = $l->detect($text, 4); if (PEAR::isError($result)) { echo $result->getMessage(); } else { print_r($result); }

resultados en:

Array ( [german] => 0.407037037037 [dutch] => 0.288065843621 [english] => 0.283333333333 [danish] => 0.234526748971 )

puede usar la API del servicio Lnag ID http://langid.net/identify-language-from-api.html