algorithm - traducir - trustnav safesearch que es
¿Cómo reconoce Google el contenido para adultos con safesearch? (4)
Apuesto a que es muy complicado.
Tal vez con el texto filtran páginas con más de n
o n%
palabras relacionadas con adultos.
Y con las imágenes, tal vez miren el nombre del archivo y el texto que lo rodea en cada página, y lo filtren si está lleno de palabras adultas. También podrían estar escaneando las imágenes en busca de tonos de piel y personas desnudas.
Estoy creando un motor de búsqueda (para estudiar) y quiero saber cómo Google reconoce el contenido y las imágenes para adultos con Safesearch ( http://en.wikipedia.org/wiki/Safesearch ).
El lenguaje del programa no importa, solo quiero saber el enfoque para un lenguaje de programa genérico.
La respuesta de Ben es correcta acerca de todos los puntos, pero me gustaría agregar mis consideraciones.
Acerca del reconocimiento de imágenes: te resultará bastante fácil, dado un gran conjunto de imágenes, identificar objetos como pechos desnudos, penes y otros dentro de ellos utilizando el reconocimiento de patrones.
Todos los algoritmos de inteligencia artificial, sin embargo, tienen puntos débiles. Es posible que experimente que un determinado porcentaje de sus imágenes, según la calidad del clasificador utilizado, está mal clasificado.
Luego , debe aplicar otros criterios más que el procesamiento de imágenes. Seguramente los criterios de Google no son públicos, pero le gustaría considerar las etiquetas ICRA para marcar de forma voluntaria cierto material como material para adultos, procesamiento de texto y enlaces entre dominios . Si yo fuera el creador de Safesearch, habría adoptado el siguiente patrón: los sitios para adultos a menudo intercambian enlaces, por lo que encontrarás muchas intersecciones en los gráficos de enlaces entre un grupo de sitios para adultos.
Poniendo todo junto, un buen enfoque de clasificación utiliza varios criterios más pequeños , anotándolos para determinar si una imagen es una imagen adulta o no.
Posiblemente de forma similar a cómo se filtra el spam.
El primer paso es crear un conjunto de capacitación, basado en sitios adultos conocidos, y extraer características de ellos. Estas podrían ser palabras clave, colores utilizados en imágenes, estructura de nombre de dominio, detalles de whois, lo que sea. Cualquier cosa que de alguna manera podría ser específicamente diferente para contenido adulto en comparación con contenido no adulto.
El siguiente paso es aplicar algún tipo de modelo estadístico a eso. Los modelos Bayesianos parecen funcionar bien para el correo no deseado, pero puede que no para cosas de adultos.
Las máquinas de vectores de soporte parecen una buena opción, pero eso es mucho más complejo y no estoy realmente familiarizado con él.
Si las reglas para cualquier tipo de filtro de contenido caen en manos de personas que intentan obtener ese contenido a través del filtro, el filtro se volverá ineficaz.
Así que me imagino que las reglas de Google (1) no están disponibles públicamente y (2) cambian con frecuencia.
Dicho esto, comenzando con una pequeña lista negra de sitios para adultos y siguiendo los enlaces salientes (y / o la búsqueda de sitios con enlaces a los sitios de la lista negra) probablemente encuentre una gran cantidad de sitios para adultos. Pero de ninguna manera todo, también querrás algún tipo de procesamiento de texto y algoritmos de reconocimiento de imágenes.
NOTA: Una teoría popular es que los proveedores de contenido para adultos pagan a las personas para que hagan preguntas en .com, de modo que Jon Skeet y Marc Gravell tendrán menos tiempo para actualizar los filtros de SafeSearch. Sin embargo, se muestra fácilmente que Jon y Marc responden preguntas a un ritmo tan elevado que cualquier estrategia de ese tipo no sería económicamente viable.