verdad vas varon una test tener saber rechaza prueba por para niño niña nena manos las juegos juego hijos estas embarazada ecografia cuantos como cadenita cadena bebe string file-io nlp

string - vas - ¿Hay software de código abierto disponible que analiza una cadena y adivina el sexo del autor?



saber si es niño o niña por las manos (10)

No puedo encontrar nada más que aplicaciones web de código cerrado. ¿Hay algún proyecto activo? Me interesaría usar el software en algo que estoy desarrollando e involucrándome.


Aquí hay otro sitio web que dice hacer esto: GenderAnalyzer . Sin embargo, se basa en otro sitio web llamado uClassify.com que está caído mientras escribo esto. Tienen un enlace de contacto en la parte inferior para preguntas.

Suena como un atuendo académico: "En nuestro laboratorio parece funcionar bastante bien".


Dado que está asumiendo dos categorías, casi cualquier clasificador probablemente lo hará bien. Algunas sugerencias:

  • Naive bayes
  • máquinas de vectores de soporte

Como dijo un comentador anterior, a partir de una muestra de texto conocida (y debería haber suficientes ... corpúsculos de periódicos podría ser bueno), entrene y clasifique, en algunos atributos razonables (tal vez presencia / ausencia o palabras o pares de palabras).

Este debería ser (comparativamente) fácil.

Si está usando Python, incluso algo tan simple como el Natural Language Toolkit (cf: nltk.org) y su libro deberían ayudarlo mucho.


Existe un conjunto completo de analizadores de dos clases que se podrían adaptar aquí ... software de bloqueo e identificación de spam . Todavía requiere que el usuario obtenga texto escrito por hombres (tratado como correo no deseado) y texto femenino (tratado como jamón o al revés), pero muchos deberían funcionar.


Existen algunas implementaciones de código abierto de indexación / análisis semántico latente. Si tiene un buen conjunto de escritura masculina y femenina relevante para su aplicación, podría clasificar con la precisión suficiente como para ser útil.


Hay aplicaciones como "The Gender Genie" que operan dentro de un grado razonable de éxito: http://bookblog.net/gender/genie.php (y particularmente con textos más largos)

No necesita ser completamente exitoso. Tendría que lidiar con una gran cantidad de datos, y es principalmente solo por diversión.

Si alguien sabe algo, por favor comparte.

Ricardo


Hay una sección sobre esto en el libro de Stephen Baker, The Numerati . Hay empresas dedicadas a analizar computacionalmente la blogósfera con fines de marketing, y parte de sus algoritmos se ocupan de decidir si el autor es hombre o mujer. Sugiero leer esto.

No creo que ningún trabajo como este sea de código abierto, pero usted mismo puede construir una versión comprimida. Sin embargo, antes de analizar MUCHOS datos para programar esto, no creo que sea muy preciso.


Oye, esto probablemente podría hacerse. Tendría que tomar un montón de libros de autores masculinos y femeninos, sacar oraciones, mezclarlos y alimentarlos a algún tipo de red neuronal para el entrenamiento. Para ser sincero, me interesaría ver si alguien lo hace. Ah, y solo tengo curiosidad por qué uno necesitaría tal programa :)



Te encontrarás con un problema: las suposiciones serán solo eso, conjeturas. No existe una manera remotamente precisa de distinguir el sexo de un autor estrictamente de lo que escriben, lo máximo que obtendrás es una mala estimación.


nlpers bloggeó sobre esto hace algunos años; ver los comentarios allí para algunas sugerencias ...