text - style - img html title
Lista cruda de nombres de personas (7)
Necesito tener una larga lista de nombres de personas ("Robert", "Jeniffer", "Andrew", etc.)
¿Cuánto tiempo? 100 estará bien, pero miles serían mejores.
Me gustaría que fuera en bruto, no en una página web HTML o algo así, así que puedo importarlo fácilmente a mi código.
La Oficina del Censo de EE. UU. Tiene tres listas generadas a partir de un censo de 1990:
- dist.all.last [2MB; 88799 entradas]
- dist.female.first [146k; 4275 entradas]
- dist.male.first [41k; 1219 entradas]
(Estos tienen los mismos conteos que de otra respuesta que enlaza a deron.meranda.us)
Citando el enlace de arriba:
Cada uno de los tres archivos, (dist.all.last), (dist. Male.first) y (dist female.first) contienen cuatro elementos de datos. Los cuatro elementos son:
Frecuencia "Nombre" en porcentaje Frecuencia acumulada en porcentaje Clasificación En el archivo (dist.all.last) aparece una entrada como:
MOORE 0.312 5.312 9
En nuestra muestra del área de búsqueda, MOORE ocupa el noveno lugar en términos de frecuencia. El 5.312 por ciento de la población de la muestra está cubierto por MOORE y los 8 nombres que aparecen con más frecuencia que MOORE. El apellido, MOORE, está poseído por 0.312 por ciento de nuestra muestra de población.
Buscando en Google, parece que estos datos se han refinado aún más en una sola lista de 5163 entradas ( enlace 1 , enlace 2 ), en el formato :
<namestyle> <first/last indicator> <name>
Código Namestyle:
- MF: utilizado como hombre o mujer
- MO: utilizado solo como masculino
- FO: utilizado solo como femenino
Primer / último indicador:
- LY: usado como apellido
- LN: no se usa como apellido
P.ej:
MF LY AARON FO LY ABBEY FO LN ABBIE FO LY ABBY
ACTUALIZACIÓN 1 : Poco tema de la publicación original, pero puede ser útil para que otros lo encuentren. Si buscas algo más complicado (no solo los nombres de las personas, sino el género de muchos nombres y frases), puedes mirar el corpus creado por Shane Bergsma y Dekang Lin. Los datos están disponibles como un único archivo gzip de la tarea compartida CoNLL .
ACTUALIZACIÓN 2 : www.census.gov reestructuró su sitio web, así que actualicé los enlaces para reflejar las nuevas ubicaciones de los archivos.
ACTUALIZACIÓN 3 : www.census.gov también tiene una encuesta de 2000 para los apellidos que ocurren 100 o más veces, que contiene un total de 151,671 nombres ( enlace directo a zip ).
Muchas listas de palabras en esta página , incluidas varias listas de nombres.
Verifique mis conjuntos de datos de nombre que he hecho para la investigación de PNL. Todos los nombres han sido extraídos de fuentes públicas. http://mbejda.github.io Son todos formatos CSV.
(Descargo de responsabilidad: los hice).
el directorio Z de Vettrasoft como parte de su conjunto de datos geo-topo incluye una tabla de "primeros nombres" que tiene el nombre, cualquier forma abreviada o ortografía alternativa (por ejemplo, Angela / Angie, Daniel - Dan - Danny), el sexo (M / F / B /?; B es ambos y? Significa desconocido). La tabla tiene 12.779 entradas y, como archivo, está en formato .unl (| -campos separados). Junto con los nombres, el conjunto de datos incluye aeropuertos (8,200 entradas), códigos de área, países, códigos postales (también conocidos como zip), estados, zonas horarias y mucho más. Los datos se presentan como un paquete integrado junto con la biblioteca oo que tiene subrutinas que acceden a estos datos. En el caso de los nombres, puede escribir el código C ++ de la siguiente manera:
main()
{
person_o p = "Daniel Boone";
p.store_add();
}
que salvará a Daniel Boone en la base de datos (implementado actualmente: mySQL y SQL Server). El objeto persona usará la tabla de DB first_names para buscar automáticamente el sexo asociado con "Daniel" y registrarlo como "M" (así como analizar el nombre, guardando "Daniel" a la primera columna de nombre y "Boone" a la última nombre de la columna). El Directorio Z funciona de manera similar para guardar y recuperar otros objetos de dominio de personas humanas, como negocios, empleados, direcciones de correo electrónico, números de teléfono, etc.
esto es demasiado tarde para el póster original, pero tal vez sea útil para los buscadores ... aquí: http://www.ssa.gov/OACT/babynames/limits.html
es un archivo de texto descargable que enumera todos los nombres por año de nacimiento hasta los nombres que recibieron al menos 5 niños, por lo que tiene una tonelada de datos.
función te ayudará a extraer alfabetos de una cadena alfanumérica
Dim input As String = "SMITH 1.006 1.006 1"
Dim output As String = New String((From c As Char In input Select c Where Char.IsLetter(c)).ToArray())
MsgBox(output)
la salida será: SMITH
Gracias a: https://.com/users/1842065/bj%C3%B8rn-roger-kringsj%C3%A5
- http://deron.meranda.us/data/census-dist-female-first.txt (4275 entradas)
http://deron.meranda.us/data/census-dist-male-first.txt (1219 entradas)
nombres masculinos y femeninos combinados: http://deron.meranda.us/data/census-derived-all-first.txt
Para formatearlo bien:
$ curl -s http://deron.meranda.us/data/census-dist-female-first.txt | /
awk ''{print $1}''