Obtener el nombre de dominio(no el subdominio) en php

regex domain-name (11)

Aquí hay una función que escribí para obtener el dominio sin subdominio (s), independientemente de si el dominio usa un ccTLD o un nuevo estilo de TLD largo, etc. No hay búsqueda ni una gran variedad de TLD conocidos, y no hay expresiones regulares. . Puede ser mucho más corto usando el operador ternario y el anidamiento, pero lo amplié para facilitar la lectura.

// Per Wikipedia: "All ASCII ccTLD identifiers are two letters long, // and all two-letter top-level domains are ccTLDs." function topDomainFromURL($url) { $url_parts = parse_url($url); $domain_parts = explode(''.'', $url_parts[''host'']); if (strlen(end($domain_parts)) == 2 ) { // ccTLD here, get last three parts $top_domain_parts = array_slice($domain_parts, -3); } else { $top_domain_parts = array_slice($domain_parts, -2); } $top_domain = implode(''.'', $top_domain_parts); return $top_domain; }

Tengo una URL que puede ser cualquiera de los siguientes formatos:

http://example.com https://example.com http://example.com/foo http://example.com/foo/bar www.example.com example.com foo.example.com www.foo.example.com foo.bar.example.com http://foo.bar.example.com/foo/bar example.net/foo/bar

Esencialmente, necesito poder hacer coincidir cualquier URL normal. ¿Cómo puedo extraer example.com (o .net, sea lo que sea el tld. Necesito que funcione con cualquier TLD) de todos estos a través de una sola expresión regular?

Aquí hay uno que funciona para todos los dominios, incluidos aquellos con dominios de segundo nivel como "co.uk"

Parece que hay una pregunta duplicada aquí: delete-subdomain-from-url-string-if-subdomain-is-found

Bueno, puedes usar parse_url para obtener el host:

$info = parse_url($url); $host = $info[''host''];

Entonces, puedes hacer algunas cosas elegantes para obtener solo el TLD y el Anfitrión

$host_names = explode(".", $host); $bottom_host_name = $host_names[count($host_names)-2] . "." . $host_names[count($host_names)-1];

No es muy elegante, pero debería funcionar.

Si quieres una explicación, aquí va:

Primero tomamos todo entre el esquema ( http:// , etc), usando las capacidades de parse_url para ... bueno ... analizar las URL. :)

Luego tomamos el nombre de host y lo separamos en una matriz en función de dónde caen los períodos, por lo que test.world.hello.myname se convertiría en:

array("test", "world", "hello", "myname");

Después de eso, tomamos la cantidad de elementos en la matriz (4).

Luego, restamos 2 de él para obtener la penúltima cadena (el nombre de host, o example , en su ejemplo)

Luego, restamos 1 de él para obtener la última cadena (porque las teclas de matriz comienzan en 0), también conocido como TLD

Luego combinamos esas dos partes con un punto, y usted tiene su nombre de host base.

Creo que la mejor manera de manejar este problema es:

$second_level_domains_regex = ''//.asn/.au$|/.com/.au$|/.net/.au$|/.id/.au$|/.org/.au$|/.edu/.au$|/.gov/.au$|/.csiro/.au$|/.act/.au$|/.nsw/.au$|/.nt/.au$|/.qld/.au$|/.sa/.au$|/.tas/.au$|/.vic/.au$|/.wa/.au$|/.co/.at$|/.or/.at$|/.priv/.at$|/.ac/.at$|/.avocat/.fr$|/.aeroport/.fr$|/.veterinaire/.fr$|/.co/.hu$|/.film/.hu$|/.lakas/.hu$|/.ingatlan/.hu$|/.sport/.hu$|/.hotel/.hu$|/.ac/.nz$|/.co/.nz$|/.geek/.nz$|/.gen/.nz$|/.kiwi/.nz$|/.maori/.nz$|/.net/.nz$|/.org/.nz$|/.school/.nz$|/.cri/.nz$|/.govt/.nz$|/.health/.nz$|/.iwi/.nz$|/.mil/.nz$|/.parliament/.nz$|/.ac/.za$|/.gov/.za$|/.law/.za$|/.mil/.za$|/.nom/.za$|/.school/.za$|/.net/.za$|/.co/.uk$|/.org/.uk$|/.me/.uk$|/.ltd/.uk$|/.plc/.uk$|/.net/.uk$|/.sch/.uk$|/.ac/.uk$|/.gov/.uk$|/.mod/.uk$|/.mil/.uk$|/.nhs/.uk$|/.police/.uk$/''; $domain = $_SERVER[''HTTP_HOST'']; $domain = explode(''.'', $domain); $domain = array_reverse($domain); if (preg_match($second_level_domains_regex, $_SERVER[''HTTP_HOST'']) { $domain = "$domain[2].$domain[1].$domain[0]"; } else { $domain = "$domain[1].$domain[0]"; }

Hay dos formas de extraer el subdominio de un host:

El primer método que es más preciso es usar una base de datos de tlds (como https://publicsuffix.org/list/public_suffix_list.dat ) y hacer coincidir el dominio con ella. Esto es un poco pesado en algunos casos. Hay algunas clases de PHP para usarlo como php-domain-parser y TLDExtract .
La segunda forma no es tan precisa como la primera, pero es muy rápida y puede dar la respuesta correcta en muchos casos, escribí esta función para ello:
function get_domaininfo($url) { // regex can be replaced with parse_url preg_match("/^(https|http|ftp):////(.*?)///", "$url/" , $matches); $parts = explode(".", $matches[2]); $tld = array_pop($parts); $host = array_pop($parts); if ( strlen($tld) == 2 && strlen($host) <= 3 ) { $tld = "$host.$tld"; $host = array_pop($parts); } return array( ''protocol'' => $matches[1], ''subdomain'' => implode(".", $parts), ''domain'' => "$host.$tld", ''host''=>$host,''tld''=>$tld ); }
Ejemplo:
print_r(get_domaininfo(''http://mysubdomain.domain.co.uk/index.php''));
Devoluciones:
Array ( [protocol] => https [subdomain] => mysubdomain [domain] => domain.co.uk [host] => domain [tld] => co.uk )

Mi solución en https://gist.github.com/pocesar/5366899

y las pruebas están aquí http://codepad.viper-7.com/GAh1tP

Funciona con cualquier TLD y patrones de subdominio horribles (hasta 3 subdominios).

Hay una prueba incluida con muchos nombres de dominio.

No pegará la función aquí debido a la sangría extraña para el código en (podría tener bloques de código cercados como github)

No es posible obtener el nombre de dominio sin utilizar una lista de TLD para comparar, ya que existen muchos casos con la misma estructura y longitud:

www.db.de (Subdominio) versus bbc.co.uk (Dominio)
big.uk.com (SLD) versus www.uk.com (TLD)

La lista de sufijos públicos de Mozilla debería ser la mejor opción, ya que es utilizada por todos los principales navegadores :
https://publicsuffix.org/list/public_suffix_list.dat

Siéntase libre de usar mi función:

Lo que hace especial:

acepta todas las entradas como URL, nombres de host o dominios con o sin esquema
la lista se descarga fila por fila para evitar el alto uso de memoria
crea un nuevo archivo por TLD en una carpeta de caché, por lo que get_domain() solo necesita verificar a través de file_exists() si existe, por lo que no necesita incluir una gran base de datos en cada solicitud como TLDExtract hace.
la lista se actualizará automáticamente cada 30 días

Prueba:

$urls = array( ''http://www.example.com'',// example.com ''http://subdomain.example.com'',// example.com ''http://www.example.uk.com'',// example.uk.com ''http://www.example.co.uk'',// example.co.uk ''http://www.example.com.ac'',// example.com.ac ''http://example.com.ac'',// example.com.ac ''http://www.example.accident-prevention.aero'',// example.accident-prevention.aero ''http://www.example.sub.ar'',// sub.ar ''http://www.congresodelalengua3.ar'',// congresodelalengua3.ar ''http://congresodelalengua3.ar'',// congresodelalengua3.ar ''http://www.example.pvt.k12.ma.us'',// example.pvt.k12.ma.us ''http://www.example.lib.wy.us'',// example.lib.wy.us ''com'',// empty ''.com'',// empty ''http://big.uk.com'',// big.uk.com ''uk.com'',// empty ''www.uk.com'',// www.uk.com ''.uk.com'',// empty ''.com'',// .com ''.foobarfoo'',// empty '''',// empty false,// empty '' '',// empty 1,// empty ''a'',// empty );

Versión reciente con explicaciones (alemán):
http://www.programmierer-forum.de/domainnamen-ermitteln-t244185.htm

Recomiendo usar la biblioteca TLDExtract para todas las operaciones con nombre de dominio.

Simplemente prueba esto:

<?php $host = $_SERVER[''HTTP_HOST'']; preg_match("/[^/.//]+/.[^/.//]+$/", $host, $matches); echo "domain name is: {$matches[0]}/n"; ?>

Tuve problemas con la solución proporcionada por pocesar. Cuando usaría, por ejemplo, subdomain.domain.nl, no devolvería domain.nl. En cambio, devolvería subdomain.domain.nl Otro problema era que domain.com.br devolvería com.br

No estoy seguro pero solucioné estos problemas con el siguiente código (espero que ayude a alguien, si es así soy un hombre feliz):

$onlyHostName = implode(''.'', array_slice(explode(''.'', parse_url($link, PHP_URL_HOST)), -2));