engine - metadata for google search

Buscar en fuente html con GOOGLE? (6)

Cierta línea de código en su sitio web (si no es el script del cliente final) no es visible para google cuando rastrea su sitio web. ¿Cómo encontrará google algo en su código php cuando acceda a los resultados de trabajo del código del sitio?

http://google.com/codesearch buscará fuentes disponibles públicamente, por lo que si almacena sus fuentes en github, por ejemplo, lo encontrará.

Tengo varios sitios web y no recuerdo dónde escribí algunas líneas de código. Dado que mis páginas están indexadas por Google, me gustaría saber si Google ofrece una función para buscar dentro del código fuente / marcado HTML, en lugar de solo permitir la búsqueda dentro de la página visual, renderizada, como parte de una página.

Gracias

Google no puede buscar en su código desde el sitio. Yoy puede usar http://nerdydata.com/ Es el mejor motor de búsqueda de códigos que utilicé! Creo que obtendrás tu código exacto de este sitio.

Hay un nuevo motor de búsqueda llamado http://nerdydata.com/ que le permite buscar en código fuente HTML / CSS / JS

Indican más de 160 millones de dominios públicos y he encontrado que los datos son útiles.

He encontrado los siguientes recursos en mis viajes (algunos ya mencionados anteriormente):

Los motores de búsqueda centrados en Mark-up HTML

También me gustaría agregar lo siguiente:

Enorme, archivos de datos de rastreo de sitios web

Rastreo común: "años de datos de páginas web gratuitas para ayudar a cambiar el mundo" (más de 250 TB +)
1.6TB de datos de rastreo de 115 millones de sitios web @ 4 de enero de 2014 (generosamente donados a la comunidad por Meanpath)

El artículo de rastreo de URL del sitio web Meanpath de ''115m'' resalta los usos del índice de URL de Common Crawl (junto con otros datos de URL).

¿Cómo podemos analizar estos datos de rastreo?

Para tener una idea de cómo comenzar a analizar algunos de estos datos masivos, eche un vistazo a los marcos de Big Data / Map-reduce-type .

Google enumera algunas ideas sobre el uso del proyecto Spark de Apache para analizar el / los volcado (s) de Common Crawl . Para comprender los formatos de archivo utilizados por Common Crawl , consulte lo siguiente:

El artículo, Accessing-Common-Crawl-Dataset-on-S3 , describe el acceso a los volcados de 250TB + del Common Crawl a bajo costo sin transferir esa carga de datos fuera de la red AWS / S3 de Amazon. Por supuesto, eso supone que va a utilizar alguna combinación de AWS / EC2 / S3, etc. para analizar los datos de rastreo.

Finalmente, Patrick Durusau mantiene algunas páginas de blog interesantes relacionadas con el uso del rastreo común .

Personalmente, considero este tema intrigante, ¡sugiero que obtengamos estos datos de rastreo mientras está CALIENTE! ;-)

Puede probar PublicWWW para buscar en fuente / marcado. Permite encontrar HTML, JavaScript, CSS y texto sin formato en el código fuente de la página web en más de 167 millones de sitios web.

Con PublicWWW puedes:

Encuentre sitios web relacionados a través de los códigos HTML únicos que comparten, es decir, widgets e ID de editor.
Identificar sitios usando ciertas imágenes o insignias.
Descubre quién más está usando tu tema.
Identifica los sitios que te mencionan
Encuentra los afiliados de tu competidor.
Identifique los sitios donde sus competidores colaboran o interactúan personalmente.
Referencias para usar una biblioteca o una plataforma.
Encuentre ejemplos de código en la red.
Averiguar quién está usando qué widgets JS en sus sitios.
...

Por supuesto, puede encontrar no solo sus sitios web que usan algún fragmento de código / marcado.

También puede probar meanpath para buscar dentro del código fuente HTML. Aunque es una herramienta comercial, te permite evaluar su servicio. A noviembre de 2014, afirma tener páginas indexadas en 141,670,458 dominios en vivo.