solr saml nutch full-text-indexing manifoldcf

solr - ¿Cómo rastrear un sitio web que tiene autenticación SAML usando ManifoldCF o nutch?



full-text-indexing (1)

Estoy intentando rastrear un sitio web, más específicamente un Google Site usa ManifoldCF que tiene autenticación SAML e indexa los datos rastreados en Apache Solr. Pero a medida que rastrear la URL, me da 302 redirección a la página de inicio de sesión y luego dice RESPONSECODENOTINDEXABLE .

No estoy seguro si he autenticado correctamente o no. En manifoldCF tenemos opciones para autenticación HTTP basic , NTLM authentication y método de autenticación de credenciales de acceso Session-based sesión. Usé el método de autenticación Session based , que más parece una autenticación basada en formularios en lugar de la autenticación SAML .

¿Alguien ha rastreado un sitio web usando manifoldCF que tiene autenticación SAML ? Y si no es manifoldCF , ¿alguien ha sido capaz de lograr esto a través de Apache Nutch, porque me temo que también proporciona autenticación HTTP básica, Digest y NTLM ?

Cualquier idea sería útil. Puede proporcionar más información sobre el problema, si alguien aquí piensa que puede lograrse fácilmente. Básicamente, cuando rastrear https://sites.google.com/a/my-sub-domain.com , redirige a la página de inicio de sesión SSO y el rastreador se niega a rastrear más dando un error 302. Es un sitio web basado en intranet.


No estoy seguro de si esto ayuda, solo pruébalo. En nutch, podemos proporcionar credenciales para iniciar sesión en la página, tenemos el archivo httpclient-auth.xml en el directorio conf. Allí puede proporcionar su nombre de host junto con las credenciales.

<auth-configuration> <credentials username="admin" password="admin123"> <authscope host="hostname" realm="login"/> <default/> </credentials> </auth-configuration>

De manera similar, puede agregar cualquier número de credenciales a esta configuración.

Para rastrear el sitio https, cambie la propiedad plugin.includes de protocol-http a protocol-httpclient en nutch-conf.xml