reflected - ¿La mejor expresión regular para atrapar el ataque XSS(Cross-site Scripting)(en Java)?

en qué consiste el ataque cross site scripting xss)? (9)

Jeff realmente publicó sobre esto en Sanitize HTML . Pero su ejemplo está en C # y estoy realmente más interesado en una versión de Java. ¿Alguien tiene una mejor versión para Java? ¿Su ejemplo es lo suficientemente bueno como para convertir directamente de C # a Java?

[Actualización] He puesto una recompensa en esta pregunta porque SO no era tan popular cuando hice la pregunta como lo es hoy (*). En cuanto a todo lo relacionado con la seguridad, mientras más personas lo analicen, ¡mejor será!

(*) De hecho, creo que todavía estaba en beta cerrada

Un hilo viejo, pero tal vez esto sea útil para otros usuarios. Hay una herramienta de capa de seguridad mantenida para php: https://github.com/PHPIDS/ Se basa en un conjunto de expresiones regulares que puede encontrar aquí:

https://github.com/PHPIDS/PHPIDS/blob/master/lib/IDS/default_filter.xml

La expresión regular que se muestra en su ejemplo, debería funcionar independientemente del idioma.

Entonces, ¿es la expresión regular que desea, o el código de Java para poner esta lógica alrededor de la expresión regular?

El mayor problema al usar el código de jeffs es el @ que actualmente no está disponible.

Probablemente solo tome la expresión regular "en bruto" del código de jeffs si la necesito y la pego en

http://www.cis.upenn.edu/~matuszek/General/RegexTester/regex-tester.html

y ver que escapan las cosas que necesitan escapar y luego usarlas.

Tomando en cuenta el uso de esta expresión regular, personalmente me aseguraría de entender exactamente lo que estaba haciendo, por qué y qué consecuencias tendría si no tuviera éxito, antes de copiar / pegar cualquier cosa, como las otras respuestas intentan ayudarte.

(Eso es un buen consejo para cualquier copy / paste)

El Proyecto de seguridad de aplicaciones web abiertas (OWASP) tiene algunas sugerencias para desinfectar su información. Ver por ejemplo:

No estoy convencido de que usar una expresión regular sea la mejor forma de encontrar todos los códigos sospechosos. Las expresiones regulares son bastante fáciles de engañar especialmente cuando se trata de HTML roto. Por ejemplo, la expresión regular enumerada en el enlace Sanitize HTML no eliminará todos los elementos ''a'' que tengan un atributo entre el nombre del elemento y el atributo ''href'':

Una forma más robusta de eliminar código malicioso es confiar en un Analizador XML que pueda manejar todo tipo de documentos HTML (Tidy, TagSoup, etc.) y seleccionar los elementos para eliminar con una expresión XPath. Una vez que el documento HTML se analiza en un documento DOM, los elementos para revome se pueden encontrar de manera fácil y segura. Esto es incluso fácil de hacer con XSLT.

No hagas esto con expresiones regulares. Recuerde, no está protegiendo solo contra HTML válido; está protegiendo contra el DOM que crean los navegadores web. Los navegadores pueden ser engañados para producir DOM válido a partir de HTML no válido con bastante facilidad.

Por ejemplo, vea esta lista de ataques XSS ofuscados . ¿Estás preparado para adaptar una expresión regular para evitar este ataque real en Yahoo y Hotmail en IE6 / 7/8?

<HTML><BODY> <?xml:namespace prefix="t" ns="urn:schemas-microsoft-com:time"> <?import namespace="t" implementation="#default#time2"> <t:set attributeName="innerHTML" to="XSS<SCRIPT DEFER>alert("XSS")</SCRIPT>"> </BODY></HTML>

¿Qué tal este ataque que funciona en IE6?

<TABLE BACKGROUND="javascript:alert(''XSS'')">

¿Qué hay de los ataques que no figuran en este sitio? El problema con el enfoque de Jeff es que no es una lista blanca, como se dijo. Como alguien en esa página observa con destreza:

El problema con esto es que el html debe estar limpio. Hay casos en los que puede pasar html pirateado y no coincide, en cuyo caso devolverá la cadena html pirateada ya que no coincidirá con nada que reemplazar. Esto no es estrictamente una lista blanca.

Sugeriría una herramienta especialmente diseñada como AntiSamy . Funciona analizando realmente el HTML, y luego atravesando el DOM y eliminando todo lo que no está en la lista blanca configurable . La principal diferencia es la capacidad de manejar con gracia HTML mal formado.

La mejor parte es que en realidad se trata de pruebas unitarias para todos los ataques XSS en el sitio anterior. Además, ¿qué podría ser más fácil que esta llamada API?

public String toSafeHtml(String html) throws ScanException, PolicyException { Policy policy = Policy.getInstance(POLICY_FILE); AntiSamy antiSamy = new AntiSamy(); CleanResults cleanResults = antiSamy.scan(html, policy); return cleanResults.getCleanHTML().trim(); }

[/s/w/.]* . Si no coincide, tienes XSS. Tal vez. Tenga en cuenta que esta expresión solo permite letras, números y puntos. Evita todos los símbolos, incluso los útiles, por miedo a XSS. Una vez que permite &, tiene preocupaciones. Y simplemente reemplazando todas las instancias de & con & No es suficiente. Demasiado complicado para confiar: P. Obviamente, esto no permitirá una gran cantidad de texto legítimo (simplemente puede reemplazar todos los caracteres no coincidentes con un! O algo así), pero creo que matará a XSS.

La idea de simplemente analizarlo como html y generar nuevo html es probablemente mejor.

^(/s|/w|/d|<br>)*?$

Esto validará caracteres, dígitos, espacios en blanco y también la etiqueta <br> . Si quieres más riesgo, puedes agregar más etiquetas como

^(/s|/w|/d|<br>|<ul>|</ul>)*?$

Extraje del mejor complemento Anti-XSS de NoScript, aquí está su Regex: Work impecable:

Prueba: http://regex101.com/r/rV7zK8

Creo que bloquea el 99% de XSS porque es una parte de NoScript, un complemento que se actualiza regularmente