spell checking - spell - ¿Cómo se deletrea un sitio web?

spell check plus (11)

Sé que los correctores ortográficos no son perfectos, pero se vuelven más útiles a medida que aumenta el tamaño del texto. ¿Cómo puedo revisar la ortografía de un sitio que tiene miles de páginas?

Edición: debido al complicado procesamiento del lado del servidor, la única forma en que puedo obtener las páginas es a través de HTTP. Tampoco puede ser subcontratado a un tercero.

Editar: Tengo una lista de todas las URL en el sitio que debo revisar.

@Anthony Roy He hecho exactamente lo que has hecho. Piped la página a través de Aspell a través de Pyenchant. Tengo diccionarios de inglés (GB, CA, EE. UU.) Para usar en mi sitio https://www.validator.pro/ . Ponte en contacto conmigo y te configuraré un trabajo único para que revises 1000 páginas o más

Es posible que desee revisar una biblioteca como jspell.

Hice un corrector ortográfico solo en inglés con Ruby aquí: https://github.com/Vinietskyzilla/fuzzy-wookie

Pruébalo.

Su principal deficiencia es la ausencia de un diccionario completo que incluya todas las formas de cada palabra (plural, no solo singular; ''tiene'', no solo ''tiene''). Sustituir su propio diccionario, si puede encontrar o hacer uno mejor, lo haría realmente increíble.

Aparte de eso, creo que la forma más sencilla de revisar la ortografía de una sola página web es presionar ctrl + a (o cmd + a) para seleccionar todo el texto, luego copiarlo y pegarlo en un cuadro de texto multilínea en una página web. (Por ejemplo, <html><head></head><body><textarea></textarea></body></html> .) Su navegador debe subrayar cualquier palabra mal escrita.

Lynx parece ser bueno para obtener solo el texto que necesito (contenido del cuerpo y texto alternativo) e ignorar lo que no necesito (Javascript y CSS incrustados).

lynx -dump http://www.example.com

También enumera todas las URL (convertidas a su forma absoluta) en la página, que se pueden filtrar usando grep:

lynx -dump http://www.example.com | grep -v "http"

Las URL también podrían ser locales ( file:// ) si he utilizado wget para reflejar el sitio.

Escribiré un script que procesará un conjunto de URL utilizando este método, y enviaré cada página a un archivo de texto separado. Luego puedo usar una solución de corrección ortográfica existente para verificar los archivos (o un solo archivo grande que combine todos los pequeños).

Esto ignorará el texto en el título y los meta elementos. Estos pueden ser revisados por separado.

Puedes hacer esto con un script de shell combinando wget con aspell. ¿Tenías en mente un entorno de programación?

Personalmente uso Python con Beautiful Soup para extraer el texto de las etiquetas y canalizar el texto a través de aspell.

Recomiendo altamente Inspyder InSite , es un software comercial pero tienen una versión de prueba disponible, vale la pena el dinero. Lo he usado durante años para revisar la ortografía de los sitios web de los clientes. Es compatible con la automatización / programación y puede integrarse con listas de palabras personalizadas de CMS. También es una buena forma de verificar los enlaces y generar informes.

Si está fuera de lugar, y debido a la cantidad de páginas que hay que revisar, valdría la pena considerar algo como spellr.us, que sería una solución rápida. Puede ingresar la url de su sitio web en la página de inicio para tener una idea de cómo informaría los errores de ortografía.

http://spellr.us/

Pero estoy seguro de que hay algunas alternativas gratuitas.

Si puede acceder al contenido del sitio como archivos, puede escribir un pequeño script de shell de Unix que haga el trabajo. La siguiente secuencia de comandos imprimirá el nombre de un archivo, el número de línea y las palabras mal escritas. La calidad de la salida depende de la del diccionario de su sistema.

#!/bin/sh # Find HTML files find $1 -name /*.html -type f | while read f do # Split file into words sed '' # Remove CSS /<style/,/<//style/d # Remove Javascript /<script/,/<//script/d # Remove HTML tags s/<[^>]*>//g # Remove non-word characters s/[^a-zA-Z]/ /g # Split words into lines s/[ ][ ]*// /g '' "$f" | # Remove blank lines sed ''/^$/d'' | # Sort the words sort -u | # Print words not in the dictionary comm -23 - /usr/share/dict/words >/tmp/spell.$$.out # See if errors were found if [ -s /tmp/spell.$$.out ] then # Print file, number, and matching words fgrep -Hno -f /tmp/spell.$$.out "$f" fi done # Remove temporary file rm /tmp/spell.$$.out

Solo unos días antes de que descubriera el corrector ortográfico del sitio web de Spello . Utiliza mi NHunspell (Open office Spell Checker para .NET) libaray. Puedes darle una oportunidad.

Usamos el control de ortografía RAD de Telerik en nuestras aplicaciones ASP.NET.

Telerik RAD Spell

Use plantillas (bien) con su aplicación web (si está programando el sitio en lugar de solo escribir html), y un editor html que incluye corrección ortográfica. Eclipse lo hace, por ejemplo.

Si eso no es posible por alguna razón ... sí, wget para descargar las páginas terminadas, y algo como esto:

http://netsw.org/dict/tools/ispell-html-mode.patch