Etiquetado de parte del discurso (PoS)
El etiquetado es un tipo de clasificación que puede definirse como la asignación automática de descripción a los tokens. Aquí el descriptor se llama etiqueta, que puede representar una parte del discurso, información semántica, etc.
Ahora, si hablamos de etiquetado de parte de la oración (PoS), entonces se puede definir como el proceso de asignar una de las partes de la oración a la palabra dada. Generalmente se llama etiquetado POS. En palabras simples, podemos decir que el etiquetado POS es una tarea de etiquetar cada palabra en una oración con su parte apropiada del discurso. Ya sabemos que las partes del discurso incluyen sustantivos, verbos, adverbios, adjetivos, pronombres, conjunción y sus subcategorías.
La mayor parte del etiquetado POS se incluye en el etiquetado POS de base de reglas, el etiquetado POS estocástico y el etiquetado basado en transformación.
Etiquetado POS basado en reglas
Una de las técnicas más antiguas de etiquetado es el etiquetado POS basado en reglas. Los etiquetadores basados en reglas utilizan un diccionario o léxico para obtener posibles etiquetas para etiquetar cada palabra. Si la palabra tiene más de una etiqueta posible, los etiquetadores basados en reglas usan reglas escritas a mano para identificar la etiqueta correcta. La desambiguación también se puede realizar en el etiquetado basado en reglas mediante el análisis de las características lingüísticas de una palabra junto con sus palabras anteriores y posteriores. Por ejemplo, suponga que si la palabra anterior de una palabra es artículo, la palabra debe ser un sustantivo.
Como sugiere el nombre, todo este tipo de información en el etiquetado de POS basado en reglas se codifica en forma de reglas. Estas reglas pueden ser:
Reglas de patrones de contexto
O, como expresión regular compilada en autómatas de estado finito, se cruza con la representación de oraciones léxicamente ambigua.
También podemos entender el etiquetado POS basado en reglas por su arquitectura de dos etapas:
First stage - En la primera etapa, utiliza un diccionario para asignar a cada palabra una lista de posibles partes del discurso.
Second stage - En la segunda etapa, utiliza grandes listas de reglas de desambiguación escritas a mano para ordenar la lista en una sola parte del discurso para cada palabra.
Propiedades del etiquetado POS basado en reglas
Los etiquetadores POS basados en reglas poseen las siguientes propiedades:
Estos etiquetadores son etiquetadores impulsados por el conocimiento.
Las reglas del etiquetado POS basado en reglas se crean manualmente.
La información está codificada en forma de reglas.
Tenemos un número limitado de reglas de aproximadamente 1000.
El modelado de suavizado y lenguaje se define explícitamente en etiquetadores basados en reglas.
Etiquetado estocástico POS
Otra técnica de etiquetado es el etiquetado estocástico POS. Ahora, la pregunta que surge aquí es qué modelo puede ser estocástico. El modelo que incluye frecuencia o probabilidad (estadística) se puede llamar estocástico. Cualquier número de enfoques diferentes al problema del etiquetado de parte de la voz puede denominarse etiquetado estocástico.
El etiquetador estocástico más simple aplica los siguientes enfoques para el etiquetado POS:
Enfoque de frecuencia de palabras
En este enfoque, los etiquetadores estocásticos eliminan la ambigüedad de las palabras basándose en la probabilidad de que una palabra aparezca con una etiqueta en particular. También podemos decir que la etiqueta que se encuentra con mayor frecuencia con la palabra en el conjunto de entrenamiento es la asignada a una instancia ambigua de esa palabra. El principal problema de este enfoque es que puede producir una secuencia de etiquetas inadmisible.
Probabilidades de secuencia de etiquetas
Es otro enfoque de etiquetado estocástico, donde el etiquetador calcula la probabilidad de que ocurra una determinada secuencia de etiquetas. También se denomina enfoque de n-gramas. Se llama así porque la mejor etiqueta para una palabra dada está determinada por la probabilidad de que ocurra con las n etiquetas anteriores.
Propiedades del etiquetado POST estocástico
Los etiquetadores estocásticos POS poseen las siguientes propiedades:
Este etiquetado POS se basa en la probabilidad de que ocurra la etiqueta.
Requiere corpus de entrenamiento
No habría probabilidad de las palabras que no existen en el corpus.
Utiliza diferentes corpus de prueba (distintos del corpus de entrenamiento).
Es el etiquetado POS más simple porque elige las etiquetas más frecuentes asociadas con una palabra en el corpus de capacitación.
Etiquetado basado en transformación
El etiquetado basado en transformación también se denomina etiquetado Brill. Es una instancia del aprendizaje basado en transformación (TBL), que es un algoritmo basado en reglas para el etiquetado automático de POS en el texto dado. TBL, nos permite tener conocimiento lingüístico en una forma legible, transforma un estado en otro estado usando reglas de transformación.
Se inspira en los dos etiquetadores explicados anteriormente: basados en reglas y estocásticos. Si vemos similitudes entre el etiquetador basado en reglas y el de transformación, entonces, al igual que el etiquetador basado en reglas, también se basa en las reglas que especifican qué etiquetas deben asignarse a qué palabras. Por otro lado, si vemos similitudes entre el estocástico y el etiquetador de transformación, al igual que el estocástico, es una técnica de aprendizaje automático en la que las reglas se inducen automáticamente a partir de los datos.
Trabajo de aprendizaje basado en la transformación (TBL)
Para comprender el funcionamiento y el concepto de los etiquetadores basados en la transformación, debemos comprender el funcionamiento del aprendizaje basado en la transformación. Considere los siguientes pasos para comprender el funcionamiento de TBL:
Start with the solution - El TBL generalmente comienza con alguna solución al problema y funciona en ciclos.
Most beneficial transformation chosen - En cada ciclo, TBL elegirá la transformación más beneficiosa.
Apply to the problem - Se aplicará al problema la transformación elegida en el último paso.
El algoritmo se detendrá cuando la transformación seleccionada en el paso 2 no agregue más valor o no haya más transformaciones para seleccionar. Este tipo de aprendizaje se adapta mejor a las tareas de clasificación.
Ventajas del aprendizaje basado en la transformación (TBL)
Las ventajas de TBL son las siguientes:
Aprendemos un pequeño conjunto de reglas simples y estas reglas son suficientes para etiquetar.
Tanto el desarrollo como la depuración son muy fáciles en TBL porque las reglas aprendidas son fáciles de entender.
La complejidad en el etiquetado se reduce porque en TBL hay un entrelazado de reglas aprendidas por máquina y generadas por humanos.
El etiquetador basado en transformación es mucho más rápido que el etiquetador del modelo de Markov.
Desventajas del aprendizaje basado en la transformación (TBL)
Las desventajas de TBL son las siguientes:
El aprendizaje basado en la transformación (TBL) no proporciona probabilidades de etiqueta.
En TBL, el tiempo de formación es muy largo, especialmente en grandes corpora.
Etiquetado POS del modelo oculto de Markov (HMM)
Antes de profundizar en el etiquetado POS de HMM, debemos comprender el concepto de modelo oculto de Markov (HMM).
Modelo oculto de Markov
Un modelo HMM puede definirse como el modelo estocástico doblemente incrustado, donde el proceso estocástico subyacente está oculto. Este proceso estocástico oculto solo puede observarse a través de otro conjunto de procesos estocásticos que produce la secuencia de observaciones.
Ejemplo
Por ejemplo, se realiza una secuencia de experimentos de lanzamiento de monedas ocultas y solo vemos la secuencia de observación que consta de cara y cruz. Los detalles reales del proceso (cuántas monedas se usaron, el orden en que se seleccionan) están ocultos para nosotros. Al observar esta secuencia de caras y colas, podemos construir varios HMM para explicar la secuencia. A continuación se muestra una forma de modelo oculto de Markov para este problema:
Asumimos que hay dos estados en el HMM y cada uno de los estados corresponde a la selección de diferentes monedas sesgadas. La siguiente matriz da las probabilidades de transición de estado:
$$ A = \ begin {bmatrix} a11 & a12 \\ a21 & a22 \ end {bmatrix} $$
Aquí,
aij = probabilidad de transición de un estado a otro de i a j.
a11 + a12= 1 y un 21 + un 22 = 1
P1 = probabilidad de caras de la primera moneda, es decir, el sesgo de la primera moneda.
P2 = probabilidad de caras de la segunda moneda, es decir, el sesgo de la segunda moneda.
También podemos crear un modelo HMM asumiendo que hay 3 monedas o más.
De esta manera, podemos caracterizar a HMM por los siguientes elementos:
N, el número de estados en el modelo (en el ejemplo anterior N = 2, solo dos estados).
M, el número de observaciones distintas que pueden aparecer con cada estado en el ejemplo anterior M = 2, es decir, H o T).
A, la distribución de probabilidad de transición de estado: la matriz A en el ejemplo anterior.
P, la distribución de probabilidad de los símbolos observables en cada estado (en nuestro ejemplo P1 y P2).
Yo, la distribución del estado inicial.
Uso de HMM para etiquetado POS
El proceso de etiquetado POS es el proceso de encontrar la secuencia de etiquetas que es más probable que haya generado una secuencia de palabras determinada. Podemos modelar este proceso POS utilizando un modelo de Markov oculto (HMM), dondetags son los hidden states que produjo el observable output, es decir, el words.
Matemáticamente, en el etiquetado POS, siempre estamos interesados en encontrar una secuencia de etiquetas (C) que maximice:
P (C|W)
Dónde,
C = C 1 , C 2 , C 3 ... C T
W = W 1 , W 2 , W 3 , W T
En el otro lado de la moneda, el hecho es que necesitamos una gran cantidad de datos estadísticos para estimar razonablemente este tipo de secuencias. Sin embargo, para simplificar el problema, podemos aplicar algunas transformaciones matemáticas junto con algunos supuestos.
El uso de HMM para hacer un etiquetado de POS es un caso especial de interferencia bayesiana. Por lo tanto, comenzaremos por reformular el problema usando la regla de Bayes, que dice que la probabilidad condicional mencionada anteriormente es igual a -
(PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT)) / PROB (W1,..., WT)
Podemos eliminar el denominador en todos estos casos porque nos interesa encontrar la secuencia C que maximice el valor anterior. Esto no afectará nuestra respuesta. Ahora, nuestro problema se reduce a encontrar la secuencia C que maximiza -
PROB (C1,..., CT) * PROB (W1,..., WT | C1,..., CT) (1)
Incluso después de reducir el problema en la expresión anterior, requeriría una gran cantidad de datos. Podemos hacer suposiciones de independencia razonables sobre las dos probabilidades en la expresión anterior para superar el problema.
Primera suposición
La probabilidad de una etiqueta depende de la anterior (modelo de bigrama) o de las dos anteriores (modelo de trigrama) o etiquetas n anteriores (modelo de n-gramas) que, matemáticamente, se pueden explicar de la siguiente manera:
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-n+1…Ci-1) (n-gram model)
PROB (C1,..., CT) = Πi=1..T PROB (Ci|Ci-1) (bigram model)
El comienzo de una oración se puede explicar asumiendo una probabilidad inicial para cada etiqueta.
PROB (C1|C0) = PROB initial (C1)
Segunda suposición
La segunda probabilidad en la ecuación (1) anterior se puede aproximar asumiendo que una palabra aparece en una categoría independiente de las palabras en las categorías anteriores o posteriores que se pueden explicar matemáticamente de la siguiente manera:
PROB (W1,..., WT | C1,..., CT) = Πi=1..T PROB (Wi|Ci)
Ahora, sobre la base de los dos supuestos anteriores, nuestro objetivo se reduce a encontrar una secuencia C que maximice
Πi=1...T PROB(Ci|Ci-1) * PROB(Wi|Ci)
Ahora la pregunta que surge aquí es si convertir el problema a la forma anterior realmente nos ayudó. La respuesta es: sí, lo ha hecho. Si tenemos un gran corpus etiquetado, entonces las dos probabilidades en la fórmula anterior se pueden calcular como:
PROB (Ci=VERB|Ci-1=NOUN) = (# of instances where Verb follows Noun) / (# of instances where Noun appears) (2)
PROB (Wi|Ci) = (# of instances where Wi appears in Ci) /(# of instances where Ci appears) (3)