Limpieza de datos con funciones de texto

Es posible que los datos que obtenga de diferentes fuentes no estén listos para el análisis. En este capítulo, comprenderá cómo preparar sus datos en forma de texto para su análisis.

Inicialmente, necesita limpiar los datos. La limpieza de datos incluye la eliminación de caracteres no deseados del texto. A continuación, debe estructurar los datos en la forma que necesita para un análisis más detallado. Puedes hacer lo mismo por:

  • Encontrar patrones de texto requeridos con las funciones de texto.
  • Extrayendo valores de datos del texto.
  • Formateo de datos con funciones de texto.
  • Ejecución de operaciones de datos con las funciones de texto.

Eliminar caracteres no deseados del texto

Cuando importa datos de otra aplicación, puede tener caracteres no imprimibles y / o espacios en exceso. Los espacios en exceso pueden ser:

  • espacios principales, y / o
  • espacios extra entre palabras.

Si clasifica o analiza dichos datos, obtendrá resultados erróneos.

Considere el siguiente ejemplo:

Estos son los datos sin procesar que ha obtenido sobre la información del producto que contiene el ID del producto, la descripción del producto y el precio. El carácter "|" separa el campo en cada fila.

Cuando importa estos datos en la hoja de cálculo de Excel, se ve de la siguiente manera:

Como observa, todos los datos están en una sola columna. Necesita estructurar estos datos para realizar análisis de datos. Sin embargo, inicialmente necesita limpiar los datos.

Debe eliminar los caracteres no imprimibles y los espacios en exceso que puedan estar presentes en los datos. Puede utilizar la función LIMPIAR y la función RECORTAR para este propósito.

S.No. Función descriptiva
1.

CLEAN

Elimina todos los caracteres no imprimibles del texto

2.

TRIM

Elimina espacios del texto

  • Seleccione las celdas C3 - C11.
  • Escriba = TRIM (CLEAN (B3)) y luego presione CTRL + Enter.

La fórmula se completa en las celdas C3 - C11.

El resultado será el que se muestra a continuación:

Encontrar patrones de texto requeridos con las funciones de texto

Para estructurar sus datos, es posible que deba hacer cierta coincidencia de patrones de texto en función de la cual pueda extraer los valores de datos. Algunas de las funciones de texto que son útiles para este propósito son:

S.No. Función descriptiva
1.

EXACT

Comprueba si dos valores de texto son idénticos

2.

FIND

Encuentra un valor de texto dentro de otro (distingue entre mayúsculas y minúsculas)

3.

SEARCH

Encuentra un valor de texto dentro de otro (no distingue entre mayúsculas y minúsculas)

Extraer valores de datos de texto

Debe extraer los datos requeridos del texto para estructurarlos. En el ejemplo anterior, digamos, debe colocar los datos en tres columnas: ProductID, Product_Description y Price.

Puede extraer datos de una de las siguientes formas:

  • Extraer valores de datos con el Asistente para convertir texto en columnas
  • Extraer valores de datos con funciones de texto
  • Extracción de valores de datos con Flash Fill

Extraer valores de datos con el Asistente para convertir texto en columnas

Puedes usar el Convert Text to Columns Wizard para extraer valores de datos en columnas de Excel si sus campos son:

  • Delimitado por un personaje, o
  • Alineados en columnas con espacios entre cada campo.

En el ejemplo anterior, los campos están delimitados por el carácter "|". Por lo tanto, puede utilizar elConvert Text to Columns mago.

  • Seleccione los datos.

  • Copie y pegue valores en el mismo lugar. De otra manera,Convert Text to Columns toma las funciones en lugar de los datos en sí como entrada.

  • Seleccione los datos.

  • Haga clic en Text to Columns en el Data Tools grupo bajo Data Lengüeta en la cinta.

Step 1 - Asistente para convertir texto en columnas: aparece el paso 1 de 3.

  • Seleccione Delimitado.
  • Haga clic en Siguiente.

Step 2 - Asistente para convertir texto en columnas: aparece el paso 2 de 3.

  • Debajo Delimiters, Seleccione Other.

  • En el cuadro junto a Other, escribe el carácter |

  • Hacer clic Next.

Step 3 - Asistente para convertir texto en columnas: aparece el paso 3 de 3.

En esta pantalla, puede seleccionar cada columna de sus datos en el asistente y establecer el formato para esa columna.

  • por Destination, seleccione la celda D3.

  • Puede hacer clic Advanced, y establecer Decimal Separator y Thousands Separator en el Advanced Text Import Settings cuadro de diálogo que aparece.

  • Hacer clic Finish.

Sus datos, que se convierten en columnas, aparecen en las tres columnas: D, E y F.

  • Nombra los encabezados de columna como ProductID, Product_Description y Price.

Extraer valores de datos con funciones de texto

Suponga que los campos de sus datos no están delimitados por un carácter ni están alineados en columnas con espacios entre cada campo, puede usar funciones de texto para extraer valores de datos. Incluso en el caso de que los campos estén delimitados, aún puede usar funciones de texto para extraer datos.

Algunas de las funciones de texto que son útiles para este propósito son:

S.No. Función descriptiva
1.

LEFT

Devuelve los caracteres más a la izquierda de un valor de texto.

2.

RIGHT

Devuelve los caracteres más a la derecha de un valor de texto

3.

MID

Devuelve un número específico de caracteres de una cadena de texto que comienza en la posición que especifique

4.

LEN

Devuelve el número de caracteres en una cadena de texto.

También puede combinar dos o más de estas funciones de texto según los datos que tenga a mano, para extraer los valores de datos requeridos. Por ejemplo, usando una combinación de funciones LEFT, RIGHT y VALUE o usando una combinación de funciones FIND, LEFT, LEN y MID.

En el ejemplo anterior,

  • Todos los personajes que quedan para el primero | dar el nombre ProductID.

  • Todos los personajes hasta el segundo | dar el nombre Precio.

  • Todos los personajes que se encuentran entre el primero | y segundo | dé el nombre Product_Description.

  • Cada uno | tiene un espacio antes y después.

Observando esta información, puede extraer los valores de los datos con los siguientes pasos:

  • Encuentre la posición del primero | -First | Position

    • Puede utilizar la función BUSCAR

  • Encuentre la posición del segundo | -Second | Position

    • Puede usar la función BUSCAR nuevamente

  • Empezando a (First | Position - 2) Los caracteres del texto dan ProductID

    • Puede utilizar la función IZQUIERDA

  • (First | Position + 2) a (Second | Position - 2) Los caracteres del texto dan Product_Description

    • Puede utilizar la función MID

  • (Second | Position + 2) a los caracteres finales del texto dar precio

    • Puede utilizar la función DERECHA

El resultado será el que se muestra a continuación:

Puede observar que los valores en la columna de precios son valores de texto. Para realizar cálculos sobre estos valores, debe formatear las celdas correspondientes. Puede consultar la sección que se proporciona a continuación para comprender el formato del texto.

Extracción de valores de datos con Flash Fill

Usando Excel Flash Filles otra forma de extraer valores de datos del texto. Sin embargo, esto solo funciona cuando Excel puede encontrar un patrón en los datos.

Step 1 - Cree tres columnas para ProductID, Product_Description y Price junto a los datos.

Step 2 - Copie y pegue los valores para C3, D3 y E3 de B3.

Step 3 - Seleccione la celda C3 y haga clic en Flash Fill en el Data Tools grupo en el Datalengüeta. Se completan todos los valores de ProductID.

Step 4- Repita los pasos dados anteriormente para Product_Description y Price. Los datos están llenos.

Formateo de datos con funciones de texto

Excel tiene varias funciones de texto integradas que puede utilizar para formatear datos que contienen texto. Estos incluyen:

Functions that format the Text as per your need -

S.No. Función descriptiva
1.

LOWER

Convierte texto a minúsculas

S.No. Función descriptiva
1.

UPPER

Convierte texto a mayúsculas

2.

PROPER

Capitaliza la primera letra de cada palabra de un valor de texto

Functions that convert and/or format the Numbers as Text -

S.No. Función descriptiva
1.

DOLLAR

Convierte un número en texto, usando el formato de moneda $ (dólar)

2.

FIXED

Formatea un número como texto con un número fijo de decimales

3.

TEXT

Formatea un número y lo convierte en texto

Functions that convert the Text to Numbers -

S.No. Función descriptiva
1.

VALUE

Convierte un argumento de texto en un número

Executing Data Operations with the Text Functions

Es posible que deba realizar ciertas operaciones de texto en sus datos. Por ejemplo, si los ID de inicio de sesión de los empleados se cambian a un nuevo formato en una organización, según el cambio de formato, es posible que deban realizarse reemplazos de texto.

Las siguientes funciones de texto lo ayudan a realizar operaciones de texto en sus datos que contienen texto:

S.No. Función descriptiva
1.

REPLACE

Reemplaza caracteres dentro del texto

2.

SUBSTITUTE

Sustituye texto nuevo por texto antiguo en una cadena de texto

3.

CONCATENATE

Une varios elementos de texto en un solo elemento de texto

4.

CONCAT

Combina el texto de varios rangos y / o cadenas, pero no proporciona el delimitador ni los argumentos IgnoreEmpty.

5.

TEXTJOIN

Combina el texto de varios rangos y / o cadenas e incluye un delimitador que especificas entre cada valor de texto que se combinará. Si el delimitador es una cadena de texto vacía, esta función concatenará efectivamente los rangos.

6.

REPT

Repite el texto una cantidad determinada de veces