una que parte manejo funciones extraer ejemplos caracteres cadenas cadena java string tab-delimited

java - parte - que es string



Análisis sintáctico de cadenas en Java con la pestaña delimitadora "/ t" mediante división (5)

Estoy procesando una cadena que está delimitada por tabulaciones. Estoy logrando esto usando la función de split , y funciona en la mayoría de las situaciones. El problema ocurre cuando falta un campo, por lo que en lugar de obtener un valor nulo en ese campo, obtengo el siguiente valor. Estoy almacenando los valores analizados en una matriz de cadenas.

String[] columnDetail = new String[11]; columnDetail = column.split("/t");

Cualquier ayuda sería apreciada. Si es posible, me gustaría almacenar las cadenas analizadas en una matriz de cadenas para que pueda acceder fácilmente a los datos analizados.


Bueno, nadie respondió, lo cual es en parte culpa de la pregunta: la cadena de entrada contiene once campos (esto se puede deducir) pero ¿cuántas pestañas? Posiblemente sea exactamente 10. Entonces la respuesta es

String s = "/t2/t/t4/t5/t6/t/t8/t/t10/t"; String[] fields = s.split("/t", -1); // in your case s.split("/t", 11) might also do for (int i = 0; i < fields.length; ++i) { if ("".equals(fields[i])) fields[i] = null; } System.out.println(Arrays.asList(fields)); // [null, 2, null, 4, 5, 6, null, 8, null, 10, null] // with s.split("/t") : [null, 2, null, 4, 5, 6, null, 8, null, 10]

Si los campos contienen pestañas, esto no funcionará como se espera, por supuesto.
El -1 significa: aplicar el patrón tantas veces como sea necesario, por lo que los campos finales (el 11º) se conservarán (como cadenas vacías ( "" ) si están ausentes, que deben convertirse en null explícitamente).

Si, por otro lado, no hay pestañas para los campos faltantes, entonces "5/t6" es una cadena de entrada válida que contiene los campos 5,6 solamente - no hay forma de obtener los fields[] mediante división.


Prueba esto:

String[] columnDetail = column.split("/t", -1);

Lea el Javadoc en String.split (java.lang.String, int) para obtener una explicación sobre el parámetro de límite de la función de división:

split public String[] split(String regex, int limit) Splits this string around matches of the given regular expression. The array returned by this method contains each substring of this string that is terminated by another substring that matches the given expression or is terminated by the end of the string. The substrings in the array are in the order in which they occur in this string. If the expression does not match any part of the input then the resulting array has just one element, namely this string. The limit parameter controls the number of times the pattern is applied and therefore affects the length of the resulting array. If the limit n is greater than zero then the pattern will be applied at most n - 1 times, the array''s length will be no greater than n, and the array''s last entry will contain all input beyond the last matched delimiter. If n is non-positive then the pattern will be applied as many times as possible and the array can have any length. If n is zero then the pattern will be applied as many times as possible, the array can have any length, and trailing empty strings will be discarded. The string "boo:and:foo", for example, yields the following results with these parameters: Regex Limit Result : 2 { "boo", "and:foo" } : 5 { "boo", "and", "foo" } : -2 { "boo", "and", "foo" } o 5 { "b", "", ":and:f", "", "" } o -2 { "b", "", ":and:f", "", "" } o 0 { "b", "", ":and:f" }

Cuando falten los últimos campos (yo huésped, esa es su situación), obtendrá la columna de esta manera:

field1/tfield2/tfield3/t/t

Si no se establece ningún límite para dividir (), el límite es 0, lo que dará lugar a que "las cadenas vacías finales se descartarán". De modo que puede obtener solo 3 campos, {"campo1", "campo2", "campo3"}.

Cuando el límite se establece en -1, un valor no positivo, las cadenas vacías finales no se descartarán. Entonces puede obtener 5 campos con los dos últimos como cadena vacía, {"campo1", "campo2", "campo3", "", ""}.


Simplemente tuve la misma pregunta y noté la respuesta en algún tipo de tutorial. En general, necesita usar la segunda forma del método de división, usando el

split(regex, limit)

Aquí está el tutorial completo http://www.rgagnon.com/javadetails/java-0438.html

Si establece un número negativo para el parámetro de límite obtendrá cadenas vacías en la matriz donde faltan los valores reales. Para utilizar esto, su cadena inicial debe tener dos copias del delimitador, es decir, debe tener / t / t donde faltan los valores.

Espero que esto ayude :)


String.split utiliza expresiones regulares , tampoco necesita asignar una matriz extra para su división.

El método de división te dará una lista. , el problema es que intentas predefinir cuántas veces tienes una pestaña, pero ¿cómo lo sabrías realmente? Intente utilizar Scanner o StringTokenizer y aprenda cómo funcionan las cuerdas de división.

Déjame explicarte Por qué no funciona y por qué necesitas //// para escapar // .

Está bien, así que cuando usas Split, en realidad toma una expresión regular (Expresión regular) y en la expresión regular quieres definir qué carácter dividir, y si escribes / t eso en realidad no significa /t y lo que QUIERES dividir por es /t , ¿verdad? Entonces, simplemente escribiendo /t le dice a su procesador de expresiones regulares que "Hey dividido por el personaje que se escapó t" NO "Oye dividido por todos los caracteres que se parecen a /t ". Observe la diferencia? Usar / significa escapar de algo. Y / en expresiones regulares significa algo totalmente diferente de lo que piensas.

Entonces, esta es la razón por la cual necesitas usar esta Solución :

//t

Para decirle al procesador de expresiones regulares que busque / t. De acuerdo, ¿por qué necesitarías dos de ellos? Bueno, el primero / escapa del segundo, lo que significa que se verá así: / t cuando esté procesando el texto.

Ahora digamos que estás buscando dividir /

Bueno, entonces te quedarías con // pero mira, ¡eso no funciona! porque / intentará escapar del char anterior! Es por eso que quiere que la salida sea // y, por lo tanto, debe tener ////.

Realmente espero que los ejemplos anteriores te ayuden a comprender por qué tu solución no funciona y cómo conquistar otras.

Ahora, te he dado esta answer antes, tal vez deberías empezar a buscarlos ahora.

OTROS METODOS

StringTokenizer

Deberías mirar String.split , es una herramienta muy útil para este tipo de trabajo.

Ejemplo

StringTokenizer st = new StringTokenizer("this is a test"); while (st.hasMoreTokens()) { System.out.println(st.nextToken()); }

Esto producirá

this is a test

Utiliza el segundo constructor para StringTokenizer para establecer el delimitador:

StringTokenizer(String str, String delim)

Escáner

También podría usar un Scanner ya que uno de los comentaristas dijo que esto podría parecerse a esto

Ejemplo

String input = "1 fish 2 fish red fish blue fish"; Scanner s = new Scanner(input).useDelimiter("//s*fish//s*"); System.out.println(s.nextInt()); System.out.println(s.nextInt()); System.out.println(s.next()); System.out.println(s.next()); s.close();

El resultado sería

1 2 red blue

Lo que significa que cortará la palabra "pez" y le dará el resto, usando "pez" como delimitador.

ejemplos tomados de la API de Java


String.split implementaciones de String.split tendrán serias limitaciones si los datos en un campo delimitado por tabuladores contienen nueva línea, tabulación y posiblemente "caracteres".

Los formatos delimitados por TAB han existido durante los años de burro, pero el formato no está estandarizado y varía. Muchas implementaciones no escapan caracteres (nuevas líneas y pestañas) que aparecen dentro de un campo. Por el contrario, siguen las convenciones de CSV y envuelven los campos no triviales en "comillas dobles". Entonces escapan solo comillas dobles. Entonces una "línea" podría extenderse sobre múltiples líneas.

Leyendo todo el tiempo escuché "solo reutilizar las herramientas de Apache", lo cual parece un buen consejo.

Al final, yo personalmente elegí Opencsv . Lo encontré liviano, y dado que proporciona opciones para los caracteres de escape y comillas, debería cubrir los formatos de datos más populares delimitados por comas y tabuladores.

Ejemplo:

CSVReader tabFormatReader = new CSVReader(new FileReader("yourfile.tsv"), ''/t'');