例子一字符串拆分
按照原始数据列”aaa bbb ccc ddd”把数据分成4行。
比如我们有原始数据行如下:
id group person
1 A aaa bbb ccc ddd
我们需要获取A组中都有哪些人,则需要对数据进行拆分并生成新的行。
使用代码如下:
var str = person.toString();
var tokens = str.split(" ");
var i;
for (i =0; i<tokens.length; i++)
{
var row = createRowCopy(getOutputRowMeta().size());
var index = getInputRowMeta().size();
row[index]=tokens[i];
putRow(row);
}
trans_Status = SKIP_TRANSFORMATION;
代码说明
person.toString(); 数据行里person列的数据是以空格分隔的一个字符串。如"aaa bbb ccc ddd"
str.split(" "); 把字符串按照空格分为一个字符数组,如上面的例子,就分隔为长度为 4 的数组。
for (i =0; i<tokens.length; i++) 循环tokens
{
createRowCopy(getOutputRowMeta().size()); 使用 createRowCopy 函数创建一个新行,长度是getOutputRowMeta().size()。
index = getInputRowMeta().size(); 根据输入流获得数据行里最后一列的位置。
row[index]=tokens[i]; 把每个 token, 放到每个新创建行的最后一列。
//这里需要特别注意,为什么要获取原数据的长度作为新内容的起始索引呢?
//因为新建的行还是会携带有输入的列的,所以如果使用0开头赋值,则会覆盖掉原列,并且字段名不对应。
putRow(row); 把新创建的行放到输出流中,下一个步骤就可以使用了。
}
trans_Status = SKIP_TRANSFORMATION; 保证原始的数据行"aaa bbb ccc ddd",不会被放入输出流中。 如果不带这一句,则原行还是会输出一行造成重复数据。
通过这个脚本一行数据可以变成四行数据。 |