Apache Pig DIFF()函数

Apache Pig Eval函数

Pig Latin的 DIFF() 函数用于比较元组中的两个包（字段）。它需要一个元组的两个字段作为输入并匹配它们。如果它们匹配，则返回一个空包。如果它们不匹配，它将找到存在于一个字段（包）中而在另一个字段中找不到的元素，并通过将它们打包进包中来返回这些元素。

语法

下面给出了 DIFF() 函数的语法。

grunt> DIFF (expression, expression)

例

通常， DIFF() 函数比较元组中的两个包。下面是它的例子，这里我们创建两个关系，将它们cogroup，并计算它们之间的差异。假设在HDFS目录 /pig_data/ 中有两个文件，即 emp_sales.txt 和 emp_bonus.txt ，如下所示。 emp_sales.txt 包含销售部门员工的详细信息， emp_bonus.txt 包含获得奖金的员工详细信息。

emp_sales.txt

1,Robin,22,25000,sales 
2,BOB,23,30000,sales 
3,Maya,23,25000,sales 
4,Sara,25,40000,sales 
5,David,23,45000,sales 
6,Maggy,22,35000,sales

emp_bonus.txt

1,Robin,22,25000,sales 
2,Jaya,23,20000,admin 
3,Maya,23,25000,sales 
4,Alia,25,50000,admin 
5,David,23,45000,sales 
6,Omar,30,30000,admin

分别使用关系 emp_sales 和 emp_bonus 将这些文件加载到Pig中。

grunt> emp_sales = LOAD 'hdfs://localhost:9000/pig_data/emp_sales.txt' USING PigStorage(',')
   as (sno:int, name:chararray, age:int, salary:int, dept:chararray);
	
grunt> emp_bonus = LOAD 'hdfs://localhost:9000/pig_data/emp_bonus.txt' USING PigStorage(',')
   as (sno:int, name:chararray, age:int, salary:int, dept:chararray);

使用COGROUP运算符和键 sno，将关系 emp_sales 和 emp_bonus 的记录/元组分组，如下所示。

grunt> cogroup_data = COGROUP emp_sales by sno, emp_bonus by sno;

使用 DUMP 运算符验证关系 cogroup_data ，如下所示。

grunt> Dump cogroup_data;
  
(1,{(1,Robin,22,25000,sales)},{(1,Robin,22,25000,sales)}) 
(2,{(2,BOB,23,30000,sales)},{(2,Jaya,23,20000,admin)}) 
(3,{(3,Maya,23,25000,sales)},{(3,Maya,23,25000,sales)}) 
(4,{(4,Sara,25,40000,sales)},{(4,Alia,25,50000,admin)}) 
(5,{(5,David,23,45000,sales)},{(5,David,23,45000,sales)}) 
(6,{(6,Maggy,22,35000,sales)},{(6,Omar,30,30000,admin)})

计算两个关系之间的差异

现在让我们使用 DIFF() 函数计算两个关系之间的差异，并将其存储在关系 diff_data 中，如下所示。

grunt> diff_data = FOREACH cogroup_data GENERATE DIFF(emp_sales,emp_bonus);

验证

使用DUMP运算符验证关系 diff_data ，如下所示。

grunt> Dump diff_data;
   
({}) 
({(2,BOB,23,30000,sales),(2,Jaya,23,20000,admin)}) 
({}) 
({(4,Sara,25,40000,sales),(4,Alia,25,50000,admin)}) 
({}) 
({(6,Maggy,22,35000,sales),(6,Omar,30,30000,admin)})

如果 emp_bonus 和 emp_sales 中的记录匹配，则 diff_data 关系将是空元组。在其他情况下，它将保存来自两个关系（不同的元组）的元组。

例如，如果将 sno 的记录视为 1 ，那么会发现它们在两个关系中都是相同的((1，Robin，22,25000，sales),(1，Robin，22,25000，sales))。因此，在 diff_data 关系中，将为 sno 1 得到一个空元组，它是 DIFF() 函数的结果。

Apache Pig Eval函数

Apache Pig 介绍

Apache Pig 环境

Pig Latin 介绍

Apache Pig 加载和存储

Apache Pig 诊断运算符

Apache Pig 分组和连接

Apache Pig 合并和拆分

Apache Pig 过滤

Apache Pig 排序

Pig Latin 内置函数

Apache Pig 其他执行模式

Apache Pig 有用的资源

Apache Pig DIFF()函数

语法

例

计算两个关系之间的差异

验证

分类导航

关注微信下载离线手册