0

我正在研究预处理技术,其中我专注于两个表的属性之间的语义匹配。如何编写一个 scala 程序来做这样的语义匹配?

考虑我有两个表 A 和 B

A 具有属性 ( employee_id, DOB, salary)

B 具有属性 ( emp_id, data_of_birth, sal)

我需要在两个表中找到最匹配的属性,这样我的输出表就不会有重复的列(例如:emp_id 和employee_id 应该被发现相似并被视为单列)。

4

1 回答 1

0

Scala 集合有交集,会得到两个集合的共同元素。

ex: collecationA.intersect(collectionB) 但是,如果您来自 spark api,我们可以执行的模式级别比较(与 intersect 相同)运算符

希望这可以帮助 !!

于 2019-06-08T07:33:12.443 回答