merge - 没有 proc SQL 的模糊连接

Question

再会，

我希望将两个日期合并到下一个最接近的日期。

数据集从 500Mb 到 1G 都是巨大的，所以这proc sql是不可能的。

我有两个数据集。第一个（舰队）有观察结果，第二个有日期和用于进一步处理的代号。像这样：

data Fleet
    CreatedPortalDate 
    2013/2/19 
    2013/8/22 
    2013/8/25 
    2013/10/01 
    2013/10/07 

data gennum_list
    date 
    01/12/2014 
    08/12/2014 
    15/12/2014 
    22/12/2014 
    29/12/2014 
    ...

我想要的是这样的链接表：

data link_table
    CreatedPortalDate date 
    14-12-03  01/12/2014 
    14-12-06  01/12/2014 
    14-12-09  08/12/2014 
    14-12-11  08/12/2014 
    14-12-14  08/12/2014

与逻辑

Date < CreatedPortalDate and (CreatedPortalDate - date) = min(CreatedPortalDate - date)

我想出的有点笨拙，我正在寻找一种有效/更好的方法来实现这一点。

data all_comb; 
  set devFleet(keep=createdportaldate);
  do i=1 to n;
    set gennum_list(keep=date) point=i nobs=n;
    if createdportaldate > date 
        and createdportaldate - 15 < date then do;/*Assumption, the generations are created weekly.*/
           distance= createdportaldate - date; 
          output; 
        end;
  end;
run;

proc sort data=all_comb; by createdportaldate distance; run;

data link_table; 
    set _all_comb(drop=distance); 
    by createdportaldate; 
    if first.createdportaldate; 
run;

任何想法如何改进或解决这个问题？
无知的想法：我可以创建distance将存储的哈希表。
数组可能吗？不知何故。

编辑：

通用格式
- 完毕
十亿行从何而来？
- 是的，还涉及其他数据，但日期是唯一的链接变量。
排序？
- 是的，数据已排序，可以再次排序。
gen num 日期总是相隔 7 天吗？
- 不，这是棘手的部分。否则我可以使用week和year（或其他分箱）作为唯一标识符。

score 1 · Accepted Answer

巨大是一个相对的术语，今天的巨大就是明天的斑点。

关键数据特征表明直接寻址查找方案是可能的

日期值是整数。
日期值范围是有限的。
日期值或未来 14 天中的任何一天将用作查找验证器
键是日期值，可以用作数组索引。

按如下方式加载一次 Gennum 查找

array gennum_of ( %sysfunc(today()) ) _temporary_;
if last_date then
  do index = last_date to date-1;
    gennum_of(index) = prev_date;
  end;

last_date = date;

并获取一个 gennum 作为

if portaldate > last_date
  then portal_gennum = last_date;
  else portal_gennum = gennum_of ( portaldate );

如果由于按帐户 ID 分组而有很多行，则必须清除并加载每个组的 gennum 数组。

score 1 · Accepted Answer

这是 sas`by`语句的典型应用。

步骤中的by语句data旨在一次读取两个或多个按公共变量排序的数据集。

公共变量是日期，但在两个数据集上的名称不同。在sql中，您通过要求一个变量与另一个变量相等来解决该问题Fleet.CreatedPortalDate = gennum_list.date，但该by语句不允许这样的构造，因此我们必须在读取数据集时（至少）重命名其中一个。这就是我们在rename选项中的子句中所做的事情gennum_list

data all_comb;
    merge gennum_list (in = in_gennum rename = (date = CreatedPortalDate))
          Fleet (in = in_fleet);
    by CreatedPortalDate;

我选择将by语句与merge语句结合起来，虽然 aset也可以完成这项工作，但是两个输入数据集的顺序会有所不同。

另请注意，我要求 sas 创建指示变量in_gennum并in_fleet指示值存在于哪个输入数据集中。知道这种类型的变量 id 没有写入结果数据集是很方便的。

但是，我们当然必须date从中恢复CreatedPortalDate

    if in_gennum then date = CreatedPortalDate;

如果您是 sas 新手，您会惊讶于上述语句不起作用，除非您明确指示 sasretain从一次观察到嵌套的日期值。（观察是行的 sas 行话。）

    retain date;

在这里，我们为从数据集中读取的每个观察写出一个观察Fleet。

    if in_fleet then output;
run;

这种方法的优点是

您需要更少的逻辑来正确组合来自两个输入数据集的观察结果（这data就是发明该步骤的目的）
你永远不必在内存中保留一组值，所以你不会有溢出问题
这个解决方案在数据集的大小（除了排序之外）中是 1 阶（O1），所以我们预先知道将数据量加倍只会使时间加倍。
免责声明：这个答案正在建设中。

本周晚些时候将进行测试

merge - 没有 proc SQL 的模糊连接

2 回答 2

这是 sasby语句的典型应用。

这种方法的优点是

免责声明：这个答案正在建设中。

Related

Reference

这是 sas`by`语句的典型应用。