我是 hadoop 生态系统的新手。我试图使用以下查询从 CSV 文件创建配置单元表。
CREATE EXTERNAL TABLE IF NOT EXISTS proxy_data(
date_time TIMESTAMP,time_taken INT, c_ip STRING,
sc_status INT, s_action STRING, sc_bytes INT,
cs_bytes INT, cs_method STRING, cs_uri STRING,
cs_host STRING, uri_port INT, uri_path STRING,
uri_query STRING, username STRING, auth STRING,
supplier_name STRING, content_type STRING, referer STRING,
user_agent STRING, filter_result STRING, categories STRING,
x_virus_id STRING, proxy_ip STRING
)
COMMENT 'Proxy logs'
LOCATION '/user/admin'
tblproperties ("skip.header.line.count"="1");
此查询实际上创建了一个表 proxy_data 并填充了位于指定位置的 csv 文件中的值。
现在,我想将另一组 CSV 中的值附加到同一个表中(它应该跳过 csv 文件中存在的标题)。我检查了各种解决方案,但没有什么能满足我的需要。