普元数据集成平台 普元数据集成平台
产品介绍
安装部署
快速入门
操作指南
FAQ
  • 时间戳StarRocks到Hive增量同步(增量)
  • 说明
  • 配置项说明
  • FAQ

# 时间戳StarRocks到Hive增量同步(增量)

  • 说明
  • 配置项说明
  • 使用示例
    • 时间戳StarRocks到Hive增量同步
  • FAQ

# 说明

用于将 StarRocks 的数据迁移到 Hive。可以将来源库 StarRocks 的多个表或者全部表(整库)的数据迁移到 Hive 的目标库、表。

Hive 库目标表不存在时,会自动创建目标表,可在模型上设置目标表存储格式,支持ORC、PARQUET、TEXTFILE 格式;

Hive 库目标表存在时,会自动获取表存储格式,支持获取 ORC、PARQUET、TEXTFILE 格式,其中 TEXTFILE 格式分隔符支持默认、TAB、逗号。

# 配置项说明

配置项 是否必填 默认值 描述
选择数据源(来源) 是 - 来源数据的数据源名称,该选项是已经在项目配置中添加过的数据源。
选择库(来源) 是 - 来源数据源中的数据库名称。选择来源数据源后自动读取并显示数据库名称,可以直接选择。
选择数据源(目标) 是 - 目标数据的数据源名称,该选项是已经在项目配置中添加过的数据源。
选择库(目标) 是 - 目标数据源中的数据库名称。选择目标数据源后自动读取并显示数据库名称,可以直接选择。
获取表信息 否 - 如果数据库表发生变化,点击此按钮获取最新的表字段。添加表的弹窗会显示最新的表名称。
表名称映射 是 - 来源表与目标表名称的映射,默认是同名映射(即:目标表与来源表名称一样)。
前缀/后缀 否 - 给目标表名称添加前缀或者后缀,用于批量修改目标表的名称。
同步 是 同步 是否执行同步的开关,有两个选项:同步、不同步。
同步:表示执行,来源表数据会同步到目标表;
不同步:表示不执行,来源表数据不会同步到目标表。
存储类型 是 ORC 有三种选项:ORC、PARQUET、TEXTFILE。
字段分区 是 - 设置该值,可生成hive分区表,可设置多个分区,分区字段有先后顺序。
分割文件(行) 否 0 目标表以文件形式存储数据,设置该值可指定每个文件中包含的行数。
数据添加模式 是 追加数据 支持三种模式:
1、追加数据:数据统一追加到目标表中;
2、同步前删除数据:先清空目标表数据,然后再给目标表添加数据;
3、当存在数据时,报告错误:当目标表存在相同数据时,报告错误,不会添加数据。
提示:增量同步的默认值都是:追加数据。
忽略错误继续执行 是 不勾选 勾选:表示在数据同步过程中当一张表出现错误时忽略该表错误继续执行其他同步作业。
不勾选:表示遇到错误时停止后续全部作业的执行。

# FAQ

无

← (增量)时间戳StarRocks到关系型数据库增量同步 Seatunnel 通用模板开发 →