普元数据集成平台 普元数据集成平台
产品介绍
安装部署
快速入门
操作指南
FAQ
  • LocalFile Source组件使用说明
  • 组件说明
  • 配置项说明
  • FAQ

# LocalFile Source组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 读取文件数据写入Kafka
  • FAQ

# 组件说明

LocalFile 连接器。用于从本地文件系统读取数据。

# 配置项说明

配置名称 数据类型 是否必填 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
节点编码 String 是 - 当前创建的节点编码,以此标识此组件,由用户自定义且不可为空。命名可包含字母、数字、下划线。
文件路径 String 是 - 源文件路径。可以是完整路径,比如:/home/dws/infile/orderinfo.xls,也可以是不带具体文件名的路径,比如:/home/dws/infile/,然后通过"文件过滤正则表达式"进行过滤。
文件类型 String 是 json 支持:text、csv、parquet、orc、json、excel、xml 七种文件类型。
注意:选择 excel 文件时,请务必删除表头,只保留数据。
文件过滤正则表达式 String 否 - 过滤器模式,用于过滤文件。
跳过文件 Int 否 0 当选择文件类型为text/csv时,跳过文件前多少行。
sheet名称 String 否 - 当选择文件类型为excel时,选择sheet名称。
XML行标签 String 否 - 当选择文件类型为xml时,指定XML文件中数据行的标记名称。。
是否使用属性格式 Boolean 否 否 当选择文件类型为xml时,指定是否使用标记属性格式处理数据。
数据结构 String 是 - 获取的上游字段的信息。可以点击【获取字段】按钮自动获取全部字段名称及类型,也可以点击【增加字段】手工输入字段名称及类型。
读取列名 String 否 - 读取数据源的列,可以使用它来实现字段映射。
从文件路径解析分区键和值 String 否 是 控制是否从文件路径解析分区键和值。例如,如果从路径读取文件file://hadoop-cluster/tmp/seatunnel/parquet/name=tyrantlucifer/age=26。
日期格式 String 否 yyyy-MM-dd 将字符串转换为日期,支持格式:
yyyy-MM-dd
yyyy.MM.dd
yyyy/MM/dd
时间格式 String 否 HH:mm:ss 将字符串转换为时间,支持格式:
HH:mm:ss
HH:mm:ss.SSS
日期时间格式 String 否 yyyy-MM-dd HH:mm:ss 将字符串转换为日期时间,支持格式:
yyyy-MM-dd HH:mm:ss
yyyy.MM.dd HH:mm:ss
yyyy/MM/dd HH:mm:ss
yyyyMMddHHmmss
默认是 yyyy-MM-dd HH:mm:ss。
可选参数 - 否 - 其他参数,用户可以根据需求进行配置。

# FAQ

← Kafka MongoDB →