Wrangler 命令行指令

本页介绍了您可以在 Wrangler 中使用的指令。

在 Wrangler 高级模式(Wrangler CLI)中,您可以向制谱添加指令和函数。如需了解详情,请参阅 Wrangler CLI 指令Wrangler 函数

Wrangler 支持以下指令:

列操作

指令 说明
更改列大小写 将列名称更改为小写或大写。
更改 更改列值的大小写。
清理列名称 按照特定规则清理列名称。
列 替换 批量更改列名称。
复制 将值从源列复制到目标列。
移除列 丢弃记录中的列。
填充 null 或空白 如果值为 null 或空,请输入固定的列值。
Keep 保留记录中的指定列。
合并 通过插入第三列来合并两列。
重命名 重命名记录中的现有列。
设置标头 按照指定的顺序设置列的名称。
拆分为列 根据分隔符将列拆分为多列。
切换 交换两列的列名称。
集合类型 转换列的数据类型。

日期转换

指令 说明
差异日期 计算两个日期之间的差值。
设置日期格式 用于日期时间格式的自定义模式。
格式化 UNIX 时间戳 将 UNIX 时间戳格式化为日期。

日期时间转换

指令 说明
当前日期时间 使用给定时区生成当前日期时间。
将日期时间转换为时间戳 根据日期时间和给定时区创建时间戳。
设置日期时间格式 将日期时间格式化为指定格式的字符串。
将时间戳转换为日期时间 将时间戳转换为日期时间。

编码器和解码器

指令 说明
解码 将列值解码为 base32base64hex. 之一
编码 将列值编码为 base32base64hex. 之一

哈希和遮盖

指令 说明
哈希 生成消息摘要。
遮罩序列号 对列值应用替换遮盖。
蒙版随机 对列值应用随机打乱遮盖。

查找

指令 说明
目录查找 ICD-9、ICD-10-2016 和 ICD-10-2017 代码的静态目录查询。
表查找 对表数据集执行查找。

自然语言处理

指令 说明
对标记化字词进行词干提取 对英语单词应用 Porter 词干提取算法。

输出格式设置函数

指令 说明
以 CSV 格式写入 将记录转换为 CSV 格式。
以 JSON 映射的形式写入 将记录转换为 JSON 映射。
写入 JSON 对象 根据指定的字段组合 JSON 对象。
采用货币格式 将数字设置为货币格式(根据语言区域指定)。

解析器

指令 说明
JSON 路径 使用 DSL(JSON 路径表达式)解析 JSON 记录。
解析为 AVRO 文件 解析 AVRO 数据文件。
解析为 CSV 将输入记录解析为以英文逗号分隔的值
解析为货币 将货币值(即本地货币的字符串表示法)解析为数字。
解析为日期时间 将字符串解析为采用给定格式的日期时间数据类型。
解析为 Excel 解析为 Microsoft Excel 文件。
解析为固定长度 解析为具有指定宽度的固定长度记录。
解析为 HL7 解析 Health Level 7 版本 2 (HL7 V2) 消息。
解析为 JSON 解析 JSON 对象。
解析为日志 解析访问日志文件,例如 Apache httpd 和 NGINX 服务器。
解析为简单日期 解析日期字符串。
解析为时间戳 将表示 Unix 时间戳的列值解析为日期。
将 XML 解析为 JSON 将 XML 文档解析为 JSON 结构。

行操作

指令 说明
过滤行 根据条件过滤记录。
如果匹配,过滤行 过滤与列的模式匹配的行。
展平 用于分隔重复字段中的元素。
在满足条件时失败 当条件的求值结果为 true 时,处理失败。
发送到错误 将记录过滤到错误收集器。
发送到错误并继续处理 将记录过滤到错误收集器,并继续处理。
拆分为行 根据分隔符拆分为多个记录。

转换

指令 说明
更改 将列值的大小写更改为大写或小写字符。
创建记录 通过将值从来源列复制到目标列,创建包含嵌套值的记录列。
剪切角色 选择字符串值的部分。
设置列 将列值设置为表达式执行结果。
查找和替换 使用类似“sed”的表达式转换字符串列值。
量化 对列值应用量化。
提取正则表达式组 将一组正则表达式的数据提取到自己的列中。
设置字符集 设置编码,然后将数据转换为 UTF-8 字符串。
设置记录分隔符 设置记录分隔符。
拆分电子邮件 将电子邮件 ID 拆分为账号及其域名。
拆分网址 将网址拆分为其组成部分。
文本距离(模糊字符串匹配) 衡量两个字符序列之间的差异。
文本指标(模糊字符串匹配) 衡量两个字符序列之间的差异。
网址解码 application/x-www-form-urlencoded MIME 格式进行解码。
网址编码 编码为 application/x-www-form-urlencoded MIME 格式。
修剪聊天室 用于修剪字符串数据周围空格的函数。

瞬时汇总器和 setter

指令 说明
递增变量 使用处理记录递增一个瞬时变量。
设置变量 设置包含处理记录的瞬时变量。

唯一 ID

指令 说明
生成 UUID 生成通用唯一标识符 (UUID)。

后续步骤