Filter
预处理器是用于数据 ETL 的脚本。它的作用是将杂乱、未清洗的数据转换为标准化、清洗过的数据。Twinkle 支持的预处理方式是运行在 dataset.map 方法上。
Filter 的基类:
class DataFilter:
def __call__(self, row) -> bool:
...
格式为传入一个原始样本,输出一个boolean。Filter可以发生在Preprocessor的之前或之后,组合使用:
dataset.filter(...)
dataset.map(...)
dataset.filter(...)
Filter 包含 call 方法,这意味着你可以使用 function 来代替类:
def my_custom_filter(row):
...
return True