nuocmiacodoc
Junior Member
Có thím nào đã xây dựng pineline ingest data từ on-premise database như oracle, mysql lên trên Bigquery sử dụng Dataflow hoặc Data Fusion chưa nhỉ? Mình đang thắc mắc là có cơ chế nào để de-duplicate dữ liệu khi đang được batching vào và dữ liệu cũ đã nằm trên Bigquery không nhỉ. MÌnh có kiểm tra trên Datafusion thì Bigquery sink có hỗ trợ nhưng không hỗ trợ cho Bigquery Multi Tables sink. Cơ chế CDC trên Datafusion cũng không hỗ trợ de-duplicate.