thảo luận Thắc mắc về cơ chế de-duplicate dữ liệu khi ingest data từ RDBs vào Bigquery sử dụng Dataflow hoặc Datafusion, Google Cloud

nuocmiacodoc

Junior Member
Có thím nào đã xây dựng pineline ingest data từ on-premise database như oracle, mysql lên trên Bigquery sử dụng Dataflow hoặc Data Fusion chưa nhỉ? Mình đang thắc mắc là có cơ chế nào để de-duplicate dữ liệu khi đang được batching vào và dữ liệu cũ đã nằm trên Bigquery không nhỉ. MÌnh có kiểm tra trên Datafusion thì Bigquery sink có hỗ trợ nhưng không hỗ trợ cho Bigquery Multi Tables sink. Cơ chế CDC trên Datafusion cũng không hỗ trợ de-duplicate.
 
CDC thì GCP có Datastream, de dupe khả năng enable exactly one chỗ Dataflow chứ BQ bản chất nó là warehouse làm sao hỗ trợ được nhỉ?
 
Back
Top