<데이터 품질의 비밀> 저자 3인이 전하는 한국 독자들을 위한 메시지
신뢰할 수 없는 데이터는 가뜩이나 부족한 데이터 엔지니어링 조직의 신뢰, 시간 리소스를 잠식합니다. 예를 들어 데이터 조직은 업무 시간의 무려 40%를 데이터 품질 문제에 소비합니다. 그리고 데이터 워크로드가 갈수록 증가하고, 파이프라인은 더욱 복잡해지면서 이러한 문제는 더욱 악화되고 있습니다.
2019년 우리(바 모세스와 라이어 개비쉬)가 몬테카를로(Monte carlo)를 창업했을 때 ‘데이터 옵저버빌리티(Data Observability)’ 카테고리에는 적당한 이름도 붙어 있지 않았습니다. 그러나 데이터 품질 문제를 해결하기 위한 현재의 접근 방식이 더 이상 유효하지 않다는 것만은 확실히 알고 있었습니다. 지금은 여전히 많은 조직에서 수동 테스트, 꿈과 희망, 간절한 기도에 의지하며 데이터 품질에 문제가 없기만을 바라는 경우가 허다하기 때문입니다.
또한 소프트웨어 엔지니어링과 데브옵스(DevOps, Development(개발)+Operation(운영))에서 검증된 모범 사례를 적용하면, 데이터 사고가 재해로 이어지는 것을 방지할 수 있다는 것도 확신하고 있었습니다. 언급한 모범 사례의 예시로는 사고(incident) 관리, 근본 원인 분석, 자동화된 탐지 및 알림, 계보, 서비스 수준 계약(SLA, Service-level agreements), 서비스 수준 목표(SLO, Service-level objectives) 설정 등이 있습니다.
참고로 데브옵스는 소프트웨어를 신속하게 개발 및 운영하여 시장에 빠르게 내놓음으로써, 비즈니스 가치를 높이고 대응 능력을 개선할 목적으로 기업 문화, 자동화, 플랫폼 설계에 접근하는 방식을 의미합니다. 이를 데이터 품질 관리에 적용할 수 있다는 것입니다.
물론 데이터와 소프트웨어에는 차이점이 많습니다. 하지만 데이터 조직이 당면한 거대한 리스크인 데이터 다운타임, 즉 데이터가 누락되거나 부정확하거나 오류가 있는 시간에 적절히 대응하기 위해서 접근 방식을 체계화할 필요가 있었습니다. 이때 소프트웨어 엔지니어링과 데브옵스 방법론을 적용하기에는 충분한 유사점이 있다는 사실을 발견했습니다.
이런 과정을 거쳐서, 몬테카를로는 데이터 신뢰성 구축과 데이터 품질 문제 해결 이슈를 대하는 접근 방식을 ‘데이터 옵저버빌리티’로 정의했습니다. 여기에는 비용과 시간이 소모되지만, 데이터 옵저버빌리티는 데이터 엔지니어링 커뮤니티에서 광범위한 반향을 일으켰습니다. 저희도 예상하지 못했던, 뜨거운 반응이었습니다.
수백 명의 고객이 4년 동안 데이터 품질 문제를 관리 및 해결하기 위해 몬테카를로의 솔루션과 데이터 옵저버빌리티 접근 방식을 사용했습니다. 그리고 이 노하우를 오라일리의 책 <데이터 품질의 비밀: 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드>로 공유하기로 했습니다. 이렇게 우리의 노하우가 담긴 책이 출간되고 나니 그제서야 무언가 성취했다는 기분을 느낄 수 있었습니다.
<데이터 품질의 비밀: 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드>가 한국 독자들의 데이터 옵저버빌리티 여정에 도움이 되기를 기대합니다. 그동안 여러분에게 데이터 다운타임이 일어나지 않기를!