데이터 품질의 비밀

(17개의 고객 상품평)

데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

  • 발행일 : 2023년 4월 10일
  • 지은이 : 바 모세스, 라이어 개비쉬, 몰리 보르웨르크
  • 옮긴이 : 데이터야놀자
  • 페이지 : 376쪽
  • ISBN : 979-11-981408-1-4
  • 난이도 : 초중급
  • 정가 : 28,000원 → 판매가 : 25,200원(10% off)
  • 판형 : 46배변형판(183*235)

28,000

설명

데이터를 다루는 일을 하는 사람들이라면
누구나 읽어보고, 알아보고 싶었던 ‘데이터 품질’
데이터가 곧 가치인 시대, 성패는 데이터 품질에 달려있다!

이 책은 신뢰할 수 없는 데이터로 고통받고, 내적 비명을 지르며 이 상황을 개선하기 위해 무언가 하고 싶어 하는 모든 이들을 위한 길잡이다. 기본적으로 이 책은 데이터를 정제하고 이해하는 방법을 다룬 매뉴얼처럼 보인다. 그러나 여기서 더 나아가 보다 안정적인 데이터 시스템을 구축하고 그 과정에서 조직 및 이해관계자와 데이터 신뢰를 구축하는 모범 사례, 도구 및 프로세스까지 설명한다. 책을 다 읽었을 때, 최소한 조직 전반에서 데이터 품질과 신뢰성의 우선순위를 정할 때 써먹을 만한 몇 가지 요령을 터득하길 바란다. 데이터 신뢰는 하루아침에 완성되지 않는다. 올바른 접근 방식을 기반으로, 파이프라인 하나하나가 점진적으로 쌓인다.

데이터 품질의 비밀

 

▶︎ 지은이 소개

바 모세스바 모세스
데이터 신뢰성 솔루션 회사 몬테카를로(Monte Carlo)의 CEO 겸 공동 설립자로, 데이터 분야에서 10여 년간 일했다. 이스라엘 공군의 데이터 인텔리전스 부대 사령관, 베인앤컴퍼니(Bain&Company)의 컨설턴트, 게인사이트(Gainsight)의 운영 부사장으로 재직하면서 데이터 및 분석 팀을 구성하고 이끌었다. 또한 데이터 엔지니어 분야의 화두인 데이터 통합 옵저버빌리티를 주제로 한 오라일리의 첫 번째 강좌에서 강연자로 나섰다. 그녀는 데이터 옵저버빌리티 관련 어려움을 겪고 있는 수백 개의 데이터 조직과 협업하며, 현장에서 얻은 생생한 영감을 바탕으로 ‘데이터 다운타임’ 문제를 식별하고 해결하며 예방하는 솔루션을 개발하고 있다. 데이터 다운타임이란 데이터가 누락됐거나, 부정확하거나, 데이터에 오류가 있어 생기는 문제를 말한다. 그녀는 데이터 조직들이 이 책을 통해 기술적·조직적·문화적 모범 사례를 배워서 대규모로 양질의 데이터 품질을 달성할 수 있기를 바라며, 본인의 경험과 교훈을 공유했다.

 

라이어 개비쉬라이어 개비쉬
몬테카를로의 CTO 겸 공동 설립자다. 몬테카를로에 합류하기 전에는 사이버 보안 스타트업인 수카사(Sookasa)를 공동 설립했으며, 이 회사는 2016년 바라쿠다(Barracuda)에 인수됐다. 이후 바라쿠다에서 엔지니어링 수석 부사장을 역임하며 부정 및 사기 방지(Fraud prevention)를 위한 머신러닝 프로덕트를 출시해 관련 상을 수상했다. 라이어는 스탠퍼드 대학교에서 MBA를, 텔아비브 대학교에서 컴퓨터 공학 석사를 취득했다.

 

 

 

몰리 보르웨르크몰리 보르웨르크
몬테카를로의 콘텐츠 책임자다. 몬테카를로에 합류하기 전에는 우버(Uber) 엔지니어링 블로그의 편집장 겸 우버 기술 브랜드 팀의 수석 프로그램 관리자로 근무하면서, 소속 엔지니어, 데이터 과학자, 분석가들과 함께 기술 업무와 경험에 관해 콘텐츠를 작성하고 편집했다. 또한 우버 CTO를 위한 내부 커뮤니케이션과 우버 AI랩스(Uber AI Labs)의 연구 검토 프로그램 전략을 리드했다. 여가 시간에는 USA투데이 에 데이터 최신 동향 기사를 투고하는 프리랜서로 일하며, 캘리포니아 역사학회에서 자원봉사도 한다.

 

 

 

▶︎ 옮긴이 소개

데이터야놀자
데이터야놀자는 오픈 소스 커뮤니티 정신을 바탕으로 하여 구성원 모두의 자발적인 참여로 운영되어 왔다. 어울림, 참여, 즐거움의 가치를 최우선으로 하여 발표자, 청중, 커뮤니티, 후원 기업 모두가 데이터로 어울릴 수 있는 장을 펼쳐 가고 있다. 데이터에 대한 관심은 나날이 늘고 있지만, 데이터를 가지고 ‘놀 줄 아는’ 사람들의 이야기는 접하기가 어렵다. 더 많은 데이터 이야기가 공유되고 생태계가 활성화될 수 있도록 매년 10월 콘퍼런스를 진행하고 있다. ‘놀자’가 중심이고 ‘데이터’는 거들 뿐! 올해도 데이터야놀자는 계속된다. 즐거운 분위기에서 데이터로 놀아본 경험을 공유할 발표자와 청중, 커뮤니티 그리고 후원은 데이터야놀자 대표 이메일(datayanolja.master@gmail.com)로 문의해 주기를 바란다! 생생한 커뮤니티 소식은 페이스북에서 확인해 보자! (https://www.facebook.com/datayanolja)

 

▶︎ 출판사 리뷰

[이 책의 핵심 내용]

  • 바로 지금, 데이터 품질에 주목해야 하는 이유
  • 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법
  • 데이터 품질 신뢰성을 높이는 방법과 실제 사례
  • 데이터 품질을 향상시키는 거버넌스와 실제 사례
  • 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개
  • 데이터 품질의 미래 트렌드 4가지

[이 책의 대상 독자]

  • 데이터 엔지니어
  • 기업의 데이터 파이프라인을 구축하고, 확장하고, 관리하는 실무자
  • 데이터로 서비스를 만드는 데이터 프로덕트 매니저
  • 데이터 품질에 투자하려는 의지가 있는 COO
  • 데이터 품질을 중시하는 데이터 분석가
  • 데이터 품질을 중시하는 데이터 과학자

[이 책의 구성]

1장: 지금 데이터 품질에 주목해야 하는 이유
현재 시점에서 데이터 품질에 주목해야 하는 이유를 살펴보고 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명한다. 이와 관련하여 ‘데이터 다운타임’이라는 개념을 소개하고, 사이트 신뢰성 엔지니어링(SRE) 팀의 초창기로 거슬러 올라가, 동일한 데브옵스(DevOps) 원칙을 어떻게 데이터 엔지니어링 워크플로에도 적용할 수 있는지 설명한다.

2장: 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인 기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 살펴본다. 이를 통해 탄력적인 데이터 시스템을 구축하는 방법에 대해 설명한다. 여기서 소개하는 세 가지 기본 기술은 양질의 데이터 프로덕션을 위한 사전 준비에 사용되며, 데이터를 저장·처리·추적한다.

3장: 데이터 수집 · 정제 · 변환 · 테스트
데이터 품질과 신뢰성을 염두에 두고 데이터를 수집·정제·변환·테스트하는 방법을 설명한다. 이를 통해 데이터가 파이프라인에 있기 전과 파이프라인에 있는 동안 품질을 관리하는 방법을 알려준다. 특히, 최근 주목받는 방법론인 데이터 실시간 처리 시 사용할 수 있는 데이터 품질 관리 툴과 해당 툴의 이점을 짚어준다. 마지막으로 데이터 테스트 단계를 마친 뒤, 아파치 에어플로를 활용하여 데이터 품질을 효율적으로 관리할 수 있는 방법을 안내한다.

4장: 데이터 파이프라인 모니터링 및 이상 탐지
데이터 신뢰성 워크플로의 가장 중요한 측면 중 하나인 사전 이상 탐지 및 모니터링을 설명한다. 독자들의 이해를 돕기 위해, 공식적으로 사용 가능한 데이터셋인 거주 가능한 외계 행성에 관한 모의 천문 데이터를 활용하여 데이터 품질 모니터 구축 방법을 공유한다.

5장: 데이터 신뢰성을 위한 아키텍처
지금까지 다룬 중요한 기술들을 잘 조합하려면 어떻게 해야 하는지, 어떤 사례에서도 데이터 품질을 잘 측정하고 보장할 수 있는 강력한 프로세스와 시스템을 설계하려면 어떻게 하면 좋을지 큰 그림으로 조망한다. 이어서 에어비앤비(Airbnb), 우버(Uber), 인튜이트(Intuit) 및 기타 기업의 데이터 팀이 SLA(서비스 레벨 계약), SLI(서비스 수준 지표), SLO(서비스 수준 목표) 설정을 비롯해 데이터 안정성을 일상적인 워크플로에 통합하는 방법을 살펴본다. 또한 이들 데이터 팀이 신선도, 볼륨, 배포, 스키마, 계보의 다섯 가지 핵심 요소를 기반으로 데이터 품질을 최적화하는 데이터 플랫폼 구축 방법을 공유한다.

6장: 대규모 데이터 품질 문제 해결
데이터 사고 관리, 근본 원인 분석, 포스트모템, 그리고 사고 커뮤니케이션의 모범 사례 구축 등 운영 환경에서 데이터 품질 문제에 실제로 대응하고 해결하는 데 필요한 단계를 자세히 들여다본다.

7장: 엔드 투 엔드 데이터 계보 구축
모든 데이터 엔지니어가 갖추어야 할 무기이자 즐겨 사용하는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다. 이를 통해, 최신 데이터 시스템을 위한 ‘엔드 투 엔드 필드 레벨’ 데이터 계보를 만들 때 고려해야 할 주요 내용, 계보에 포함되는 세 가지 요소 등을 배울 수 있다. 더불어, 거대 미디어 기업 폭스 네트워크에서 데이터 신뢰성을 보장하기 위해 데이터 아키텍처를 어떻게 설계했고, 이를 데이터 계보로 어떻게 구축했는지 실제 사례를 들어 알아본다.

8장: 데이터 품질 민주화
조직 전반에 데이터 품질 관리의 중요성을 알리고, 구성원 모두가 데이터 품질 관리에 쉽게 접근할 수 있도록 민주화하는 과정에서 넘어야 할 문화적·조직적 장벽에 대해 논의한다. 구체적으로는 데이터를 프로덕트처럼 취급하는 시각과 데이터 품질에 대한 회사의 RACI 매트릭스를 이해하는 원칙, 비즈니스에 미치는 영향을 극대화할 수 있는 데이터 조직 구성 방법을 다룬다.

9장: 현실에서의 데이터 품질: 전문가 대담과 사례 연구
실제 사례 연구 및 대담 내용을 공유한다. 데이터 메시를 만든 자마크 데가니(Zhamak Dehghani), (데이터 품질이 최우선인) 분산형 데이터 아키텍처로 마이그레이션하는 방법에 대해 자신 있게 이야기하는 안토니오 피타스(António Fitas), 폭스(Fox)의 데이터 서비스 부사장이자 ‘관리된 자유(controlled freedom)’ 데이터 관리 기술의 선구자인 알렉스 트베르돌렙(Alex Tverdohleb)이 자신의 경험을 공유해 주었다.

10장: 신뢰할 수 있는 데이터 시스템의 미래 개척
신뢰할 수 없는 데이터가 비즈니스에 미치는 재정적 영향을 측정하기 위한 구체적인 계산법을 설명한다. 여기서 다루는 내용은 데이터 다운타임 해결이라는 임무를 지고 있을 많은 독자들이 문제를 해결하기 위해 더 많은 도구와 프로세스에 투자하는 리더십을 발휘하는 데 도움을 줄 것이다.

 

▶︎ 추천사

데이터를 신뢰할 수 없다면 데이터 투자, 인프라 및 통찰력은 모두 소용없다. 이 책의 공동 저자인 바(Barr), 라이어(Lior), 몰리(Molly)는 데이터 신뢰의 근본적인 의미를 꼼꼼히 설명하기 위해 엄청난 노력을 기울였으며, 기업에서 데이터 품질을 구현할 때 매우 실용적으로 쓸 수 있는 프레임워크를 만들었다. 데이터 품질에 관심 있는 사람이라면 누구나 읽어야 할 필독서라고 자신 있게 추천한다.
_데바쉬스 사하(전 앱젠(AppZen), 인튜이트(Intuit), 이베이(eBay) 데이터 리더)

데이터 아키텍처가 점점 더 분산되고, 데이터에 대한 책임도 점점 더 분산되면서 데이터 품질이 갈수록 중요해질 것이다. 이 책은 요즘 가장 중요한 기술과 프로세스에 주목하며, 데이터의 정확성·신뢰성·사실성을 진지하게 개선하는 엔지니어링 조직을 위해 핵심 정보를 제공한다.
_맘마드 자데(데이터 리더 겸 전 인튜이트 엔지니어링 부사장)

데이터 엔지니어, ETL 프로그래머, 전체 데이터 파이프라인 조직은 이 책과 같은 참고 문서, 테스트 가이드가 절실히 필요하다. 데이터 애플리케이션의 품질을 보장하는 데 도움이 되는 각 요소와 프로세스 및 도구가 무엇인지, 또 그것들이 어떤 역할을 하는지 배울 수 있기 때문이다. 이 책은 특히 신선한 관점과 실용적인 테스트 시나리오를 통해 최신 데이터 파이프라인을 테스트할 때 인사이트를 제공한다.
_웨인 야도우(데이터 및 ETL 품질 분석가)

데이터 품질은 데이터 분석의 신뢰도와 밀접하게 연관돼 있다. 데이터가 원활하게 흐르는 조직이 되기 위해서는 구성원들이 데이터에 쉽고 빠르게 접근해서 활용할 수 있어야 하는데 이때 의사 결정 속도를 확보하는 것이 곧 비즈니스 발전 속도가 됐다. 이 책에서 데이터옵스를 통해 신뢰도 높은 데이터를 확보하는 방법과 이를 기반으로 빠른 의사 결정을 내리는 사례를 찾아보기 바란다. 현재 조직의 데이터옵스 현황도 진단해 보면 더할 나위 없겠다.
_윤정환(OP.GG 데이터 팀 리드)

이 책의 특별함은 데이터를 활용한 비즈니스적인 성과가 주를 이루는 많은 데이터 관련 출판물과는 달리, 데이터 활용 전에 이루어져야 하는 데이터 정합성과 무결성을 높이는 기본에 관한 방법론을 제시하는 데 있다.
_장재영(신한카드 D&D 연구소장, 최고 데이터 책임자)

데이터 품질 문제는 데이터 엔지니어링 분야에서 빈번하게 발생한다. 이 책은 그 문제를 해결할 데이터 팀의 기술, 프로세스, 문화를 종합적으로 다뤘다. 그래서 데이터 분석가, 데이터 과학자, 데이터 파이프라인을 구축하고 관리하는 모든 분에게 자신 있게 추천할 수 있는 책이다.
_조승완(비바리퍼블리카 데이터 엔지니어)

데이터가 없는 것보다 잘못된 데이터에 기반한 의사 결정이 더 무섭다고 생각한다. 이 책은 데이터 품질을 챙기고 싶지만 어디서부터 시작해야 할지 혼란스러운 실무자와 의사 결정권자들에게 다양한 규모의 조직에서 적용해 볼 수 있는 실질적인 방법론을 제시한다. 더불어 기술에만 국한되지 않고 조직 관점에서 실제 사례를 제공하기 때문에 지침서로서도 손색이 없다.
_조재영(오토피디아 데이터 엔지니어)

과거와 달리 이제는 데이터 파이프라인이라는 개념이 어느 정도 정립되었다. 수집할 데이터의 텔레메트리 디자인부터 시작하여 데이터 전송과 수집, 가공, 공급, 테스트, 모니터링 등으로 분화되어 데이터 파이프라인을 구성하는데, 그 모든 분야에서 품질 관리가 필수적이다. 컴퓨터라는 단어조차 없을 때의 격언은 지금의 첨단 기술에도 해당된다- garbage in, garbage out. 제대로 관리되지 않은 데이터를 기반으로 한 AI라면 아무리 훌륭한 기술이라도 좋은 결과를 낼 수가 없다. 신뢰할 수 있는 데이터 시스템을 거대 스케일로 구축하는 데에 필요한 구성 요소를 폭넓게 커버하는 이런 책이 꼭 필요하다고 본다.
_주한나(양파)(MS 코파일럿 응용 AI 팀, 데이터 과학자)

 

▶︎ 목차

CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유
1.1 데이터 품질이란?
1.2 데이터 품질의 현재
1.3 마치며

CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
2.1 운영 데이터와 분석 데이터의 차이
2.2 차이는 어떻게 만들어지는가?
2.3 데이터 웨어하우스 vs 데이터 레이크
2.4 데이터 품질 지표 수집
2.5 데이터 카탈로그 설계
2.6 데이터 카탈로그 구축
2.7 마치며

CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트
3.1 데이터 수집
3.2 데이터 정제
3.3 배치 처리 vs 실시간 처리
3.4 실시간 처리를 위한 데이터 품질
3.5 데이터 정규화
3.6 분석 데이터 변환 실행
3.7 테스트 및 경고 알람 시스템
3.8 아파치 에어플로를 활용한 데이터 품질 관리
3.9 마치며

CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지
4.1 알려진 미지와 알려지지 않은 미지
4.2 이상 탐지 알고리즘 구축
4.3 스키마 및 계보를 위한 모니터 구축
4.4 파이썬과 머신러닝으로 이상 탐지 확장
4.5 이상 탐지의 심화 과정: 기타 유용한 접근법
4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크
4.7 마치며

CHAPTER 5 데이터 신뢰성을 위한 아키텍처
5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지
5.2 파이프라인에서 높은 데이터 품질 측정 및 유지
5.3 데이터 품질 다운스트림
5.4 데이터 플랫폼 구축
5.5 데이터 신뢰 구축
5.6 [사례 연구] 블링키스트
5.7 마치며

CHAPTER 6 대규모 데이터 품질 문제 해결
6.1 소프트웨어 개발 시 품질 문제 조정
6.2 데이터 사고 관리
6.3 사고 대응 및 완화
6.4 [사례 연구] 페이저듀티의 데이터 사고 관리
6.5 마치며

CHAPTER 7 엔드 투 엔드 데이터 계보 구축
7.1 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축
7.2 [사례 연구] 폭스의 데이터 신뢰성을 위한 아키텍처
7.3 마치며

CHAPTER 8 데이터 품질 민주화
8.1 데이터를 프로덕트로 다루는 시각
8.2 데이터를 프로덕트로 다루는 사례
8.3 데이터 플랫폼을 향한 신뢰 축적
8.4 데이터 품질 책임 할당
8.5 데이터 품질 보장을 위한 책임감 조성
8.6 데이터 접근성과 신뢰 간 균형
8.7 데이터 인증
8.8 데이터 인증 프로그램 실행 7단계
8.9 [사례 연구] 적합한 데이터 조직을 찾는 토스트의 여정
8.10 데이터 리터러시 함양
8.11 데이터 거버넌스와 컴플라이언스
8.12 데이터 품질 전략 수립
8.13 마치며

CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구
9.1 데이터 품질 향상을 위한 데이터 메시 구축
9.2 왜 데이터 메시인가?
9.3 자마크 데가니와의 대화: 데이터 메시에서 데이터 품질의 역할
9.4 [사례 연구] 콜리브리 게임즈의 데이터 스택 여정
9.5 비즈니스에 메타데이터 활용
9.6 데이터 검색에서 얻는 메타데이터의 가치
9.7 데이터 품질 관리 시기 결정
9.8 마치며

CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척
10.1 사후 대응이 아닌 사전 예방적 대응
10.2 데이터 품질 및 신뢰성의 미래 예측
10.3 이제부터 우리는 무엇을 해야 할까?

찾아보기

 

▶︎ 예제 소스

https://github.com/decodingbook/Data-Quality

 

▶︎ 정오표

https://github.com/decodingbook/Data-Quality

추가 정보

지은이

바 모세스, 라이어 개비쉬, 몰리 보르웨르크

옮긴이

데이터야놀자

발행일

2023년 4월 10일

페이지

376쪽

ISBN

979-11-981408-1-4

판형

46배변형판(183*235)

예제 소스

https://github.com/decodingbook/Data-Quality

정오표

https://github.com/decodingbook/Data-Quality

데이터 품질의 비밀에 대한 17개 리뷰

  1. 권민승

    데이터 파이프라인 구성과 데이터 수집/가공/정제 및 데이터 품질 향상을 위한 저자들의 노하우가 가득 담긴 아주 소중한 책 입니다
    데이터 분야에 일하시는 많은 분들의 시행착오를 확실하게 줄여 줄 수있는 아주 훌륭한 책 입니다
    두번 세번 보세요 ~

  2. 김용범

    데이터를 다루는데 경험이 많은 전문가가, 자신이 아는 내용을 책 1권에 꼭 꼭 눌러 담은 책 입니다. 때문에 너무 많은 내용을 담다보니 겉핥기 식으로 넘어가는 부분이 많고 실습내용은 거의 없어서 전문가 인터뷰를 준비하는 분들에게나 적합한 내용 입니다.

    반면 데이터를 다루는게 경험이 부족한 초보자 분들에게는 아쉬운 책 입니다

  3. 김석찬

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

    일종의 부서 이동(?) 이후에 대량의 데이터를 다루는 파트로 옮긴지 반년이 다되어 간다.
    그러다보니 당연하게도 데이터가 관심사에 추가 되었고 점점 더 큰 비중을 차지 하게 되었다.

    특히 많은 데이터들을 필요에 따라 가공하여 사용하는 일이 많다보니 처리 속도와 용량등 성능 문제와 더불어
    결과 값들의 정확성이나 신뢰성이라고 할까? 그런 것들에 대한 관심도 많이 커지게 되었다.

    이번 도서는 데이터 품질을 위한 데이터의 수집 단계에서 부터 정제, 변환, 테스트에 관한 내용을 거쳐 데이터 파이프라인, 신뢰성을 위한 아키텍쳐, 품질 문제 발생시 해결, 데이터 계보 구축, 데이터 품질 민주화(제목 보고 이해하기 힘들었….)의 내용을 거쳐 사례연구와 앞으로 나아갈 방향을 제시 하는 내용으로 이루어져 있다.

    첫 챕터에서 데이터 산업 동향을 다루고 있는데, 당연하겠지만 데이터 산업은 IT에서 하나의 큰 축을 이루고 있다.
    예전 RDBMS로 다루던 데이터의 양은 이제 하둡과 같은 시스템을 기반으로 엄청난 양의 데이터를 다루는 방향으로 변해가고 있다.

    두번째 챕터에서는 데이터 시스템 구축을 위한 내용을 다루고 있다.
    먼저 분석 데이터와 운영 데이터를 구분하여 설명하고, 데이터 웨어하우스와 데이터 레이크에 관해서 구분하여 설명하고 있다.
    물론 최근들어 웨어하우스와 레이크의 경계가 점점 모호해 지는 부분에 관해서도 다루고 있다.
    데이터 품질을 위한 품질 지표에 대해서 다루고 이후 데이터 카탈로그 설계와 구축으로 내용이 넘어 간다.

    세번째 쳅터에서는 데이터의 수집, 정제, 변환, 테스트에 관한 내용을 다루고 있다.
    아마 나와같은 개발자들이 가장 많이 접하는 업무에 관한 내용일 것이라 생각된다.
    최초의 데이터 수집을 거쳐 데이터 정제를 위한 배치, 또는 실시간 처리와 정규화, 데이터의 변환, 데이터의 테스트 및 경고 알람 시스템 등에 관한 내용을 다루고 있다.

    네번째 쳅터는 데이터 파이프라인 모니터링 및 이상 탐지에 관한 내용이다.
    세번째 쳅터가 주 업무라면 이 쳅터의 내용은 주 업무가 원활하게 돌아 갈 수 있도록 도와주는 내용이 아닐까 생각 한다.
    모니터링 시스템을 구축하고 모니터링 시스템을 통한 이상 탐지를 하는 내용들이다.
    머신러닝을 이용한 경고시스템 개선에 관한 내용도 다루고 있다.

    여기까지 내용은 신규 시스템에도 적용 가능 하지만 운영중인 시스템에 적용해볼 만 한 내용들이 있는듯 하다.

    다섯번째 쳅터에서는 아키텍처 내용을 다루고 있다.
    각 단계에서 데이터 품질을 위한 방안 등을 포함하는 아키텍처 관련 내용이다.

    여섯번째 쳅터는 품질 문제가 발생했을 떄 해결 방법에 대해서 다루고 있다.
    사고 라고 표현해서 서비스 장애라는 느낌을 줄수 있는데 데이터에 문제가 생겼을 경우 대한 내용이다.
    데이터 이상의 감지, 대응, 원인 분석, 문제 해결 에 관한 내용을 다루고 있다.

    일곱번째 쳅터는 엔드 투 엔드 데이터 계보 구축 이라는 타이틀을 가지고 있다.
    쉽게 설명하자면 데이터의 히스토리를 어떻게 관리 할지에 관한 내용이다.(더 어렵나….)
    데이터를 오랫동안 수집하게 되면, 중간중간 스키마 변경이라던데 NULL값이 들어가는 등 뭔가 점점 꼬여가기 마련이다.
    이런 문제들을 위한 내용을 담고 있다고 보면 될 것 같다.

    여덟번째 쳅터는 데이터 품질 민주화 라는 정치적인 제목을 가지고 있다!
    원래 제목도 “Democratizing Data Quality” 라고 되어 있다.
    다루고 있는 내용은 조직 전반에서 데이터를 어떻게 바라보고 다루어야 할지,
    어떻게 구성원 모두가 데이터 품질 관리에 쉽게 접근 할 수 있도록 할 지에 관한 내용이다.
    결국 데이터 품질을 위해서 모두가 노력 해야 한다는 내용이다.

    아홉번째 쳅터는 사례연구이고 열번째 쳅터는 앞으로 나아갈 방향의 제시를 담고 있다.
    책 표지 이미지를 찾으러 한빛 사이트에 갔다가 책이 검색이 안되서 살짝 당황 했었다.

    이 책은 디코딩이라는 한빛의 임프린트 출판사에서 출간한 책이고 디코딩 사이트에서 표지 이미지를 찾을 수 있었다.
    책 상세 정보에 난이도를 초중급이라 표기 해 두었던데 개인적으로 절대 초급자에게 도움이 될 책은 아닌듯 하다.
    개인적으로는 최소한 중급 이상은 되어야 하지 않을까 싶다.
    …요즘 초급들은 이런 내용을 쉽게 이해 하려나? (부제: 내가 너무 늙은걸까…ㅠㅠ)

    이 책의 전반적인 내용을 간단하게 요약 하자면 “데이터라는 범위에 국한된 소프트웨어공학” 이라고 표현 하면 맞지 않을까?

    오랜만에 단순 정보의 전달이 아닌, 내가 겪어봤던 다양한 케이스에 비추어 한번씩 생각하게 만들어 주는 내용의 책인것 같다.

  4. 박범진

    한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다
    출판사가 “한빛미디어”이 아닌 “디코딩”이라는 브랜드로 되어있네요. 임프린트 방식이라고 하네요.

    이번에 리뷰할 책은 “데이터 품질의 비밀”입니다.

    데이타가 중요한 세상이 되었습니다. 과거에는 우수한 인재와 좋은 SW 등으로 어느정도 회사 운영이 가능했지만, 지금은 어마어마한 대용량 데이타가 실시간으로 쏟아지고 있고, 이를 분석해서 AI나 기타 도구등을 이용해서 실시간으로 적절한 판단을 내려야 합니다. 특히 데이타처리가 핵심인 회사들에서는 느리거나 잘못된 판단은 큰 손해를 일으킬 수도 있습니다.
    신선하지 못하거나 상한 요리재료로는 아무리 훌륭한 요리사라도 좋은 요리를 만들어 내지 못합니다. 데이타가 들어오고 쌓이고 가공되고 서비스에서 활용되는 단계마다 데이타의 상태를 체크하여 관리해야 합니다.

    데이타의 흐름은 보통 API응답, 로그, IOT데이타등의 소스에서 넘어온 데이타가 데이터레이크에 담기고 ETL등의 과정으로 데이터 웨어하우스에 쌓이고 이를 각종 서비스에서 활용하게 됩니다.
    각 단계별로 해야할 일들을 다양한 그림 도표등으로 알려주고,
    툴들을 이용해서 어떤 문제가 있는지 파악하고, 조치하고, 분석하고, 신뢰성등을 측정하는 방법들에 대해 알려줍니다.
    데이터 계보를 통해 라이프사이클 각 단계의 데이터 상태를 UI를 통해 직관적으로 파악할 수 있게 하며
    사례연구로 좀 더 현실감있게 바라보게 해주고,
    문제가 생겼을때의 처리절차라던지 이런 일들을 하기 위해 어떤 역할을 가진 사람들로 조직 구성은 어떤식으로 하는게 좋을지에 대해 알 수 있습니다.

    데이타분석 및 활용이 메인인 회사에 종사하거나 그렇지 않더라도 데이타 분석이 메인Role인 분들에게 유용한 책이 될 거 같습니다.
    다만 아주 대기업이거나 큰 규모의 조직이 아니라면 좋다는 건 알겠는데 현실은 …

  5. 김진국

    “한빛미디어 활동을 위해서

    책을 제공받아 작성된 서평입니다.”

    현재는 데이터의 양과 질로 기업 성패가 가려지며, 이에 대한 데이터의 중요도와 가치성은 점점 더 높아지고 있는 추세이다.

    DB에 무조건 데이터를 쌓는다고 해서 데이터를 잘 관리하고 품질을 높일 수 있는 것은 아니다.

    책에서 기술하였듯이 분명 중요하고 필요치 않은 데이터들도 들어오고 이것들을 어떻게 처리해야 하는지도 기업 비지니스의 방향에서 중요한 부분일 것이다.

    초급 – 초중급 – 중급 – 중고급 – 고급

    데이터 분석 분야에서 아마 가장 높은 난이도의 책이지 않을까 싶다.

    그만큼 깊이와 넓이가 있다라는 뜻.

    이 책은 데이터 전문가들(엔지니어, 책임자, 과학자, ETL 품질 분서가 등등)이 읽어야 하며,

    데이터 분야에 오랫동안 몸 담근 사람들이 소화할 수 있는 책이다.

    데이터에 관련한 내용들이 아주 방대하게 펼쳐져있다.

    난 아파치 카프카를 신봉하는데…

    ‘아파치 카프카’와 비교하여 ‘아파치 키네시스’를 비교 설명해준 부분이 참 맘에 들고 좋았다.

    AWS에 대해서 어느 정도 잔뼈가 굵은 나에게

    AWS를 소개하는 이 책은 나에게 겸손함을 가르쳐줬다.

    유일하게 아는 분야 뿐만이 아니라 AWS에 데이터 섹터에 여러 서비스들도 소개하고 있기 때문이다.

    (ex. 디쿠 Deequ, ETL, ELT, single source of truth, SLA, SLI, SLO, SRE 등등)

    다 괜찮고 좋은데…

    왜 SQL 프로시저로 예제를 진행하는지……

    Previous imageNext image
    프로시저 이제는 제발 ㅃㅃㅇ 했으면… ㅠ_ㅠ

    이렇게 프로시저로 진행하는 부분 빼고 모두 괜찮았다.

    프로시저가 이 세상에서 아예 사라지는 시대가 왔으면 좋겠다.

    물론 큰 IT 어플리케이션의 레거시에는 코볼 쓰는데도 있고 프로시저 쓰는 곳도 아직 잔재해있기야 하겠지만..

    이제 백엔드 비지니스 로직에 양보하자~

    내가 몰랐던 데이터 용어들도 엄청 많았다.

    내가 데이터 엔지니어가 아닌 웹 엔지니어이기 때문이기도 그러하리라~

    IT에서 데이터 분야의 넓은 정보의 바다의 아주 깊은 깊이와 넓이를 느끼게 해준 책이다.

    블링키스트, 페이저듀티, 폭스, 콜리브리 게임즈의 기업 사례를 들며,

    데이터 품질을 높이기 위한 여러 여정을 소개해준 부분도 인상 깊었다.

    책의 두께와 다르게

    데이터 품질에 대한 도구와 섹터를

    정확히 소개하고 있어서 생각보다

    데이터에 대한

    사전지식을 넓혀주리라 장담한다.

    데이터 품질의 비밀

    데이터 파이프 라인 구축, 모니터링 시스템, 데이터 옵저버빌리티의 구성과 방법에 관심이 있다면

    이 책을 꼭 한번 읽어보기 바란다~!!!

  6. 조원양

    이 책은 데이터 품질의 개념, 데이터 품질을 측정하고 개선하는 방법, 데이터 품질 관리 프로그램 설정 방법을 다룹니다. 이 책은 데이터 품질과 관련된 다양한 주제를 다루면서 현대 비즈니스에서 데이터의 중요성과 올바른 데이터 품질 관리의 필요성을 강조합니다.
    ​저자는 데이터 품질이 무엇인지, 왜 중요한지, 그리고 어떻게 데이터 품질을 평가하고 향상시키는지에 대해 명확하게 설명합니다.
    이 책은 데이터 품질에 대한 개념으로 시작합니다.

    그리고 데이터 품질을 측정하고 개선하는 방법에 대한 다양한 방법을 설명합니다. 데이터 품질을 측정하는 방법으로 데이터 검증, 데이터 스키마 분석, 데이터 정규화 등을 소개하고 있습니다. 또한 데이터 품질을 개선하는 방법에는 데이터 수집 프로세스 개선, 데이터 입력 프로세스 개선, 데이터 저장 및 관리 프로세스 개선 등을 제시하고 있습니다.

    ​이 책은 데이터 품질 관리 프로그램 설정 방법에 대한 정보와 현실적인 예제, 그리고 실용적인 팁을 제공합니다. 데이터 품질 관리 프로그램은 데이터 품질을 개선하고 유지하기 위해 설계된 일련의 프로세스와 절차입니다. 데이터 품질 관리 프로그램에는 데이터 품질 정책 개발, 데이터 품질 프로세스 문서화, 데이터 품질 교육 제공 등이 포함될 수 있습니다.

    이 책은 데이터 품질에 대한 기본적인 이해가 필요한 모든 사람에게 필독서입니다. 이 책은 데이터 품질의 개념, 데이터 품질을 측정하고 개선하는 방법, 데이터 품질 관리 프로그램 설정 방법을 다룹니다.

    데이터 관리와 데이터 품질에 대한 지식을 갖추려는 비즈니스 전문가, 데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 다양한 분야의 전문가와 학습자들에게 강력히 추천하는 책입니다.


    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

  7. 윤효선

    체계적인 데이터 관리가 필요한 데이터 실무자에게 꼭 필요한 책

    GIGO _ Garbage In Garbage Out
    “IT 에서 사용한 용어로 ” 쓰레기 정보가 입력되면, 쓰레기 정보가 출력된다”

    책을 읽으면서 떠오른 단어였습니다.

    데이터 분석은 왜 하는 것일까?
    데이터 분석하는 목적은 합리적인 의사결정을 하기 위해서라고 생각합니다.

    그러면 합리적인 의사결정을 위해서는 무엇일 필요할까?
    정확한 데이터가 필요합니다. 부정확한 데이터로 데이터 분석을 하게되면 의사 결정에도 오류가 발생하게됩니다.
    그래서 데이터 품질 관리가 중요합니다.

    데이터 품질에 대해서는 책에서 정의한 내용을 보면
    데이터 품질( Data Quality )은 데이터의 신뢰성, 완전성, 정확성을 측정하는 기능적인 측면부터 구체화 되기 시작 했다로 정의 되어있습니다.
    즉 데이터가 유용한 정보를 제공해주고, 지속적으로 유용한 정보를 받기위해서는 체계적으로 관리가 필요합니다.
    책은 체계적인관리하는 방법에 대해서 방법론은 소개 하고 있습니다.

    책의 주요 내용은
    – 바로 지금, 데이터 품질에 주목해야 하는 이유
    – 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법
    – 데이터 품질 신뢰성을 높이는 방법과 실제 사례
    – 데이터 품질을 향상시키는 거버넌스와 실제 사례
    – 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개
    – 데이터 품질의 미래 트렌드 4가지

    주요내용을 보면 대략적으로 책의 수준이 나타납니다.
    저에게는 너무 어려운 내용이었습니다.

    데이터에 관심이 많고 배울려고하는 비전공자의 입장에서 책의 내용은 어려웠습니다.
    책의 독자는 데이터 관련 업무를 하는 데이터 전공자 입니다.
    – 데이터 관리 실무자
    – 데이터 분석가
    – 데이터 엔지니어

    책의 목차
    CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유
    CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립
    CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트
    CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지
    CHAPTER 5 데이터 신뢰성을 위한 아키텍처
    CHAPTER 6 대규모 데이터 품질 문제 해결
    CHAPTER 7 엔드 투 엔드 데이터 계보 구축
    CHAPTER 8 데이터 품질 민주화
    CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구
    CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척

    제조업체가 생산물에 대해서 품질관리를 통해서 고장이 없는 우수한 상품을 만들어내듯이
    데이터도 체계적인 데이터 품질 관리를 통해 합리 적인 의사결정에 활용이 필요하다고 생각됩니다.
    데이터 관련 실무자라면 읽거봤으면 합니다.

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

  8. 장미희

    우리가 다루는 데이터에는 비밀이 있다.
    인공지능시대에는 데이터는 ‘원유’라고 하며,
    D.N.A 생태계에서 가장 중요한 역할을 하고 있다.
    알리바바의 마윈은
    지난 20년간 지속된 IT의 시대가 저물고,
    앞으로 30년간 DT혁명에 기반한 새로운
    인터넷 시장이 열리게 될 것이며,
    이제는 방대한 고객 데이터를 활용해 개별
    고객의 요구에 부응할 줄 아는 기업이
    성공하는 DT시대가 될 것'이라고 함
    하지만 올바른 데이터를 수집하고 정제하고 분석하는 일은
    쉽지 않다.
    전체 작업의 오랜 시간을 수집과 정제에
    힘을 쏟는 다는 것은
    분명 이유가 있다.
    GIGO는 올바른 데이터를 사용했을 때
    좋은 품질의 분석 결과를 얻을 수 있다.
    즉, 데이터의 신뢰성이 데이터의 품질을 높인다.

    데이터를 수집하고 정제하는 과정에서
    결측치, 이상값, 중복데이터등의
    데이터를 어떻게 처리하느냐는 중요하다.
    특히, 나는 정제과정이 매우 중요하다고 생각하는
    이유에서
    이 책은 매우 흥미있게 다가왔다.
    데이터 정제는 높은 품질을 달성하는데 가장 큰 장애물 중
    하나는 정제 data cleaning 이다.
    데이터의 정제에는 데이터 유형, 데이터 처리 및
    데이터 프로덕트 개발 상태에 다라 매우 다양한 종류가 있으며
    오류값 제거, 정규화, 데이터 재구성, 시간대 변환등
    테스트 방법을 설명하고 있으며
    아파치 에어플로를 활용하여 효율적으로 관리할 수 있는
    방법들을 안내하고 있다.

    데이터 신뢰성 워크플로우의 가장 중요한
    사전 이상 탐지 및 모니터링을 설명한 부분이나
    조직 전반에 데이터 품질 관리의 중요성과
    데이터 조직 구성 방법등도
    새롭게 알게 되었다.

    실제 사례 연구와 경험 사례는
    데이터 품질을 이해하는 좋은 공유가 되었다.
    ​하지만, 책의 난이도가 있는 편이다.
    데이터 품질에 대한 지식과
    그 분야에서 관심이 있거나
    진로가 있다면
    한 번은 꼭 읽어봐야 한다는 생각이 든다.
    한 번만 보기 보다는
    한 번 읽은 후
    필요한 챕터별로 꺼내서
    보면 도움이 많이 될 것 같다.

    ​”한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

  9. 백재연

    오롯이 데이터에 집중해서 주변 기술을 정리하고 설명하는 책이 출간되었습니다. 디코딩이라고 하는 한빛미디어 임프린트 브랜드에서 번역서로 나왔는데요. 아주 재밌는 것은 역자로 등록된 게 커뮤니티라는 점입니다. “데이터야놀자”에서 번역을 진행했네요. 데이터야놀자와는 2017년에 인연이 있습니다.

    각설하고, 이 책은 데이터 품질부터 시작해서 다룹니다. 품질이란 무엇이며 데이터 다운타임이 주는 의미를 다시금 생각할 수 있게 합니다. 그리고 많은 사람들이 그 개념에 대해 아직 팽팽하게 논의하는 “데이터 웨어하우스”와 “데이터 레이크”에 대해서 다루고 있고요. 뭐 이것 또한 유행의 흐름이라고 생각합니다. 시간이 조금 더 지나야 조금 더 명확해질 것으로 보입니다. “데이터 레이크 하우스”라는 용어까지 나오는 걸 보면 아직 갈길이 남아있는 것 같네요.

    또한, 무릇 데이터를 다룬다고 하면 ETL 즉, 추출(Extract), 변환(Transform), 로드(Load)를 빼놓을 수 없는데요. 이것도 한 개 파트를 할애해서 내용을 담고 있습니다. 이 과정에서 Amazon Kinesis와 Apache kafka를 통한 사례를 이야기합니다. 그리고 Apache Airflow는 빼놓을 수 없겠죠. 데이터 품질 관리를 위해 Airflow를 어떻게 사용할 수 있는지 설명합니다. 후반부로 가서는 End to End 데이터 계보 구축, 데이터 품질 민주화 등 용어만 들어도 잔뜩 기대되는 것들이 등장합니다. 이미 우리 데이터팀이 하고 있는 업무일 수도 있고, 계획된 것들도 보일 겁니다. 만약 그렇다고 하면 이 책을 통해 용어와 개념을 다시 정리하는 시간을 가질 수 있을 것이고 그렇지 않다면 적극 도입을 검토할만한 액션 아이템을 건질 수 있을 겁니다.

    특히 데이터 메시는 아주 재밌는 주제인데요. 이 책을 통해 그 개념을 배울 수 있습니다. 그리고 현재 데이터 업무에 종사하고 있다면 이것을 도입해야 할지, 말아야 할지 점검해 볼 수 있습니다. “데이터 메시 점수 계산”을 통해서 말이죠. 이 점수는 데이터 소스의 양, 데이터 팀의 규모, 데이터 도메인 수, 데이터 엔지니어링 병목현상, 데이터 거버넌스로 계산됩니다. 아마 엔터프라이즈급의 회사가 아니라면 대부분 필요하지 않다로 점수가 나올 테지만 이론일 뿐, 현업에서는 다시 꼼꼼히 따져봐야 할 겁니다. 실제 이론을 만든 Zhamak Dehghani 역시 아직 이 모델이 “진화의 초기 단계”라고 말했으니까 말입니다. 자마크의 도서(데이터 메시)에서 자세한 내용을 살펴볼 수 있을 듯한데 아마 조만간 번역서가 나오지 않을까요?

    그렇게 두껍지도 않은 책인데 아주 많은 내용을 알차게 담고 있습니다. 데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 데이터와 관련된 업에 종사하고 있다면 이 책을 통해 데이터 트렌드를 확인해 보시길 바랍니다. 책장에 두고 여러 번 꺼내보게 될 것 같네요 🙂


    한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.

  10. 자윰

    데이터를 다루는 사람들이라면 데이터 품질에 대해 고민하는 순간들이 끊임없이 있을 것이다. 나 또한 데이터 품질에 대해 고민하는 순간들이 많고, 또 더 나은 데이터 품질을 위해 여러가지 작업을 진행하고 있는데, 그런 나에게 있어 작업을 진행하기 전에 봤으면 얼마나 좋았을까 하는 생각이 드는 책이었다.

    책은 데이터 품질이 무엇인지부터 시작하며, 일반적으로 데이터를 다루는 사람들이라면 한번 쯤 다 들어보았을 데이터 웨어하우스와 데이터 레이크, 배치 처리와 실시간 처리, ETL과 ELT, 에어플로우와 같은 워크플로 등에서 데이터 품질을 향상시키기 위해 어떤 것들을 할 수 있는지를 예제와 함께 보여주고 있다. 예제의 경우 직접 데이터셋을 보고 SQL 쿼리를 통해 하나하나 추론해나가면서 품질을 향상해나가는 방법을 보여주기도 하고, 특정 제품군(ex. 스노우플레이크)에서 어떤 식으로 데이터 품질을 위한 기능을 제공하는지를 쿼리할 수 있는 SQL 쿼리를 보여주기도 한다.

    책을 읽으면서 좋았던 점은 데이터 품질을 향상시키기 위해 선택할 수 있는 방안들을 여러 가지 소개하고, 그것들이 언제 적합한지, 장단점은 무엇인지 소개해놓았다는 점이다. 각자 다루는 데이터의 도메인이나 규모, 사이즈, 형태 등이 모두 다르기 때문에 이런 것들을 비교하며 적절한 방식을 적용할 수 있도록 고려할 수 있다는게 좋았다. 책의 후반부에는 실제 사례에 대해서도 소개가 되어있는데, 이런 사례들을 보면서 나는 어떤 방향으로 나아가야하고, 데이터팀은 어떤 방식으로 나아가야하는지 방향성도 엿볼 수 있어 좋았다.

    데이터를 다루는 사람들은 데이터의 신뢰도를 위해 데이터 품질을 고민해본 경험이 한번 쯤은 있을 것이다. 이 책은 데이터 품질 향상 고민을 하는 사람들에게 문제를 어떤 식으로 풀어나가야 할 지 길을 제시해주는 좋은 이정표가 될 것이다. 나 또한 데이터 품질과 관련하여 실제로 실무적으로 고민하던 부분이 있었고, 이를 해결할 수 있는 부분을 책에서 발견했기 때문에, 데이터 품질을 고민하는 사람이라면 시간내어 읽어보는 것을 추천한다.

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

  11. 황준하

    데이터는 어떻게 저장되고 관리되어 왔을까? 이 책은 데이터의 저장, 관리 등이 어떻게 이루어져왔으며 이에 대한 문제점과 향후 어떤 방향으로 트랜드가 변하고 있는지 알려준다.

    나의 경우에는 데이터 분석 및 관리 측면에 관심이 있지는 않았지만 머신러닝, 딥러닝을 통해 데이터를 다루게 되면서 데이터를 100% 신뢰해도 되는지(데이터의 결측값, 이상치 등)와 데이터의 질을 높이기 위한 방법에 대해 생각하게 되었고 좋은 기회로 이 책을 읽게 되었다.

    그런 의미에서는 예상과는 사뭇 다른 내용이여서 당황했지만, 데이터가 어떻게 수집되고 관리되는지 깊게 알아볼 수 있는 귀중한 시간이었다.

    처음에 현재의 데이터가 어떻게 저장되고 관리되고 있는지 간단하게 알려주며 어떤 방향으로 흘러가고 있는지 짚어준다. (개인적으로는 데이터마트, 데이터레이크 등과 같은 용어도 생소했고 이런 개념이 왜 등장하게 되었으며 어떤 방식을 추구하는지가 인상깊었다) 그리고 차례로 데이터 시스템, 수집 및 정제, 모니터링 등으로 이어진다. [이상 탐지에서는 머신 러닝을 이용하기도 한다]

    아직 학생이기도 하고 데이터베이스나 데이터 관리 및 수집에 조예가 없다보니 이 책을 한 번 보는 것만으로 전체 내용을 이해했다고 보기 어려워서 여러 번 다시 읽어봐야겠다.

    한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.

  12. 김승태

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

    업무를 보다 보면 내가 잘 모르는 분야에 대해 업무를 수행하는데 구글링이나 chatGPT에서도 원하는 결과를 못 얻을 때가 많다.

    그럴 때 필요한 분야의 지식을 책에서 얻으면 이 만큼 반가울 수가 없다.

    마치 내가 “데이터 웨어하우스 구축 관련하여 조언 주실 분 찾습니다.”라고 했을 때 “원하는 답변일지는 모르겠지만, 제가 답변할 수 있을 것 같습니다”하고 담당자가 툭 튀어나오는 느낌이다.

    이 책이 그런 종류의 책이고 MLOps 업무를 수행하다가 급작스레 데이터 엔지니어링 업무를 수행하면서 참고하며 사용했던 그런 책입니다.

    주니어 레벨에서 높은 수준의 개발자들이 고민한 생각과 설계를 배울 수 있다고 생각합니다.

  13. 고주형

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

    이 책의 초반에는 데이터 품질에 왜! 주목해야 되는지 알려줍니다.

    그리고 데이터 파이프라인 구축하며 겪게 되는 여러 문제점들을 다룹니다.
    데이터소스의 증가, 이종 데이터 간 결합, 데이터 사용 증가, 서비스 고도화로 인한 종속성의 증가 등.

    저자분들이 강조하는 점을 두고 생각하는 것만으로 여러 인사이트를 얻을 수 있었습니다.

    이 책은 실무적인 내용과 경험을 많이 담고 있기 때문에 데이터 엔진니어링에 관해서 입문하는 입장에서는 읽기가 어려운 부분이 있었습니다. 책에서 엄청나게 깊게 파고들진 않아서 읽는데에 큰 문제는 없었지만 최소한 여기서 제시하는 문제점들에 대한 감을 바로 잡을 수 있는 분이 보시면 더 많은 것을 이 책으로부터 얻을 수 있었지 않았을까 싶습니다.

  14. 이종원

    P.S 한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.

  15. 이종원

    (글 저장이 제대로 되지 않아서 다시 업로드 합니다 ^^;)

    데이터가 세상을 집어삼키고 있다. 이 말은 허황된 표현이 아니다. 데이터를 통해 비즈니스의 성패가 좌우되고 이는 곧 비즈니스의 핵심이 바로 데이터라는 데 그 누구도 부정할 수 없는 시대를 목도하고 있다. 빅데이터, AI 와 같은 기술이 나날이 발전하고 더욱 고도화되면서 데이터 중요성은 재차 언급하지 않아도 누구나 인정할 수 밖에 없는 현실과 마주하게 된다. 데이터를 잘 다루는 기업과 그렇지 못한 곳은 단순히 성과를 얼마나 낼 수 있느냐에 문제에 직면하게 되는 게 아니라, 존폐의 기로에서 어떠한 운명을 맞이하게 될지 걱정해야 하는 상황이 기다리고 있을지도 모른다. 그만큼 데이터의 중요성을 다시 역설할 수 밖에 없는 데, 문제는 데이터의 품질로 귀결된다. 데이터를 다루는 모든 개인과 조직은 품질 좋은 데이터를 만들기 위해 노력하고, 최종적으로 그 데이터를 통해 가치를 생성한다. 그저 데이터만 잘 다루는 게 아니라, 이제는 데이터 품질에 대해 진지하게 고민하고 논의해야 하는 시점에 다다른 것이다. 오늘 소개하는 책이 바로 데이터 품질에 대해 이야기 하는 도서로서, 데이터 품질의 비밀에 얽힌 다양하며 흥미로운 주제를 만날 수 있었다.

    이 책은 데이터 품질이란 과연 무엇이며, 왜 데이터 품질에 주목해야하는지에 대해 언급하며 이야기를 풀어 나간다. 데이터 다운타임, 데이터 옵스, 데이터 메시, 그리고 데이터 웨어하우스와 데이터 레이크, 레이크하우스 등의 개념과 조우하면서 데이터 품질이 화두가 되는 배경에 대해 다양한 사례를 통해 이해하게 된다. 핵심은 비즈니스 목표에 부합하는 의사 결정을 위해 품질 높은 데이터가 요구된다는 것이다. 그렇다. 데이터는 비즈니스 목표를 달성할 수 있도록 가공되어야 하며, 이를 통해 데이터 업타임이 오랫동안 유지돼야 한다.

    이윽고 운영 데이터와 분석 데이터, 데이터 웨어하우스와 데이터 레이크 등의 차이에 대한 담론을 다루며 데이터 품질에 대한 세부적인 논의가 시작된다. 데이터 수집, 정제, 변환, 테스트에 이르는 파이프라인 각각의 여정과 모니터링 및 보다 신뢰성 높은 아키텍처를 위한 측정 그리고 데이터 품질 문제 해결을 위한 구체적이고 실용적인 방안 등을 통해 데이터 품질을 위한 다양한 이론과 지식을 습득하게 된다.

    데이터 품질 민주화 챕터에서 데이터를 프로적트로 취급하는 시각이 참 독특하고 인상적이었는데, 프러덕트화된 데이터가 갖추고 있는 특성과 가치를 통해 데이터 품질에 어떻게 이바지하고 보다 효율적으로 소기의 목적을 달성하게 되는지에 대해 학습하게 된다.

    책의 후반부에서는 데이터 품질에 관한 전문가 대담을 통해 데이터 메시 등을 더욱 심층적으로 다루며, 데이터 메시의 중요성을 다시 한 번 설파하고 있다. 데이터 메시가 앞으로 어떻게 더 확산되고 진화하며 발전할지 자못 기대가 되는 지점이다. 끝으로 저자는 데이터 품질을 위한 미래에 대해 이야기하며 보다 나은 데이터 품질을 위해 어떻게 움직여야 할지에 대해 언명한다.

    바야흐로 데이터 품질을 다시금 평가하고 논하는 시대에 접어들었다. 이제 더이상 예전의 그저 그런 데이터를 만들기 위해 시간과 인력, 비용을 쓸모없이 허비할 게 아니라면, 고품질 데이터를 통해 가치를 만들고 비즈니스 목표에 도움되고자 한다면 이 책과 함께 시작해 보는 게 어떨까? 데이터 품질의 비밀을 푸는 열쇠가 당신 손에 쥐어질 것이다.

    P.S 한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.

  16. 김예슬

    데이터 품질 관리, 개선하고자 하는 사람에게 많은 사례와 실제 도구를 기반으로 설명하고 있어 참고하기에 매우 유용하다고 생각되었습니다.
    데이터 분석을 하고 있어 아예 모르지는 않지만 전반적인 내용을 완전히 이해하기에는 넓고 얕게 다루고 있습니다.
    챕터 5부터는 각 챕터에 맞는 기술적, 조직적, 문화적 모범 연구가 사례와 도표, 대표적인 툴과 예시 쿼리가 상세하게 상세하게 수록되어 참고하기 좋았습니다. 언제 기술을 변경하고 적절한 데이터의 양은 어느 정도이고 어떤 프로세스를 실행해야 하는지 선택하고 이해하는 것이 중요하며 신뢰성을 위해서 높은 수준의 옵저버빌러티(Observability) 갖추고 문제 발생 시 쉽게 나타내어 사전 조치를 수행하여야 한다는 전반적인 프로세스 및 내부를 알게 되어 시야를 넒어진듯 합니다.

    데이터 중심 기조는 결국 언제나 문화에서 시작되고 문화에서 끝난다.
    pg.342 , 데이터 품질의 비밀
    그리고 느낀점은 사례에서도 나왔듯이 데이터 중심 문화 구축은 적절한 기술 스택 구축보다 훨씬 더 중요하다 였습니다. 아무리 구축하더라도 데이터 중심 문화가 되지 않는 다면 큰 영향력을 발휘할 수 없다고 느껴왔었는데…

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

  17. 김차니

    1. 시작

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

    2023년 5월달에 소개할 책은 「데이터 품질의 비밀」입니다

    인공지능, ChatGPT가 대세인 시대를 살고 있습니다.

    온통 인공지능에 대한 뉴스가 가득하고, 하루가 멀다하고 새로운 기술이 나오고 있습니다.

    ChatGPT의 GPT-3 초거대 AI 모델을 학습 시키기 위해 사용된 데이터 용량은 753GB라고 합니다.

    현재 GPT-4는 얼마나 큰 데이터를 가지고 학습을 시켰을까요?

    인공지능에서의 데이터는 꼭 필요한 존재입니다.

    인공지능은 GIGO(Garbage In Garbage Out)이라고도 합니다.

    쓰레기 데이터를 넣으면 쓰레기 인공지능 모델이 만들어진다는 이야기입니다.

    현재 인공지능 데이터 품질 표준을 제정하고 있습니다.

    아마 2023년에 출시가 되지 않을까 생각을 합니다.

    인공지능의 신뢰성을 제시하기 위해서는 데이터 품질의 신뢰성이 보장되어야 합니다.

    데이터의 품질이 점점 더 중요해지는 시기입니다.

    이런 때에 데이터 품질에 대한 유일한 책이 아닐까 생각을 합니다.

    물론 이책은 인공지능 데이터 품질에 대한 책은 아닙니다.

    비즈니스를 판단 할 때,

    회사의 방향을 돌리고,

    전략을 세울때 필요한

    데이터 기반의 의사결정에 대한
    데이터 품질에 관한 책입니다.

    데이터 신뢰를 확보하기 위해서는 체계적인 데이터 프로세스 정의·구축·실행이 필요하다고 필자는 제시하고 있습니다.

    데이터는 21세기의 원유라고도 합니다.

    데이터가 귀한 원유가 되기 위해서는 데이터의 신뢰성이 높아야 합니다.

    이 책은 신뢰 할 수 있는 데이터를 얻기 위한

    시스템 구축·데이터 수집· 정제· 변환· 테스트· 모니터링· 아키텍처· 문제해결· 조직· 인증· 사례 등을 다루고 있습니다.

    2.책의 내용

    이 책은 총 10장으로 이뤄져 있습니다.

    1장 지금, 데이터 품질에 주목해야 하는 이유

    2장 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

    3장 데이터 수집·정제·변환·테스트

    4장 데이터 파이프라인 모니터링 및 이상 탐지

    5장 데이터 신뢰성을 위한 아키텍처

    6장 대규모 데이터 품질 문제 해결

    7장 엔드 투 엔드 데이터 계보 구축

    8장 데이터 품질 민주화

    9장 현실에서의 데이터 품질: 전문가 대담과 사례 연구

    10장 신뢰할 수 있는 데이터 시스템의 미래 개척

    입니다

    데이터는 상상도 할 수 없을 정도로 증가하고 있습니다.

    지금의 세상은 점점더 복잡해지고 있고,

    점점 더 불확실해지고 있으며,

    점점 더 복잡해지고 있으며,

    점점 더 모호해지고 있습니다.

    시장에 대한 데이터,

    서비스를 통하여 생성되는 데이터,

    고객의 데이터 등을

    수집·정제·변환하고

    비즈니스를 도출하고

    전략을 세운다.

    이 모든 것을 행하기 위해서

    데이터 파이프라인을 구축하도록 도와준다.

    2장에서는 데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 설명한다.

    [64 페이지]

    3장에서는 데이터 파이프라인 전반에서 데이터 품질을 관리하고 규모에 맞게 데이터를 수집·정제·변환·테스트하는 방법을 설명한다.

    [84 페이지]

    4장에서는 이상 탐지 관련 주요 기술과 함께 엔드 투 엔드 프로세스를 살펴보고, 이상 탐지의 전통적인 기능을 뛰어넘는 자체 데이터 품질 모니터를 구축하는 방법을 공유한다.

    [159 페이지]

    5장에서는 CI/CD, 경고 및 분류, 사고 관리 등 신뢰할 수 있는 데이터 워크플로를 엔지니어링하여 데이터 신뢰성을 높이는 방법을 설명한다.

    [178 페이지]

    6장에서는 데이터 신뢰성 워크플로의 중요한 구성 요소인 사고 관리 및 해결 방식, 대규모 데이터 품질을 다루는 엔드 투 엔드 접근 방식을 자세히 설명한다.

    [224페이지]

    7장에서는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다.

    [255 페이지]

    8장에서는 앞서나가는 데이터 조직이 데이터 품질 민주화를 위해 적용하는 프로세스와 기술을 알려준다.

    9장에서는 데이터 메시와 검색 툴을 포함하여 높은 데이터 품질을 달성하는 데 가장 중요한 기술과 주제를 소개한다.

    [340 페이지]

    10장에서는 데이터 품질을 관리하고 유지할 때 필요한 노력과 리소스를 정당화하기 위한 접근법을 제공한다.

    3. 책을 읽은 후

    이 책은 데이터 품질에 관심 있는 사람이라면 누구나 읽어야 할 필독서 입니다.

    데이터 품질에 관한 책이 흔하지가 않습니다.

    데이터의 정확성/신뢰성/사실성을 개선하는 조직을 위한 핵심 정보를 제공하고 있습니다.

    이책에서 얻을수 있는 내용은

    -현재 데이터 품질을 주목해야 하는 이유

    -데이터 품질을 위한 파이프라인 구축/모니터링시스템 구성 방법

    -데이터 품질 신뢰성 높이는 방법과 실제 사례

    -데이터 품질 향상 거버넌스와 실제 사례

    -데이터 품질 투자 대비 효용성 계산 공식

    -데이터 품질의 미래 트렌드 4가지

    작년보다 2023년은 경제가 더욱 힘든 시기 입니다.

    정말 힘든 시기를 보내고 있는 모든 관련 업계 종사자들에게 힘내라고 응원을 보내드립니다.

    여기서 책의 서평을 마무리 짓겠습니다.

    “한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다.”

상품평 추가하기