-
공부하다 집중이 안 되어서, 집중력을 좀 올리고자 올해 첫 글로 데이터의 품질에 대해 짧게 작성하고자 한다.
지금 나는 회사에서 표준화업무를 새롭게 맡게 되었다.
사실 크게 어려움이 없기에 사내에서는 주니어들에게 맡기는 업무 중 하나이다. 그래서 표준화에 대해서 크게 중요하단 생각을 못했던 것 같다.
하지만 굉장히 중요한 영역이었다. 표준화는 데이터 품질을 관리하는데 기초적인 역할을 하기 때문이다.
어느 판매되는 물건의 품질이 중요하듯이 데이터의 품질은 중요하다. 데이터의 양은 이미 너무나도 많은 시대이고, 데이터를 관리하고 다루는 프로그램 역시도 너무나도 많은 시대에서 품질이 중요한 시대가 된 것이다.
한참 기계학습을 공부할 때에도 항상 들었던 명언과도 같은 문장이 있다 " 쓰레기를 넣으면 쓰레기가 나온다 " 그만큼 데이터의 품질이 중요하다.
근래 오렐리에서도 아래처럼 품질관련해서 책을 내기도 했다.
책 앞에 작성된 '데이터의 신뢰'라는 말이 너무 마음에 든다. 앞서 예시를 든 것처럼 품질이 좋은 제품들은 소비자들이 다시 찾기 마련이다. 품질이 좋은 데이터도 사람들이 다시 찾는 신뢰가 쌓인다고 생각한다.
1. 데이터 품질이란?
그럼 품질이란 우선 무엇일까?
“데이터 품질(Data Quality)”이란 “데이터의 최신성, 정확성, 상호연계성 등을 확보하여 이를 사용자에게 유용한 가치를 줄 수 있는 수준”으로 정의할 수 있습니다. - 공공데이터포털
데이터 품질은 데이터 세트가 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 목적 적합성에 대한 기준을 얼마나 잘 충족하는지 측정하며, 조직 내의 모든 데이터 거버넌스 이니셔티브에 매우 중요합니다. - IBM
사실 많은 사람들이 이미 알고 있는 개념이다.
나는 사회생활을 처음 했을 때 데이터의 품질 때문에 놀랐던 경험이 있다. 논문 작성을 위해 사용했던 항상 정제된 데이터만 보았기 때문에, 나는 모든 데이터가 다 그럴 것이라고 생각했다. 하지만 현재까지도 난장판인 데이터들을 계속 마주하고 있으며, 친구들에게 직업 소개를 할 때에도 "내 직업은 데이터 청소부야!"라고 하기도 했다.
2. 품질관리도구
데이터 품질관리를 도와주는 도구들은 무엇이 있을까? ChatGPT에 물어본 결과는 아래와 같다. 사실 우리 회사에서도 품질관리도구를 제공하고 있다 ㅎ.ㅎ 데이터 쪽으론 정말 멋진 회사다.
상용 소프트웨어- Informatica Data Quality - Informatica
- SAP Data Services - SAP
- Trillium Data Quality - Precisely
- IBM InfoSphere Information Server - IBM
- Microsoft SQL Server Data Quality Services (DQS) - Microsoft
오픈소스 소프트웨어
- OpenRefine - 오픈소스
- Talend Open Studio for Data Quality - Talend
- Pandas - 오픈소스
- DataCleaner - 오픈소스
- Apache Griffin - Apache Software Foundation
- Great Expectations - Data Context
Great Expectations는 오렐리의 책에서 소개한 품질관리 도구이다. 저 책을 읽은 도움으로 근래 아키 설계할 때 해당 툴을 추가할 수 있었다.
품질관리 도구도 역시 이미 굉장히 많이 나와있다.
3. 좋은 품질을 분류하는 척도
그렇다면 품질 도구들은 무엇을 기준으로 데이터의 품질이 좋고 나쁘다를 판단하는 것일까?
위에 품질에 대한 정의를 보면서 살짝 나왔지만 대체적으론 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 목적 적합성 이 정도를 가지고 판단하는 것 같다.
https://www.collibra.com/blog/the-6-dimensions-of-data-quality?ref=blog-ko.superb-ai.com에서는 완성도, 정확도, 일관성, 유효성, 고유함, 무결성 6가지를 제안하고 있다.
가. 완성도 : 완전성은 데이터가 의미 있는 추론과 결정을 내리기에 충분한지 여부를 측정
나. 정확도 : 높은 데이터 정확도는 사실에 근거한 정확한 보고와 신뢰할 수 있는 비즈니스 결과를 제공
다. 일관성 : 데이터 일관성은 분석이 데이터의 가치를 올바르게 포착하고 활용하도록 보장
라. 유효성 : 값 속성을 특정 도메인이나 요구 사항에 맞게 정렬
마. 고유함 : 높은 고유성 점수는 중복이나 겹침을 최소화하여 데이터와 분석에 대한 신뢰를 구축
사. 무결성 : 무결성은 데이터가 다양한 시스템에 저장되고 사용되더라도 속성이 올바르게 유지
https://www.gartner.com/en/newsroom/press-releases/2023-05-22-gartner-identifies-12-actions-to-improve-data-qualit y에 의하면 품질 개선은 아래 4단계로 진행할 것을 제시했다.
*CDAO(최고 데이터 및 분석 책임자)
1. Focus on the Right Things to Set Strong Foundations
모든 데이터가 똑같이 중요한 것이 아니기 때문에, 가장 큰 영향을 미치는 중요한 데이터를 선정해야 한다.
2. Apply Data Quality Accountability
Medd는 "데이터는 팀 스포츠이므로 CDAO는 DQ 개선의 혜택을 누릴 수 있는 특수 이해 집단을 구성하고, 혜택을 전달하고, 다른 사업부와 모범 사례를 공유해야 합니다."라고 말했다.
3. Establish “Fit for Purpose” Data Quality
DQ를 개선하려면 데이터 프로파일링과 데이터 모니터링을 수행하여 현재 데이터 격차와 과제를 이해하고 검증하고, 개선 계획을 모니터링하고 구축하는 것이 중요
4. Integrate Data Quality into Corporate Culture
CDAO는 기술을 사용하여 수동 작업을 줄이고 더 빠른 결과를 얻음으로써 DQ를 개선, CDAO는 또한 DQ 문화를 구축하고 프로그램의 모든 이해 관계자 간의 지식 공유 및 협업을 촉진하여 비즈니스 전반에 걸쳐 데이터 리터러시를 개선해야 한다.