데이터 분석의 프레임에 대해서("超"分析"の教科書중에서)

대표님 어센트에서는 “빅데이터 분석 서비스 같은 것은 하지 않으시나요? ” 최근 자주 듣게 되는 질문이다. 과연 빅데이터 분석을 통해 얻은 데이터를 통해 어떤 성과나 시책을 만들어 내고 싶은 것일까? 생각하다가 “超”分析”の教科書란 책이 눈에 뛰어 집어들었다. 아래 내용은 이 책에서 소개하고 있는 내용을 정리해본 내용이다.

기업이 데이터를 분석하려할 때에 중요한게 분석방침이다. 분석방침이란 무엇인가? 그것은 분석을 수행하려는 주체가되는 기업에게 있어서 ‘바람직한 상태’와 ‘바람직하지 못한 상태’를 구분하는 기준선과 같은 것이다.

아웃컴(성과지표)
바람직함과 그렇지 못한 상태의 기준선을 정할 때 먼저 생각하지 않으면 안되는 것이 바로 그 바람직함과 아닌 상태를 정의하는 지표인데, 이것을 아웃컴(성공지표)을 정하는 것이라고 말한다.

바람직한 상태와 바람직하지 못한 상태의 차이를 생각해보고, 어떤 성공지표에서 어떻게 다른 것이 바람직함과 그렇지 못한 두가지 상태를 구분하는 것인가?를 고민하는 것이 비지니스 씬에서 수행하는 수 많은 분석의 시작점이다.

현 시점에서 이용가능한 데이터 중에서 성공과 실패를 직접적으로 구분하는 성공지표를 골라서 긍정적인 영향을 미치는 것을 최대화하고 부정적인 영향을 미치는 것을 최소화하는 것을 생각하는 것이 분석 방침이라고 할 수 있다.

해석단위
이렇게 아웃컴(성과지표)를 정했다면 분석방침을 세우기위해 그 다음으로 생각해야하는 것이 해석단위라고 할 수 있다. 동일하게 매출을 아웃컴으로 정했다고해도 매출이 높게 나오는 고객에 주목할 지 아니면, 매출이 낮게 나오는 고객에게 주목할지, 또는 매출이 높은 종업원에게 주목할지, 매출이 낮은 종업원에게 주목할지, 또는 매출이 높은 상품에 주목할지, 매출이 낮은 상품에 주목할지에 따라서 분석중에 보여지는게 전혀 달라진다.

이렇게 분석에 시점을 잡아주는 것을 ‘해석단위’라고 하고 당연히 하나의 아웃컴에 대해서도 ‘해석단위’는 복수개가 존재할 수 있다. 이 책의 저자는 해석단위를 찾아내는 방식으로 Who, What, How, When, Where순으로 해석단위를 찾아내는 방법을 제안한다. 그 각각에 해당하는 해석단위들을 정리하면 아래와 같다. 위에서 아래의 순서는 해석단위로서 자주 이용되는 빈도순이라고 보면된다.

좋은 해석단위를 선택하는 기준이 뭘까라는 질문이 있을 수 있는데, 이 책은 우선 해석단위는 아무리 작아도 수십개에서 수백개 정도는 되어야한다고 강조한다. 예를 들어 딱 2개의 점포밖에 없는 회사가 데이터의 양이 수십테라에 이르더라도 “매출이 높은 점포”와 “매출이 낮은 점포”라는 비교를 통해 그 차이는 무엇인가를 분석하는 것은 의미가 없는 일이란 이야기다. 이렇게 해석단위를 잡으면 결국 매출이 높은 점포의 특징 정도를 나열하는 결과 정도를 얻게 된다. 그 다음으로 생각할 수 있는 기준은 특징이 너무 자명한 것을 골라서는 안된다는 것이다.

예를 들자면 티셔츠, 스커트, 구두 등의 수십종 이상의 상품들을 판매품목으로 가지고 있을 경우에 분석의 아웃컴을 매출로 잡고 이 매출의 해석단위를 매출이 높은 상품과 낮은 상품의 차이는 무엇일까라고 해버리면 이런 분석의 결과가 의미있는 것이 되기는 힘들다. 마지막으로 기준이 되는 것은 정보량인데, 위의 두가지 조건, 건수가 충분하고, 차이가 자명하지 않더라도 그 차이를 설명할 수 있는 데이터의 양이 충분하지 않거나, 추가적으로 얻을 수 있는 데이터가 아니면 좋은 해석단위라고 할 수 없다. 매출이 높은 직원과 그렇지 못한 직원의 차이에 주목해보려고 해도, 채용시의 성적과 근무태도 등 직원의 특징을 표시해주는 데이터가 쌓여있지 않다면 다른 해석단위를 찾아보는 것이 났다.

미숙한 분석자들은 무의식적으로 기존에 사용하던 해석단위에 묶여버리는 실수를 하는데, 광고부서의 담당자가 성공한 광고와 성공하지 못한 광고의 차이는 무엇인가?와 같은 광고라는 해석단위를 가지고 분석을 반복하곤 하는 것이 그런 실수의 한 예라고 할 수 있다. 광고 효과를 높이고자하는 목적으로 수행하는 분석에서 해석단위를 꼭 광고로해야하는 것은 아닐 것이다. 오히려 광고에 반응하기 쉬운 고객과 광고에 잘 반응하지 않는 고객과의 차이는 무엇인가라는 발견으로부터 광고에 잘 반응하는 고객만을 타겟으로 하여 광고를 제작함으로서 전체적인 광고 효과를 높히는 방향을 설정하게 될 수도있다. 해석단위라는 개념을 잘 이해함으로서 분석방침의 폭과 얻을 수 있는 발견의 시야가 크게 확장될 수 있다.

설명변수
아웃컴과 해석단위 즉 분석에 있어서의 비교축을 정했다면 해석단위 당의 아웃컴이 크고 작음을 설명해줄 가능성이 있는 특징 후보군을 최대한 많이 생각해봐야한다. 설명변수란 바로 “특정 아웃컴의 크고 작음의 원인에 대해 설명해줄 가능성이 있는 것”을 말한다.

흔히들 미숙련된 분석자들이 실수하는 부분이 설명변수를 정함에 이어서 개인적이고 제한적인 경험에 의지하여 가설을 세워버리는 경우다. 예를 들어 “광고 접촉횟수가 많을 수록 매장 방문율도 올라가는 것이 아닐까?”와 같은 가설을 세우는 것이다. 이러한 가설 설정은 단 하나의 설명 변수, 즉 광고 접촉횟수와 아웃컴, 즉 내점율의 관계에 어떤 근거도 없이 주목하게 하는 문제점을 가지고 있다.

우리들이 데이트를 분석하는 이유와 가치는 우리가 통념적으로 가지고 있는 특정 데이터를 통해 뽑아낼 수 있는 특정 통찰과는 다른, 분석 이전에는 생각지도 못했던 혹은 직감과 경험에 반하는 설명 변수와 아웃컴과의 관계를 밝혀내는데 있다고 할 수 있다. 하지만 이렇게 하려면 과연 어떻게 해야하는가? 해석단위가 결정되었다면 해석단위의 특징인 설명변수를 ‘가능한한’ 최대한 데이터로부터 뽑아내는 것이 도움이 된다. 여기서 ‘가능한한’ 이라고 말하는 이유는 고객을 해석단위라고 할 경우에 고객과 관련한 데이터베이스인 “고객등록정보”로부터 단지 성별이나 직업 등의 항목을 뽑아내든가 생년월일부터 연대를 정의하는 것으로 끝내지 않아야한다는 것을 말하는 것이다.

구매이력을 사용하면 “구매된 상품수 중에서 상품 장르별 비율”을 계산할 수 있게된다. 또한 “구입한 시간대의 비율”과 “구매일에서 평일이 차지하는 비율”을 구하는 것도 가능하다. 일단은 이러한 특징들이 종국적으로 아웃컴과 관련이 있는지를 생각하지말고, 생각해볼 수 있는 모든 설명변수를 원래의 데이터로부터 가공해보고 여기로부터 “다변량해석”에 의해 어떤 변수가 아웃컴의 크고 작음에 관계하고 있는 가를 밝혀보는 방법을 취해야 란 것이다. 이렇게 찾아낸 설명변수는 일반적인 KPI의 사고법과는 달리 설명변수와 아웃컴과의 관계성이 “당연하게 보여지지 않는” 경우가 많다.

“超”分析”の教科書은 결론적으로 아웃컴, 해석단위, 설명변수 등의 포인트는 분석 방향을 설정하고, 보다 심도있는 통찰을 뽑아내어 유의미한 실행전략을 만들어내는데 아주 중요하다는 점을 강조하고있다.

참고 원전: 실천, 비지니스에 도움이되는 “초”분석의 교과서(実践!ビジネスに役に立つ”超”分析の教科書, 日経BPムック)

데이터 분석의 프레임에 대해서(“超”分析”の教科書중에서)

검색서비스의 공공성 회복 2