그럼에도 불구하고 확률

그럼에도 불구하고 확률

Summary:

확률 네 이놈


결과는 항상 둘 중에 하나

“데이터 분석의 타당성은 어떤 사건의 결과와 상관없다.”

확률이 어떻든 결과는 1 아니면 0이다. 하거나 하지 않거나, 맞추거나 틀리거나, 양성이거나 음성이거나, 가거나 안 가거나다. 아무리 높은 확률로 합격한다 한 들 내가 떨어지면 그만이고, 병에 걸리지 않을 확률이 높다 한 들 내가 그 병으로 고생하면 그 뿐이다.

No matter what happens in this life, you have two options, only two options.

확률이 무책임하다고 생각했다. 온갖 복잡한 수식을 동원해 확률을 계산해봐야 실생활에 도움이 되는 것 같지 않다고 느낄 때가 많았다. 확률모델링, 신뢰성공학, 데이터마이닝 등 학부 때 머리를 꽤나 싸맸음에도(어려워요ㅠㅠ) 내가 얻은 결론은 ‘역시 대학원이다’였다. 아, 하나 깨달은 건 내 뇌가 마코프 체인 같다는 것. 오늘 난 어제 한 공부를 까먹었고 내일도 오늘 배운 걸 까먹을 거다.


확률의 유효기간

확률은 결과를 담고 있지 않다. 즉 ‘70%의 확률로 이긴다’ 같은 상태는 존재하지 않으며 특정 사건이 발생하고 나면 확률은 더이상 소용이 없어진다. 사건이 발생하기 전까지만 70%라는 정량적 수치가 유효할 뿐 상황이 종료되고 나면 확률이라는 것 자체가 의미가 없어지는 것이다.

(더 읽기: 16. 도박과 확률 사이)

친구가 복권을 3장 샀는데 세 번 모두 만 원에 당첨됐다고 했다. 나도 꽁돈으로 맛있는 걸 사먹고 싶다. 같은 곳에서 복권을 샀다. 꽝이다. 표본이 작지만 복권 당첨 확률은 100%였다. 난 나름 데이터에 기반하여 의사결정을 내렸다. 결과를 열어보니 내 선택은 틀렸다. 그 돈으로 마이구미를 사먹었으면 내가 얻는 가치가 더 컷을 것이다. 난 누구를 탓해야 할까?

과거 데이터에 기반한 추론으로 나온 확률값이 아무리 좋아도 내가 복권에 당첨될 확률은 50%다. 당첨되거나, 되지 않거나 2개의 경우 뿐이다. 통계 분석 결과와 실제 결과는 독립적이며 데이터 분석의 타당성을 예측 결과로 판단할 수 없다. 데이터 분석이 아무리 잘 되었다고 해도 예측까지 정확하게 하는 걸 바랄 수 없다는 말이다.


그래도 확률은 중요하다

<행운에 속지마라>의 저자 나심 티콜라스 탈렙은 ‘확률은 우리가 얼마나 모르는 것이 많은지를 알려준다’고 말했다. 그는 2008년 금융위기를 예측한 학자로 유명하다. 대부분 사람들이 정교한 통계모델 속에 무시하고 있었던 1%에 대해서 명확히 인지하고 있었고 그 1%가 가져올 파급효과인 금융위기에 대해 무시하지 않고 대비하고 있었다.

그 1% 때문에 확률이 중요하다. 어떠한 사건이 발생할 확률이 50%가 넘을 때, 발생할 것 같은 미래를 대비하는 게 아니라 50%가 안 되는 발생하지 않을 사건에 대해 알 수 있기에 확률은 의미있다.

즉, 확률은 관리하기 위해 필요하다. 보통 관리자는 어떠한 판단을 해야 할 때 각 케이스 별 확률과 그 사건이 발생했을 때의 가치를 비교하여 결정을 내리곤 한다. 의사결정트리를 그려 각 노드 별 기댓값을 구하고 의사결정에 활용한다. (의사결정나무 알고리즘 중 CART, CHAID 참고)

명백한 더미를 제외하곤 트리의 각 노드 모두가 고려의 대상이다. 1인 경우와 0인 경우 모두에 관심을 둔다는 뜻이다. 제대로 된 관리자는 확률의 높고 낮음에 기대어 1이 발생할 거라 장담하고 그에 맞는 시나리오를 세우지 않는다.


관리 = 예상과 액션

가령 ‘스트레스가 많은 여성의 자살 시도 확률이 높다’는 연구 결과를 보자. 당연히 스트레스가 많으니까 자살하고 싶겠지 생각하겠지만, 정성적으로 당연히 유추 가능한 사건을 정량화했을 때 연구의 가치는 달라진다. 생각을 검증함으로써 과학적인 타당성을 갖추게 되고 이를 기반으로 사고할 수 있다.

스트레스 많음이 자살 시도에 직접적인 영향을 주는지, 스트레스 외의 원인으로 자살 시도를 할 가능성은 어느정도인지, 스트레스와 동반됐을 때 자살 시도 확률을 더 크게 만드는 요인은 무엇일지에 대한 분석은 ‘스트레스가 많은 여성의 자살 시도 확률이 높다’는 연구 결과에서 시작된다. 이 모든 것이 미래 특정 사건(여기에서는 자살 시도)을 대비하여 현재 어떤 행동을 해야 할 지 관리하기 위해 유의미하다.

어떤 데이터 분석가는 이렇게 말했다. 초등학생도 돌을 던지면 날아간다는 사실을 알고 있다. 하지만 힘과 각도, 날아간 거리를 재면 사람이 달도 간다. 분석의 힘은 정량화(양과 크기를 아는 것)에 있다. 양을 정확히 하면 경향성을 넘어서 예상과 액션을 가능하게 한다.

확률 공부는 예언가가 되기 위해 하는 게 아니다. 데이터 분석을 잘 한다는 게 시장의 흐름을 잘 맞춘다는 의미가 아니다. 하물며 고객의 니즈를 오차 없이 파악한다는 오해도 금지다. 데이터와 확률로 미래를 ‘대비’하자.


Hyeyeon

A Blog about E-Commerce and Product Management

comments powered by Disqus

    rss facebook twitter github youtube mail spotify instagram linkedin google google-plus pinterest medium vimeo stackoverflow reddit quora