<신호와 소음>을 구분하여 예측 확률을 높이자!

<책 개요>

네이트 실버, 신호와 소음 : 불확실성 시대, 미래를 포착하는 예측의 비밀, 이경식 역, 더퀘스트, 2021.

<훔치고 싶은 한 문장>

미래를 예측하려면 절대 데이터를 무시해서는 안 된다.

우주의 대부분이 텅 빈 공간이듯이, 데이터의 대부분은 소음으로 채워져 있다.

중요한 것은 ‘우리가 아는 것’이 아니라 ‘우리가 아는 것과 우리가 안다고 생각하는 것 사이의 차이’다.

<리뷰>

대단한 책이다. 명성에 걸맞은 대작이다. 방대한 분량(824페이지)이다. 저자는 예측의 주제와, 사례와 스토리를 연결하여 그 이면의 함의를 어떻게 통찰로 이끌어 냈을까 생각하니 전율이 일어난다. 나는 3-4페이지 칼럼 하나 쓰는 데도 하루 꼬박 골몰해도 글이 잘 되지 않는데.. 비교할 수는 없지만 저자의 천재적인 능력이 부러운 것은 어쩔 수 없다.

저자인 네이트 실버는 경제학을 전공했지만 통계와 확률에 대한 통찰이 뛰어난 사람이다. 미국 야구선수의 성적을 예측하는 프로그램과 미국 대선 및 총선 선거를 예측하는 프로그램을 개발하여 정확한 예측을 했다. 그는 통계학과 예측에 대단한 노하우를 가지고 있으며, fivethirtyeight.com 을 운영하고 있다. 이곳의 미션은 “우리는 대중의 지식을 발전시키기 위해 데이터와 증거를 사용한다. 우리가 할 수 있는 곳에서는 확실성을, 우리가 해야 하는 곳에서는 불확실성을 추가한다.”이다. 멋지지 않은가? 예측에 대해 진정성이 느껴지는 이 분야 최고의 전문가라고 생각된다.

분량이 많다고 해서 무조건 좋은 것은 아니다. 내용이 적절해야 의미가 있다. 읽는 사람에 따라서는 각 장의 주제를 소개하는 스토리 부분이 불필요하게 느껴질 수도 있을 것 같다. 이 부분을 덜어내면 아마도 분량은 반으로 줄어들 것이다. 만약 이 책이 예측 방법론에 대한 통계학 책이라면 당연히 그렇게 했을 것 같다. 그런데 이 책은 예측의 중요성과 필요성, 그리고 활용에 대한 시사적인 책이라고 생각된다. 장황한 서사가 좀 지루하기는 하지만 그 서사로 인해 예측에 대한 새로운 관점을 가질 수 있다. 이런 점으로 이해한다면 이 서사 부분이 재미있는 읽을거리일 것이다.

데이터, 빅데이터, 데이터 분석, 통계분석, 통계학 등에 대해 나름 열심히 공부했던 사람이라면 이 책에서 다루는 많은 내용을 추가적인 고민 없이 술술 읽을 수 있을 것이다. 그러나 데이터와 통계에 대한 이해도가 낮은 사람은 아무래도 이 책을 읽어 내는 데 많은 시간과 고민이 있어야 할 것 같다. 빈도주의 통계학과 베이지언 통계학에 대해 처음 들어 본다고 해서 문제 될 것은 없다. 이점은 이 책의 특징이라고 생각한다. 적어도 미래에 대한 예측을 통해 오늘 뭔가 의사결정을 해야 하는 상황이고 그런 관점이 필요한 사람이라면 약간의 고통은 오히려 희열이 될 것이다. 이 책을 읽고자 한다면 먼저 이런 마음가짐을 가지면 더 잘 읽을 수 있을 것이다.

나 역시 전자에 해당하지만 이 책을 술술 읽지는 못했다. 개념과 내용을 다시 찾아보고 이해하려는 시도를 여러 차례 했다. 책의 3분의 1 정도까지 읽고 중단한 이후 1년 반이 지나 다시 읽을 때 연결이 되지 않고 앞의 내용이 기억나지 않아 다시 처음부터 읽었다. 완독이 쉽지 않다. 완독 후 느낌은 한 번 마음먹고 집중해서 2-3일 혹은 3-4일 만에 완독 하는 것이 정신건강에 좋을 것 같은 책이다. 정독으로 완독하고 나니 속이 후련하다.

다만 이 책은 꼭 완독이 필요한 책은 아니라고 생각된다. 단 정독은 필요하다고 본다. 경우에 따라 완독이 필요하지 않은 이유는 첫째, 모든 장이 예측에 대한 책이기 때문이다. 예측에 대한 기본적인 내용은 서문과 발문에 있다. 둘째, 각 장은 금융위기, 정치, 야구 등 각각의 주제별로 되어 있기 때문이다. 일부 내용이 연결되기도 하지만 앞의 사례에 대한 내용을 모른다고 해서 읽어 내려가는데 어려움은 없다. 예를 들어 체스나 포커에 대해 관심이 없다면 굳이 잃지 않고 넘어가도 전체 맥락을 이해하는데 문제가 없다고 생각된다.

이 책에서 다룬 사례 중 금융위기에 대해 살펴보자. 대학교수들을 포함하여 여러 곳에서 주택 거품이 꺼질 수 있다는 예측을 했다. 신용평가사들 내부에서도 고발자들이 나왔다. 그러나 신용평가사들은 ‘위험’과 ‘불확실성’의 차이를 제대로 인식할 수 없었거나 그 차이에 관심이 없었다. 그 결과 우리가 아는 2008년 미국은 금융위기를 맞았다. 예측 실패에는 공통점이 있다. 사람들이 데이터를 평가할 때 핵심 맥락을 무시한다는 것이다. 그리고 우리가 실제로 아는 것과 우리가 안다고 생각하는 것 사이의 격차는 점점 벌어지고 있다는 것이다.

“금융위기들은 (그리고 예측 실패 대부분은) 이처럼 잘못된 확신에서 비롯된다. 정밀한 예측이 정확한 예측으로 가장한다.”는 것이다. 어쩌면 예측이 실패한 것이 아니라 예측에 따른 의사결정에서 실패한 것으로 보인다. 우리 역시 2021년 부동산 투자의 위험성을 예측했지만 ‘영끌’ 참여자는 이를 무시했다. 그 결과 영끌에 참여한 사람들의 고통스러운 목소리가 자주 들린다. 이태원 참사 역시 위험에 대한 수많은 신호가 있었지만 소음으로 간주되고 아무런 의사결정을 하지 않음으로써 많은 희생자를 냈다.

끝으로 이 책을 통해 수많은 소음 속에서 진리인 신호를 간파하는 능력을 얻으면 좋겠다. 이 생각이 결실을 맺기 위해서는 지속적으로 예측을 시도해야 한다. 그래야 예측의 확률을 높일 수 있기 때문이다. 나의 과거를 생각해보면 나름의 예측이 잘 맞이 비즈니스에 활용했었다. 고객만족 경영과 고객만족도, 브랜드 경영과 브랜드 마케팅, 도시 브랜딩, 데이터 리터러시 등은 잘 예측한 컨설팅과 강의 주제였다. 그런데 마케팅 성과(ROI)는 예측은 맞추었을지 모르지만 행동으로 이어지지 못했고 결국 나에게는 이렇다 할 성과가 없었다. 수요는 있는데 시장은 없는 그런 예측이었다고나 할까?

그렇다면 앞으로는 어떨까? 2-3년 전부터 로컬이 뜰 것으로 예측하고 의견을 피력했는데 이제 트렌드가 되고 있다. 다만 내가 제공할 수 있는 컨설팅이나 강의 테마가 없다. 어느 정도의 전문성과 경험을 갖추지 못했기 때문에 행동하지 못하고 있고 그래서 아무것도 이룬 게 없다. 정리하면 예측이 예측으로 끝나서는 아무런 의미가 없다. 예측을 했으면 실행을 해야 성공이든 실패든 결과를 알 수 있다. 국가든 개인이든 마찬가지라고 생각한다.

그리고 방대한 분량의 이 책의 핵심을 저자 스스로 서문에 밝히고 있다. “확률적으로 생각하라.” 그리고 “속도를 늦추고 의심하라.” 그동안 막연하게 미래를 예측했었는데 앞으로는 그 예측에 확률적으로 생각하는 습관을 들여야겠다. 또한 속도를 늦추고 의심을 하는 사고를 해야겠다. 나의 생각에 의심을 한 적이 별로 없다. 사소한 문제를 마주했을 때조차 이성적이고 합리적인 의사결정을 한다는 전제로 나를 의심하지 않았었다. 그런데 요즈음 들어 자주 나의 결정에 실수가 발견되면서 곤혼스러웠다. 속도를 늦추면 의심해 볼 수 있는 시간이 생기고 보다 현명한 결정을 할 수 있을 것이다.

<기억하고 싶은 문장>

p.13. 이 책의 내용 대부분은 어째서 전문가들의 예측이 그토록 자주 빗나가는가, 아울러 어떻게 하면 좀 더 신뢰할 수 있는 예측이 가능할지를 다룬다.

p.14. 좋은 예측을 한다는 것과 사람들이 이 예측을 진지하게 받아들이도록 설득하는 것은 별개의 문제다.

p.17. 이 책이 알려주고자 하는 한 가지 원칙은 빠르고 간편한 어림짐작을 피하고 엄밀하고 정확하게 접근하라는 것이다.

p.21. 매우 중요한 결과가 빚어질 일들이 일어날 가능성이 상당히 높은데도 이런 리스크들이 거의 대부분 무시되고 만다는 것이 내가 주장하려는 점이다.

p.29. <신호와 소음>이 출간된 이후로 이 책이 다루는 주제와 관련해서 내가 마음을 바꾼 게 있다면, 바로 군중의 지혜를 점점 더 회의적으로 바로 보게 되었다는 점이다.

p.38. 나는 <신호와 소음>이라는 이 책의 내용을 자동차에 붙이는 스티커에 들어갈 정도로 압축한다면 무엇이 될까 하는 생각을 종종 했다. 그리고 ‘확률적으로 생각하라’가 가장 적절할 것 같다는 결론을 내렸다. 그런데 이번에는 거기에다 스티커 하나를 더 추가하면 좋겠다는 생각이 든다. 이 스티커의 내용은 이렇다. “속도를 늦추고 의심하라.”

p.45. 이 책은 이 모든 것이 교차하는 지점에 놓여 있는 ‘예측’을 다루는 책이다.

p.50. 수많은 소음에서 올바른 신호를 가려내기란 어려운 일이다. 데이터가 우리에게 들려주는 이야기는 대개 우리가 듣고자 하는 이야기다.

p.56. 수치 자체는 스스로를 변호할 길이 없다. 수치를 대신해 우리가 말한다. 우리는 수치에 의미를 부여한다.

p.57. 빅데이터 시대에 예측은 그다지 잘 맞지 않는다는 사실이다.

p.63. 정보 대부분은 그저 소음일 뿐이다. 소음은 신호보다 점점 빠르게 늘어나고 있다. 검증할 가설은 너무 많고 챙겨야 할 데이터 또한 너무 많다. 하지만 객관적 진리의 양은 상대적으로 일정하다.

p.64. 우리는 본인이 깨닫든 깨닫지 못하든 간에 날마다 수많은 예측을 하면서 살아간다.

p.69. 신호는 진리다. 소음은 우리가 진리에 다가서지 못하게끔 우리의 정신을 산만하게 한다.

p.83. 이 책에서 나는 우리가 전혀 의식조차 못하는 위험이라는 의미로 ‘알려지지 않은 미지(unknown unknowns)’의 위험을 다루려 한다. 어쩌면 유일하게 더 큰 위협은 우리가 어떤 것을 통제하고 있다고 생각하지만 사실은 전혀 그렇지 않은 위험일지도 모른다.

p.85. 당신이 어떤 가정을 세우고 어떻게 추정하느냐에 따라 답이 여럿 나올 수 있다. 당신이 잘못된 가정을 세운다면 당신의 모델은 엄청나게 잘못된 답을 제시할 것이다.

p.111. 이들 네 가지 예측의 실패에는 공통점이 하나 있다. 사람들이 각각의 경우에서 데이터를 평가할 때 핵심 맥락을 무시했다는 점이다.

p.114. 주택 가격 폭락은 표본 외(out-of-sample) 사건이었고, 신용평가사들이 운용하던 모델들은 이런 조건 아래에서 지급불능의 위험을 산정하는 데 아무 소용이 없었다.

p.114. 미래를 예측하는 주체는 흔히 표본 외 문제를 고려하는 데 거부감을 보인다.

p.115. 정보화 시대에 우리가 직면하고 또 우리 도처에 스며 있는 위험 가운데 하나는, 지식의 양이 아무리 넘쳐나더라도 우리가 실제로 아는 것과 우리가 안다고 생각하는 것 사이의 격차는 점점 벌어지고 있다는 것이다.

p.115. 정확하지는 않지만 정밀하다는 점만 가지고서 자기가 명사수라고 주장하는 셈이다.

p.116. 금융위기들은 (그리고 예측 실패 대부분은) 이처럼 잘못된 확신에서 비롯된다. 정밀한 예측이 정확한 예측으로 가장한다.

p.142. 인간의 뇌는 반복 패턴을 포착하도록 길들어 있어서 언제나 특정한 신호를 찾고 있는데, 우리는 문제의 데이터가 얼마나 많은 소음과 뒤섞여 있는지 판단해야 한다.

p.145. 예측가로서 올바른 태도는 오늘은 오늘 할 수 있는 최선의 예측을 하겠다는 마음가짐이다.

p.147. 여러 사람이 함께 참여하는 집단적 예측이 개인이 혼자 하는 예측보다 더 정확하다는 사실을 입증하는 증거는 대단히 많다. 집단 예측이 개인 예측보다 보통 10~25% 정확하다. 그렇다고 집단 예측이 언제나 좋다는 뜻은 아니다.

p.158. 인간의 판단이 있는 곳이라면 어디든 편향이 있게 마련이다. 좀 더 객관적인 방법은 우리가 설정한 여러 가정이 우리가 하는 예측에 끼칠 수 있는 영향을 인식하고 자신에게 끊임없이 문제를 제기하는 것이다.

p.201. 정확한 예측을 하는 열쇠는 순전히 계량적이기만 한 정보에 의존하는 게 아니라 모든 유형의 정보를 적절한 맥락에서 파악하는 좋은 의사결정 과정을 구축하는 것이다.

p.298. 통계학에서는 소음을 신호로 잘못 인식하는 행위를 가리켜 ‘과적합(overfitting)’이라고 부른다.

p.299. ‘일반적인’ 문제를 푸는 방법으로 ‘지나치게 특수한’ 해법을 제시했다. 이것이 바로 과적합이고, 과적합은 더 나쁜 예측을 유도한다.

p.315. 물론 우리는 끊임없이 실패할 것이다. 그러나 신호는 다시 지평선 위에서 반짝거릴 것이고 우리는 다시 그 신호를 좇을 것이다.

p.317. 예측이 실제로 얼마나 잘 맞느냐와 얼마나 잘 맞는다고 인식하느냐 사이에는 실로 엄청남 간극이 있다.

p.337. 미래를 예측하려면 절대 데이터를 무시해서는 안 된다. 특히 경기후퇴나 대통령 선거처럼 드물게 나타나기 때문에 판단의 근거로 삼을 데이터가 그다지 많지 않은 사건을 다룰 때는 더더욱 그렇다.

p.395. 예측은 목적이 아니라 수단이다.

p.401. 불가리스(스포츠 도박사)가 성공을 거든 건 그만의 정보 처리 방식 때문이다. 그는 특정한 패턴을 좇기만 하지 않았다. 그는 데이터 속에 내재된 의미 있는 ‘관계’를 찾아내려 노력했다.

p.418. 베이즈 정리(Bayes’s theorem)는 알려진 세 개 변수와 알려지지 않은 한 개 변수가 동원된 대수적 표현이다.

p.418. 베이즈 정리는 조건부 확률(conditional probability)과 관련이 있다. 어떤 사건이 일어났다는 전제 아래 이론이나 가설이 참이나 거짓일 확률을 따진다는 말이다.

p.428. 데이터에 담겨 있는 ‘의미 있는’ 관계(곧 상관관계보다는 인과관계를 말하며 세상이 실제로 어떻게 돌아가는지를 증명해주는 관계)는 얼마 되지 않는다. 정보량이 많아진다고 해서 그런 관계가 늘어나는 것도 아니다.

p.428. 우주의 대부분이 텅 빈 공간이듯이, 데이터의 대부분은 소음으로 채워져 있다.

p.438. 작은 정보 하나가 커다란 차이를 만들어낸다.

p.722. 중요한 것은 ‘우리가 아는 것’이 아니라 ‘우리가 아는 것과 우리가 안다고 생각하는 것 사이의 차이’다.

p.722. 베이즈 정리의 핵심은 사건이 일어날 가능성에 대한 확률적 표현이다.

p.725. 확률적 사고의 미덕은 확률적으로 생각하면 무조건 앞으로만 나아가는 게 아니라 잠시 걸음을 멈추고 서서 데이터를 살펴보게 된다는 데 있다.

p.729. 우리가 예측할 수 없는 것에 대한 겸손함과 예측할 수 있는 것을 예측할 수 있는 용기, 그리고 이 둘 사이의 차이를 아는 지혜가 필요하다.

<함께 읽으면 좋은 문헌>

<숫자에 약한 사람들을 위한 통계학 수업 : 데이터에서 세상을 읽어내는 법>, 데이비드 스피겔할터 저, 권혜승, 김영훈 역, 웅진지식하우스, 2020. 원서 : The Art of Statistics.

<생각에 관한 생각 : 우리의 행동을 지배하는 생각의 반란>, 대니얼 카너먼 저, 이창신 역, 김영사, 2018. 원서 : Thinking, Fast and Slow.

<다크 데이터 : 보이지 않는 데이터가 세상을 지배한다>, 데이비드 핸드 저, 노태복 역, 더퀘스트, 2021. 원제 : Dark Data: Why What You Don’t Know Matters.

[Book Review] 마케팅 트래블러

[Book Briefing] 생각이 바뀌는 의자

<구독과 좋아요의 경제학> 구독경제의 핵심은 무엇일까?