본문 바로가기
책 리뷰

[독후감] 틀리지 않는 법 - 2부

by 째스터 2022. 7. 30.
728x90

어제 새벽까지 2부를 다 읽었다.
많은 과학자들이 수학은 좋은 설명의 도구라는 말을 한다.
이 책에서는 작가가 최대한 수식을 보여주지 않으려 노력하는데
이게 오히려 책의 이해를 방해하는 것 같다.
굳이 글로 장황한 설명을 하지 않고 수식으로 설명했다면
이 책은 600페이지가 아니라 300페이지로 줄일 수 있지 않았을까?

6장
누군가가 주식의 상승/하락을 정확하게 예상한 편지를 10일 연속으로 받게 되었다.

편지를 보낸 사람은 투자의 신인 걸까?
사실 편지를 보낸 사람은 1024가지의 모든 경우의 수를 각각 1024명에게 보냈고
편지를 받은 사람은 우연히 그중 모든 예상을 맞춘 경우의 수였을 뿐이다.
확률이 낮은 어려워 보이는 사건이 발생하는 이유는 단순히 많이 발생했기 때문이다.

7장
귀무가설 하에서 확률을 계산했을 때 유의미한 확률 값(p-value, 주로 0.05, 0.01 사용)보다 확률이 낮을 경우 통계적으로 유의미한 결과라고 말할 수 있다.


하지만 p-value 사용은 주의해야 한다. 그 이유는 8장에서 <발생할 확률이 대단히 낮은 것> 때문에 p-value가 낮게 측정되는 경우거나, 9장에서 p해킹이 일어났을 가능성이 있기 때문이다.

8장
귀무가설: 실험 등 개입 조치가 아무런 영향도 미치지 않는다는 가설


귀무가설 기각 과정
1. 실험 진행
2. 귀무가설 참이라 가정, 관찰 결과처럼 극단적인 결과가 나올 확률 p
3. p값이 작으면 통계적 유의성이 있다. p값이 크면 귀무가설을 기각할 수 없다.
(일반적으로 p = 0.05를 기준으로 한다)

귀무가설 H가 참일 때 O가 발생할 확률이 매우 낮아서 p값이 0.05보다 낮을 수 있다. 하지만 O가 실제로 관찰되어서 H가 참일 가능성이 낮다는 결론을 내릴 수 있어서 주의해야 한다.

9장
p 해킹: 통계적으로 유의미하다고 생각되고 관습적으로 사용했던 p값 0.05보다 약간 높은 값이 나왔다면 실험 결과 조작, 데이터 삭제 등을 통해서 0.05보다 낮은 수준으로 조정하는 행위.

하필 0.05인 이유는 피셔의 관행일 뿐이다. p < 0.05를 참과 동의어처럼 쓰는 것은 잘못이다.
0.05를 기준으로 연속 변수를 이진 변수처럼 판단하는 것은 기본적인 범주 오류이고 통계적 유의성이 없는 데이터(p < 0.05 인 데이터)도 보고하도록 허락되어야 한다.

사실 나도 연구실에서 p 해킹을 눈앞에서 경험했고 실제로 참여했다.
논문을 쓰는 과정에서 노이즈 제거라는 명목으로 p-value가 0.05 아래가 되도록 데이터를 선별 삭제했다.
그렇게 탄생한 논문에는 당당하게 p-value < 0.05이라고(통계적으로 유의미하다고) 적혀있다.


10장
베이즈 정리에 대한 내용이 나온다.
장황한 말을 했지만, 우리가 관찰한 것 때문에 잘못된 이론을 믿을 수 있는 것을 경계한다.
예를 들어서 5개의 동전이 모두 앞면이 나오는 순간 동전이 조작되었다는 이론을 강화하게 된다.


2부를 읽다가 보니 내가 직접 계산하게 되는 경우도 많았다.
작가가 계산 과정을 생략해버리고 나온 확률이 어떻게 계산된 건지 확인해본다던가

임의의 소설에서 등거리 문자열 기법으로 내 이름이나 코로나라는 단어가 몇 번 나올까?
직접 프로그래밍으로 구현해봤다.
정말로 많이 나오긴 하더라...


https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=74921141

 

틀리지 않는 법

신동 출신의 수학자로 유명한 위스콘신 주립대 수학과 교수 조던 엘렌버그의 첫 수학 대중서. 저자는 우리가 살아가는 데 왜 수학이 필요한지, 실제로 어디에 어떻게 써먹을 수 있을지를 치밀하

www.aladin.co.kr

728x90

댓글