interest/Statistics

벌거벗은 통계학, 찰스 윌런, 2013

오미크론2 2017. 2. 26. 09:59

p54

중앙값이나 평균은 둘 다 계산이 어렵지 않다. 
중요한 것은 특정 상황에서 '중간'을 측정하기 위해 어떤 방법을 사용할 지 결정하는 것이다.


p61

정규분포의 강점은 관찰값들이 평균의 
- 1표준편차 범위에 속하는 비율(68.2%),
- 2표준편차 범위에 속하는 비율(95.4%),
- 3표준편차 범위에 속하는 비율(99.7%), 
- 그리고 나머지 범위에 속하는 비율에 
정해진 수치가 있다는 사실이다. 


p120

통계도구로서 상관관계가 가진 강점은 두 변수의 연관성을 상관계수라는 단 하나의 기술 통계로 압축해서 표현할 수 있다는 사실이다. 
상관관계가 1이나 -1에 가까울수록 연관성이 커진다. 상관관계가 0이거나 0에 가까우면 변수 사이에 의미 있는 연관성이 없다는 뜻이다. 

$$ r=\frac{1}{n} \sum_{i=1}^{n} \frac {(x_i-\bar x)}{\sigma_x} \frac {(y_i-\bar y)}{\sigma_y} $$

$$ n=관찰값의\, 개수 $$ $$ \bar x=변수\, x의\, 평균 $$ $$ \bar y=변수\, y의\, 평균 $$ $$ \sigma_x=변수\, x에\, 대한\, 표준편차 $$ $$ \sigma_y=변수\, y에\, 대한\, 표준편차 $$


p231

중심극한정리: 규모가 크고 적절히 추출된 표본은 모딥단과 유사하다.
(분명히 표본 사이에는 편차가 있으나 표본이 모집단에서 크게 벗어날 확률은 매우 적다.)


p242

표준오차: Standard Error
표본 평균들이 흩어져 있는 정도인 분산을 측정한다. -> 표본 평균들의 분산 혹은 표준편차의 개념.

$$ SE(표준오차) = \frac {s}{\sqrt {n}} $$ $$ s = 표본이\, 추출된\, 모집단의\, 표준편차 $$ $$ n = 표본의\, 크기 $$


p246

표본 평균들이 정규분포를 이루기 때문에 정규곡선의 힘을 이용하여, 모든 표본 평균들의
- 약 68%는 모집단 평균의 1표준오차 범위 내에,
- 약 95%는 2표준오차 범위 내에 있다고 예상할 수 있다.
=> 모집단에서 뽑아낼 표본이 맞는가?를 판단하는 기준이 될 수 있다. 


p258

모든 통계적 추론은 귀무가설 null hypethesis과 함께 시작한다. 
시작점이 되는 가설로 추후의 통계적 분석을 통해 채택되거나 기각된다. 
보통 귀무가설을 기각한 후에는 관찰된 데이터에 더 맞는 대립가설 alterative hypothesis이 채택된다. 논리적으로 대립가설은 귀무가설을 기각할 수 있을 때 참이 되는 가설이어야만 한다. (논리적으로 역의 관계) 


p263

연구자들이 귀무가설을 기각할 때 가장 자주 쓰는 기준치는 5%이다. 유의수준으로 불리는 이 확률은 귀무가설이 사실일 때 어떤 데이터 패턴을 관찰할 수 있는 확률의 상한을 나타낸다. 
만일 귀무가설이 사실이라면 관찰된 값과 같거나 더 극단적인 패턴을 얻을 확률이 5% 이하일 때 우리는 유의수준 0.05에서 귀무가설을 기각할 수 있다. => 결국 2\(\sigma \) 이내만 인정한다는 의미.


p285

두 평균값을 비교하는 공식: (분자: 평균 간 차이의 크기를 산출. 분모: 두 표본의 평균 차이의 표준오차를 산출)

$$ \frac {\bar x- \bar y} { \sqrt {\frac {S_x ^2 + S_y ^2} {n_x n_y}}}$$ $$ \bar x = 표본\, x의\, 평균 $$ $$ \bar y = 표본\, y의\, 평균 $$ $$ S_x = 표본\, x의\, 표준편차 $$ $$ S_y = 표본\, y의\, 표준편차 $$ $$ n_x = 표본\, x의\, 측정값\, 갯수 $$ $$ n_y = 표본\, y의\, 측정값\, 갯수 $$

이 경우의 귀무가설: "두 표본의 평균은 같다"
이 공식은 두 평균의 차이가 두 평균 차이의 표준오차를 기준으로 얼마나 큰지 계산한다(또다시 표준분포에 크게 기대고 있다.).
두 표본의 모집단 평균이 일치한다면, 이들 표본 평균의 차이가 1표준오차 내에 있을 확률이 68%, 2표준편차 내에 있을 확률이 약 94%라는 식으로 예측할 수 있다. 


p287

단측 검정 vs. 양측 검정

분석을 할 때 단측 검정과 양층 검정 둘 중에 어떤 것이 더 적합한지 잘 판단해야 한다. 


수식 입력 참고: 
http://dongweon.tistory.com/entry/블로그에-수식-쉽게-입력하기
https://math.meta.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-reference