R과 함께하는 통계학의 이해 - 최용석


4.1 연속확률변수의 확률분포함수

연속확률변수: 확률변수가 특정 구간의 모든 값을 다 가질 수 있기 때문에 가질 수 있는 값들을 일일이 지칭할 수 없는 확률변수를 의미

연속확률분포함수: 확률변수 $X$가 가질 수 있는 특정 구간에서 확률이 어떻게 분포하는가를 나타낼 수 있는 함수

$X$의 확률분포는 확률의 밀도를 나타내는 확률밀도함수

확률밀도함수(probability density function)

연속확률변수 $X$가 특정한 값 $x$를 갖게 되는 확률은 0이므로, 구간의 확률을 구할 때는 그 구간의 경계점의 포함 유무는 영향을 받지 않는다.

연속확률변수의 기대값과 분산

$ E(X) = \int{xf(x)dx} $
$ Var(X) = \int{(x-\mu)^2f(x)dx} = \sigma^2 $


4.2 정규분포

정규분포(normal distribution): 좌우대칭의 종모양 곡선 (=Gaussian distribution)

정규확률변수 : 종 모양의 확률밀도함수를 가지는 연속형확률변수 X

정규확률변수의 확률분포에 대한 식은 모집단에 대한 평균 $\mu$와 분산 $\sigma^2$에 의존하므로
$ X \sim N(\mu, \sigma^2) $ 로 표기


4.3 정규분포의 확률계산

표준정규분포(standard normal distribution): 평균이 0이고, 분산이 1인 정규분포

일반적으로 표준정규분포를 따르는 확률변수는 $Z$로 표현
$ Z \sim N(0,1) $이므로 확률변수 $Z$는
평균 $E(Z) = \mu_z = 0 $이며, 분산은 $ Var(Z) = \sigma_z^2 = 1 $과 같다.

일반적인 정규분포를 따르는 확률변수 $X$에 대한 확률을 표준정규분포를 따르는 확률변수 $Z$로 변환하는 과정을 표준화(Standardization)라고 한다.

$ \frac{X-\mu_x}{\sigma_x} $


4.4 이항분포의 정규근사

$n$이 증가함에 따라 분포의 형태가 점차 좌우대칭의 종 모양에 가까워짐을 확인할 수 있다.

이항분포의 정규근사

확률변수 $X$가 성공 횟수를 나타내는 이산형 확률변수이고 $X \sim Bin(n,p) $일 때,
$np$나 $n(1-p)$이 모두 충분히 클 경우(보통 10 이상)에 확률변수 $X$는 근사적으로 다음의 정규 분포를 따르게 된다.
$ X \sim N(np, np(1-p)) $