JS Star 블로그

기억보다는 기록을✏️ 머신러닝, 웹개발, 물리학을 공부했고 계속 배워가고 있습니다.
📌 기존에 포스팅하던 블로그에서 포스트를 옮기는 중입니다.

[통계] 표본추출 (sampling)

01 Sep 2020 » physics

표본 추출 (sampling)

우리나라 국민의 평균 키를 측정한다고 가정해보자. 가장 정확한 방법은 지역 주민센터를 활용하여 한명, 한명 조사하면 된다. 이를 전수 조사 라고 한다. 하지만 이 방법은 비용이 많이 들고 시간도 오래걸린다. 그래서 전체를 조사하는 것이 아닌 일부만 조사해서 “전체의 평균이 ~만큼 이다.”라고 하는 것이 표본 조사 이다. 하지만 만약 표본에 남자만 포함되어 있다면 이 표본 데이터는 신뢰성이 있는 것일까? 그렇지 않을 것이다. 그래서 표본 추출 방법이 중요하다.

모수와 통계량 (parameter and statistic)

우리나라 국민 전체를 대상으로 한 집단을 모집단이라고 한다. 이 모집단 전체를 설명하는 측도를 모수 (parameter) 라고 하는데, 모평균, 모표준편차, 모분산 등이 포함된다. 이 모집단의 일부를 표본이라고 하고 표본에서 얻은 통계는 통계량 (statistic) 이라고 한다. 그리고 이 통계량이 반대로 모수 추정에 사용되면 추정량 (estimator) 라고 한다.

Sampling 방법

단순확률 추출 (Simple Random Sampling)

모든 구성 요소들을 동등한 확률로 sampling 하는 방법이다. 쉽게 말해 모집단에서 무작위로 추출하는 것이다.

층화 추출 (Stratified Sampling)

모집단을 층처럼 부분집단으로 나눈 뒤, 부분집단 안에서 균일한 양으로 sampling 하는 방법이다. 위의 예시로 전국을 경기도, 충청도와 같은 지역으로 나눈 뒤 각 도에서 같은 인원의 표본을 뽑을 수 있다.

집락 추출 (Cluster Sampling)

표본을 뽑는 단위나 관측을 하는 단위에 따라 sampling 하는 방법이다.

계통 추출 (Systematic Sampling)

Random을 사용하기 어려울 때, 특정 순서 안에 있는 단위를 sampling 하는 방법이다.

Resampling

표본 추출의 목적은 모집단의 모수의 추정값을 구하는 것이다. 하지만 이 과정을 한번만 했다면 신뢰성이 부족할 수 있다. 그래서 sampling을 다시 하여 추정하는 과정을 반복하는데 이를 resampling이라고 한다.

Bootstrap

표본을 추출할 때마다 모집단에서 random으로 선택하는 방법이다. 이 방식을 채택하면 이미 선택했던 요소가 다시 선택될 수 있다.

K-fold validation

모집단을 미리 k개로 나누고 각 부분집단 별로 표본을 추출하는 방식이다. 이 방식은 선택했던 요소를 다시 선택할 일이 없어진다. 이 방식은 주로 test sample, train sample, validation sample로 나누는 머신러닝에 자주 사용된다. Test sample은 계속 test에 사용되지 않도록 번갈아가면서 순서도 바꿔주는 것을 k-fold cross validation 이라고 한다.

Sampling은 전체 데이터에서 일부 데이터를 뽑아내는 일이고 측정의 비용과 시간을 줄여준다. Sampling을 한 뒤 추정량 (통계량)으로 모수추정을 하여 모집단을 이해하는 것이 목적이다. 이 과정을 한번만 하면 신뢰도가 낮을 수 있기 때문에 다시 표본을 뽑아 이 과정을 반복하는 것을 resampling 이라고 한다. Sampling을 한번만 진행한 것보다 측정값이 더 높은 정확도를 갖게 해주고, 더 general하게 해준다.