논문 및 통계

표본설계 및 표본추출

태권 한 2008. 4. 22. 21:18

 

표본설계 및 표본추출


I. 표본조사의 이해

1. 표본조사와 전수조사

(1) 표본조사와 전수조사의 관계

(2) 표본조사를 사용하는 이유
■시간과 비용절약
■신속성, 시기적절성
■다량의 정보확보
■조사의 정확성 확보
■파괴적인 조사에 유리
■조사대상의 오염방지

2. 표본추출의 기본과정

3. 표본추출방법

* 한국갤럽 국민의식 조사 표집과정 예

4. 표본크기의 결정

① 모집단의 성격
■모집단의 이질성 여부
■모집단의 규모
② 통계분석기법
■통계분석의 최저표본수는 30개 이상
■동시에 분석해야 할 변수의 수
■변수의 범주의 수
■허용오차 및 신뢰도
③ 시간과 비용


II. 표본조사와 표본추출

표본조사의 장점- 비교적 많은 정보를 수집할 수 있으며, 체계적이며 객관성, 대표성 확보가 관건

표본조사의 발달과정 - 19, 20세기
예) 1987년 제 13대 대선결과, 한국갤럽의 조사, 최대오차 2.2%

표본추출틀 (sampling frame) - 연구대상 모집단의 전체의 목록
- 포괄적, 예> 유권자에 대해 자동차 등록부나 전화번호부에 있는 명단을 이용할 경우 부유층을 과다하게 표본추출하고 빈곤층을 과소표본추출할 수 있음
- 배제된 집단의 특성을 규정하는 작업이 필요, 누락된 대상의 선택성 문제
- 대규모 표본조사 - 이주자조사와 같이 변하기 위운 모집단을 갖는 조사의 경우 목록작성이 어려움.


표본추출의 이해를 위한 기본개념들

1) 표집(sampling)- 모집단 (연구대상의 전체집단)의 일부, 표본을 추출하는 과정
표본의 대표성

2) 표집의 기본용어들
(1) 모집단 (population)- 연구대상의 전체집단
표본모집단 - 표본이 실제 추출되는 모집단
(2) 표집단위 (표집단위) - 표집과정의 각 단계에서의 표집대상
시 - 동 - 가구 - 개인
(3) 관찰단위 (observation unit) - 직접적인 조사대상
(4) 표집간격 (sampling interval) - 모집단으로부터 표본을 추출할 때, 추출되는 요소와 요소간의 간격
(5) 표집률 (sampling ratio) - 모집단에서 개별요소가 선택될 비율
(6) 모수 (parameter) -모집단에서 어떤 변수의 속성
(7) 통계치 (statitic) - 표본에서 어떤 변수의 특성
(8) 표집틀 (sampling frame) - 연구대상 모집단의 전체의 목록 - 포괄적, 추출확률, 효율성


표본추출법의 종류

1) 확률표집방법 (probablity sampling) - 모집단의 개별구성요소가 표본에 포함될 확률이 동일 - 대표성 추구

(1) 단순무작위표집
-크기 N인 모집단으로부터 크기 n인 표본을 균등한 확률로써 추출하는 것을 말함. 우선 모집단의 전체 구성요소를 파악한 후 개별요소에 대하여 일련번호를 부여하고 난수표 등을 이용하여 필요한 수의 표본을 추출.
- 모평균, 분산의 추정량 (공식, 홍종선 외, p.95)
- 추정오차와 표본크기

(2) 계통표집 (systematic sampling)
- 일련번호가 부여된 모집단의 각 대상에 대하여 임의의 난수표로부터 k번째 대상을 첫 번째 표본으로 추출하고, 두 번째 이후의 표본은 일정한 간격(표집간격)만큼 증가시켜 가면서 표본으로 선택하는 방법. 처음 선정되든 사람은 무작위로 선택
- 만일 명단이 어떤 일정한 유형을 가지고 배열되어 있는 경우에는 편중된 표본이
- 모집단 크기 (N), 표본크기 (n)
- 추출률 (n/N)
- 표본추출간격 k= N/n
- k보다 작은 수 r을 난수표등을 이용하여 택한다
- r, r+k, r+2k
- 모평균, 분산 추정량 (공식, 홍종선 외, p. 98)
- 추정오차와 표본크기

(3) 층화표집 (stratified sampling)
- 모집단이 서로 상이한 성격으로 구성된 경우
-모집단을 일련의 하위집단들로 층화시킨 다음 각 하위 집단에서 적절한 수의 표본을 뽑아내는 방법, 계층간 이질성, 계층내 동질성
- 단순임의추출법에 의한 표본보다 일반적으로 모집단을 더 잘 반영
- 모평균, 분산의 추정량 (공식, 홍종선 외, p. 96)
- 추정오차와 표본크기
- 각 층의 표본배분

(4) 집락표집 (cluster sampling)
- 개인단위의 명부를 작성하는 것이 현실적으로 불가능할 때 모집단에서 일부 집락을 선정한 뒤 개인을 추출
- 집락내 이질성이 커야 좋음
- 규모비례표집 (probability proportion in size) - 집락이 그 크기에 비례해서 표집되도록 하는 방법
- 모집단을 여러개의 군집으로 형성
- 단순임의표본추출법에 의하여 군집을 추출하여 군집표본을 구성
- 추출된 군집내에 있는 모든 대상을 표본조사단위로 하여 표본을 구성
- 군집내의 성격은 이질적이어야 하면 군집간에는 동질적인 특성을 갖도록 군집을 구성
- 각 군집의 크기는 동일하게 함
- 모평균, 분산 추정량 (공식, 홍종선 외, p. 100)
- 군집의 평균크기 결정

 

확률적 표집

(숫자가 있기에 중요. 무작위표본을 원칙)

비확률적 표집

장점

- 표집오차의 추정가능

:표본조사를 통한 통계량의정확성 검정가능

- 무작위적 추출 : 객관적인 표출과정

- 모집단에 일반화 가능

-시간이 비용이 적게 든다.

-수행과정이 간편

 

단점

-시간과 비용이 많이 든다

-수행과정이 복잡

-표집오차의 추정 불가능

-표본조사결과 일반화하는데 제약

-인위적인 추출과정

종류

- 단순 무작위표집         - 계통 표집

- 층화 표집                  - 집략 표집

- 임의 표집               - 할당 표집

- 유의 표집               - 눈덩이 표집


(5) 가중표집
- 모집단의 비율과 동일한 비율로 표집하게 되면 그 수가 적어서 유용한 분석을 하기 힘들 때 활용

2) 비확률표집방법 (nonprobability sampling)

(1) 편의표집 (convenience sampling)
- 손쉽게 이용가능한 대상만을 선택하는 방법
길거리, 강의실
- 대표성의 문제

(2) 유의표집 (purposive sampling) 판단표집 (judgement sampling)
- 연구자의 이론적, 실용적 관심에 따라
- 모집단 전체를 모두 확인하는 일이 거의 불가능할 경우
- 연구계획의 초기단게, pretest

(3) 눈덩이표집 (snowball sampling)
- 모집단 파악이 극히 힘든 경우 (매춘, 마약, 동성연애 )

(4) 할당표집 (quota sampling)
- 모집단이 갖는 특성의 비율에 맞추어 표본을 추출하는 방법
- 다단계 추출과정의 마지막 단계에


III. 표집과 측정의 질

1 표집오차와 표본의 크기

(1) 표준오차 (sampling error)
- 통계량들이 모수와 정확히 일치하지 않고 그 주위에 분산되어 있는 정도
-표본을 추출하는 과정에서 발생하는 오차.
(■는 모집단의 표준편차, n=표집크기)
(p는 사건 발생률, q는 발생활률을 제외한 비율)
(s는 표본의 표준편차, N= 표집크기)

(2) 표본분포 (sampling distribution): 표본의 평균이 이루는 분포로서, 주어진 크기(n)의 표본을 무한하게 추출할 때 그 평균의 분포이다. 표본의 크기가 충분히 크면 이 분포는 정규분포를 이루게 된다 (중앙집중원리). 그 평균은 모집단의 평균 (■)과 동일하고, 그 표준편차는 ()와 같으며 이를 표준오차(standard error)라고 한다. 일반적으로 모집단의 표준편차에 대한 추정치 (■)로서 표본의 표준편차(s)를 사용한다.

신뢰구간:
표본의 표집오차 때문에 모집단의 평균이 표본의 평균과 완전히 일치할 수 없고 표준편차 (■)도 표본의 표준편차(s)와 완전히 동일할 수 없다. 모집단의 값을 포함하게 될 표본값의 범위를 신뢰구간이라 한다.

신뢰구간의 해석
- 주어진 신뢰구간이 모집단의 평균을 포함할 확률이 95%이다.
-모집단의 평균의 주어진 신뢰구간내에 존재한다고 95% 확신할 수 있다.

예) 어떤 조사에서 사례수(n)가 5이고 통계치로 평균(X)=2.78이고, 표준편차(SD)=.61이라는 사실을 안다면, 95% 신뢰구간에서 얻어진 평균이 모수치의 어떤 범위내에 포함될 것인지를 계산할 수 있다. 즉 추정된 표준편차 (0.61)을 알고 있기 때문에 표준오차(standrad error)를 구할 수 있고, 95% 신뢰수준은 표준편차 ■2.0의 범위내에 있다는 사실을 알기 때문에 다음과 같이 구할 수 있다.

그러므로 하한계 2.78-2(0.27)=2.24, 상한계 2.78+2(0.27)=3.32가 된다. 요약하면, 사례수가 5일 때, 얻어진 표본의 펴균 2.78은 모수치 2.24와 3.32의 범위내에 포함될 확률이 95%이다.
평균의 신뢰구간
-90% 신뢰구간:
-95% 신뢰구간:
-99% 신뢰구간:

(2) 표본의 크기 - 모집단의 크기와 분산에 따라 좌우
- 신뢰구간
- 표집오차
- 변수의 수
- 응답률
- 비율에 의한 신뢰구간으로 표본크기의 산출
- 평균의 신뢰구간을 통한 표본크기 계산