Ch2_03 통계기법 이해
기술통계
1. 데이터 요약
A. 기초 통계량
i. 평균 : 자료를 모두 더한 후 자료 개수로 나눈 값
1. 표본평균 : 표본조사를 통해 얻은 평균
2. 모평균 : 모집단에 대한 평균
ii. 중위수 : 모든 데이터값을 크기 순서로 오름차순 정렬했을 때 중앙에 위치한 데이터값
iii. 취빈수 : 데이터값 중에서 빈도수가 가장 높은 데이터값
iv. 범위 : 최대 데이터값과 최소 데이터값의 차이
v. 분산 : 데이터가 평균으로부터 흩어진 정도
1. 표본 분산 : 편차^2 / n-1
2. 모분산 : 편차^2 / n
vi. 표준편차 : 분산의 양의 제곱근
vii. 평균의 표준 오차 : 표본 평균의 표본 추출 분포에 대한 표준 편차
viii. 분포
1. 첨도 : 데이터 분포의 뾰족한 정도
A. 0 : 정규분포
B. >0 : 위로 뾰족함
C. <0 : 아래로 오므라듬
2. 왜도 : 기울어진 정도
A. 0 : 좌우대칭
B. >0 : 우측으로 긴 꼬리
C. <0 : 좌측으로 긴 꼬리
B. 상관 분석
i. 두개 이상의 변수 간에 존재하는 연관성의 정도를 측정하는 분석 방법
ii. 상관 분석의 종류
1. 수치적 데이터 변수 : 피어슨 상관분석
2. 명목적 데이터 변수 : 카이제곱 검정
3. 순서적 데이터 변수 : 스피어만 상관분석
C. 회귀 분석
i. 하나 이상의 독립변수들이 종속변수에 미치는 영향 측정
ii. 종류
1. 단순 회귀 모형 : 독립변수, 종속변수가 각각 1개
2. 다중 회귀 모형 : 2개 이상의 독립변수이면서 수치형, 범주형, 1개의 종속변수
iii. 적합성 평가
1. 선형성, 등분산성, 독립성, 비상관성, 정규성
iv. 독립변수 선택방법
1. 후진 제거법
2. 전진 선택법
3. 단계적 방법
D. 분산 분석
i. 두개 이상의 집단간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법
ii. F통계량 : 집단 내 분산 대비 집단 간 분산이 몇배 더 큰지를 나타내는 값
iii. 종류
1. 일원분산 분석 : 집단을 나누는 요인인 독립변수가 1개이고 종속변수가 1개
2. 이원분산 분석 : 독립변수가 2개이고 종속변수가 1개인 경우
3. 다변량 분산 분석 : 종속변수가 2개 이상인 경우에 집단 간 종속변수의 평균 차이를 비교하는 방법
4. 공분산 분석 : 연속형 외생변수가 종속변수에 미치는 영향을 제거한 후, 순수한 집단 간 종속변수의 평균차이를 평가하는 방법
E. 주성분 분석
i. 많은 변수의 분산방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
ii. 특징
1. 주성분 변수 : 원래 변수 정보를 축약한 변수
2. 가장 적은 수의 주성분을 사용하여 분산의 최대량을 설명
F. 판별 분석
i. 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
2. 표본 추출
A. 표본 추출 기법
i. 단순 무작위 추출 : 모집단에서 정해진 규칙 없이 추출
ii. 계통 추출 : 모집단을 일정한 간격으로 추출
iii. 층화 추출 : 모집단을 여러 계층으로 나누고 계층별로 무작위 추출 (집단 내 동질, 집단 간 이질)
iv. 군집 추출 : 모집단을 여러 군집으로 나누고 일부 군집의 전체 또는 일부를 추출
B. 자료 측정
i. 질적 속성
1. 명목 척도 : 단순히 집단의 분류를 목적으로 사용된 척도, 등호 연산
2. 순서 척도 : 측정 대상 사이의 대소 관계를 나타내기 위한 척도, 비교 연산
ii. 양적 속성
1. 구간 척도 : 서열과 의미 있는 차이를 가지는 척도, 가감 연산
2. 비율 척도 : 구간 척도의 성질을 가지면서 척도 간의 비도 의미가 있는 척도, 승제 연산
3. 확률 분포
A. 확률분포 : 확률변수가 특정한 값을 가질 확률
B. 확률분포의 종류
i. 이산확률분포
1. 이산확률변수 X가 가지는 확률분포
2. 종류
A. 포아송 분포 : 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포
B. 베르누이 분포 : 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻은 확률분포
C. 이항분포 : n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률분포
ii. 연속확률분포
1. 확률변수 X가 실수와 같이 연속적인 값을 취할 때 이를 연속확률변수라 하고, 이러한 X가 가지는 확률분포
2. 종류
A. 정규분포
B. 표준정규분포 (Z-분포)
C. T분포 : 정규분포의 평균 해석에 많이 쓰이는 분포, 모집단이 정규분포라는 정도만 알고 모 표준편차는 모를 때
D. 카이제곱분포 : K개의 서로 독립적인 표본 정규확률변수를 각각 제곱한 다음 합해서 얻어지는 분포
E. F-분포 : 독립적인 x^2 분포가 있을 때 두 확률변수의 비
4. 표본 분포
A. 모집단에서 추출한 크기가 일정한 표본이 가지는 추정량의 확률분포
B. 표본 분포
i. 용어
1. 모집단 : 정보를 얻고자 하는 대상이 되는 집단 전체
2. 모수 : 모집단의 특성을 나타내는 대푯값
3. 통계량 : 표본에서 얻은 평균이나 표준 오차와 같은 값
4. 추정량 : 모수의 추정을 위해 구해진 통계량
5. 표준 편차 : 자료의 변동 정도
6. 표준 오차 : 통계량의 변동 정도
ii. 표본조사 용어
1. 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하기 때문에 발생하는 오차
2. 비표본오차 : 표본조사를 제외한 모든 오차, 조사 과정에서 발생하는 부주의, 실수 등으로 인한 오차
3. 표본편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출 방법에서 기인하는 오차
iii. 표본 분포와 관련된 법칙
1. 큰 수의 법칙 : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워짐
2. 중심 극한 정리 : 표본의 개수가 커지면 모집단의 분포와 상관없이 표본 분포는 정규분포에 근사
iv. 표본 분포의 유형
1. Z-분포 : 표본 통계량이 표본 평균일 때, 이를 표준화 시킨 표본 분포
2. T-분포 : 모집단이 정규분포라는 정도만 알고, 모 표준편차는 모를 때 사용하는 분포
3. 카이제곱 분포 : k개의 서로 독립적인 표본 정규 확률변수를 각각 제곱한 다음, 합해서 얻어지는 분포
4. F-분포 : 표본 통계량이 두 독립 표본에서 계산된 표본분산들의 비율일 때의 표본 분포
추론 통계
1. 점 추정
A. 점 추정 : 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
B. 조건
i. 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없음
ii. 효율성 : 추정량의 분산이 작을수록 좋음
iii. 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아짐
iv. 충족성 : 추정량은 모수에 대하여 모든 정보를 제공
C. 점 추정에 사용되는 통계
i. 표본평균
ii. 표본분산
iii. 중위수
iv. 최빈값
2. 구간추정
A. 구간추정 : 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
B. 용어
i. 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률 (100 X (1-@))
ii. 신뢰구간 : 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
3. 가설검정
A. 가설
i. 가설 : 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론
ii. 종류
1. 귀무가설 : 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
2. 대립가설 : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설
B. 가설검정
i. 가설검정 : 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정
ii. 절차 : 가설 설정 유의수준 설정 검정 방법 설정 - p값 산출 채택or기각
iii. 가설검정 방법
1. 양측검정 : 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 같은지 판단
2. 단측검정 : 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 큰지 작은지 판단
C. 가설검정의 오류
i. 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 통계적 오류가 발생할 가능성 존재
ii. 종류
1. 1종오류 : 귀무가설이 참인데 이를 기각하는 오류
A. 유의수준 : 제1종오류를 범할 최대 허용확률 / alpha
B. 신뢰수준 : 귀무가설이 참일 때 이를 참이라고 판단하는 확률 / 1-alpha
2. 2종오류 : 귀무가설이 거짓인데 이를 채택하는 오류
A. 베타수준 : 제2종오류를 범할 최대 허용확률 / beta
B. 검정력 : 귀무가설이 참이 아닌데, 이를 기각할 확률 / 1-beta
D. 검정 통계량
i. 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본통계량
E. P-값
i. 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값