Ch2_02 데이터 탐색
Study/빅데이터분석기사 2020. 12. 11. 07:48데이터 탐색 기초
1. 데이터 탐색 개요
A. 데이터 탐색 개념
i. 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 방법
B. 탐색적 데이터 분석의 4가지 주제
i. 저항성 (Resistance) : 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질, EDA는 저항성이 큰 통계적 데이터를 이용
ii. 잔차 해석 (Residual) : 관찰 값들이 주 영향으로부터 얼마나 벗어난 정도, 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
iii. 자료 재표현 (Re-expression) : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
iv. 현시성 (Graphic Representation) : 데이터 시각화, 데이터 분석결과를 쉽게 이해할 수 있도록 시각적으로 표현
C. 개별 변수 탐색 방법
i. 범주형 데이터 : 명목 척도와 순위 척도에 대한 데이터 탐색, 빈도수 최빈값 비율 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악
ii. 수치형 데이터 : 등간 척도와 비율 척도에 대한 데이터 탐색, 평균 분산 표준편차 첨도 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
D. 다차원 데이터 탐색 방법
i. 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성 분석 / 막대형 그래프 이용
ii. 수치형-수치형 : 산점도와 기울기를 통하여 변수 간의 상관성 분석, 공분산을 통해 뱡향성 파악, 피어슨 상관계수
iii. 범주형-수치형 : 범주형 데이터 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교 / 박스플롯
2. 상관관계 분석
A. 개념 : 두 개 이상의 변수 사이에서 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법
B. 종류
i. 양의 상관관계
ii. 음의 상관관계
iii. 상관관계 없음
C. 표현방법
i. 산점도
ii. 공분산
1. 2개의 변수 사이의 상관정도를 나타내는 값
2. 수학적 정의 : cov(x1,x2) = summation(x1-x1_mean)(x2-x2_mean)
iii. 공분산 해석
1. Cov>0 : 두개 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향을 보인다면 공분산의 값은 양수가 됨
2. Cov<0 : 두개 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 감소하는 경향을 보인다면 공분산의 값은 음수가 됨
iv. 특징
1. 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있음, 공분산의 크기는 측정 단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못함
v. 상관계수를 통한 표현 방법
1. 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법
2. -1 <= r <= 1
D. 상관관계 분석의 분류
i. 변수의 개수에 따른 분류
1. 단순 상관 분석 : 2개 변수
2. 다중 상관 분석 : 3개 이상의 변수
ii. 변수 속성에 따른 분류
1. 수치적 데이터 : 피어슨 상관분석
2. 순서적 데이터 : 스피어만 상관분석
3. 명목적 데이터 : 카이제곱 검정 (교차분석)
3. 기초통계량 추출 및 이해
A. 중심 경향성의 통계량
i. 평균 : 변수들의 합을 변수의 개수로 나눈 값
ii. 중위수 : 모든 데이터 값을 크기순서로 정렬했을 때 중앙에 위치한 데이터값
iii. 최빈값 : 주어진 데이터 중에서 가장 많이 과측되는 수
B. 산포도의 통계량
i. 범위 : 최댓값 최솟값
ii. 분산 : 데이터가 평균으로부터 흩어진 정도
1. 모분산 : 편차의 제곱의 합을 모집단의 수로 나눔
2. 표본분산 : 편차의 제곱의 합을 n-1으로 나눔
iii. 표준편차 : 분산의 양의 제곱근
iv. 변동계수 : 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용함
1. 표준편차 / 평균
v. 사분위 수 범위 : Q3 Q1
C. 데이터의 분포를 나타내는 통계량
i. 왜도
1. 왜도 < 0 : 왼쪽으로 꼬리가 김 (평균 < 중위수 < 최빈값)
2. 왜도 = 0 : 평균 = 중위수 = 최빈값
3. 왜도 > 0 : 오른쪽으로 꼬리가 김 (최빈값 < 중위수 < 평균)
ii. 첨도 : 데이터의 정규분포 곡선으로부터 위 또는 아래로 뾰족한 정도
1. 첨도 < 0 : 아래로 오므라 듬
2. 첨도 > 0 : 위로 뾰족함
4. 시각적 데이터 탐색
A. 히스토그램
i. 자료 분포의 형태를 직사각형 형태로 시각화 하여 보여주는 그래프
ii. 특징
1. 가로축은 수치형 데이터
2. 막대는 서로 붙어 있음
3. 막대 넓이는 일정
B. 막대형 그래프 (Bar plot)
i. 여러가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현
1. 가로축은 수치형 데이터가 아니어도 됨
2. 막대는 서로 떨어져 있음
3. 막대 넓이는 같이 않을 수 있음
C. 박스 플롯
i. 많은 데이터를 그림으로 이용하여 집합의 범위와 중앙값을 빠르게 확인할 수 있으며, 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법
ii. 구성요소
1. 하위 경계 (Q1 1.5IQR) / 최솟값 / 제1사분위 / 제2사분위 / 제3사분위 / 최댓값 / 상위 경계 (Q1 + 1.5IQR) / 수염 (Q1,Q3으로부터 1.5 IQR 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선) / 이상값 (수염 외부 값)
D. 산점도
i. 가로축과 세로축의 좌표평면에서 각각의 관찰점들을 표시하는 시각화 방법
고급 데이터 탐색
1. 시공간 데이터 탐색
A. 시공간 데이터
i. 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
ii. 특징
1. 이산적 변화 : 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현, 시간의 변화에 따라 데이터 추가
2. 연속적 변화 : 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현, 연속적인 변화를 일종의 함수를 이용하여 표현
iii. 타입
1. 포인트 타입 : 하나의 노드로 구성되는 공간 데이터 타입
2. 라인 타입 : 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성
3. 폴리곤 타입 : n(n>=3)의 노드와 n개의 세그먼트로 구성
4. 폴리라인 타입 : n개(n>=3)의 노드와 n-1개의 세그먼트로 구성
B. 시공간 데이터 탐색 절차
i. 주소를 행정구역으로 변환 (split, find, left, mid)
ii. 주소를 좌표계로 변환 (지오코딩 서비스 등)
iii. 행정구역 및 좌표계를 지도에 표시
1. 코로플레스 지도 : 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법
2. 카토그램 : 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되는 지도
3. 버블 플롯맵 : 버블차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화한 지도
2. 다변량 데이터 탐색
A. 다변량 데이터
i. 변량 : 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값
ii. 변량 데이터의 유형
1. 일변량 데이터 : 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료
2. 이변량 데이터 : 두개의 특성
3. 다변량 데이터 : 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우
B. 변량 데이터 탐색
i. 일변량 데이터 탐색 : 기술 통계량 (평균, 분산, 표준편차), 그래프 통계량 (히스토그램, 상자 그림)
ii. 이변량 데이터 탐색 : 두개의 특성을 동시에 관측, 두 변수 사이의 관계 밝히기
iii. 다변량 데이터 탐색 : 산점도 행렬, 별 그림, 등고선 그림 등
C. 다변량 데이터 탐색 도구
i. 산점도 행렬
1. 그림 행렬 : 최대 20개의 변수를 사용할 수 있으며 가능한 모든 조합의 그래프를 만듬
2. 개별 Y대 개별 X 산점도 행렬 : y축 및 x축 변수를 사용하여 가능한 각 xy 조합의 그래프를 만듬
ii. 별 그림 : 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변숫값에 비례하도록 반경을 나타내도록 하여 관찰 값을 그림으로 표시
3. 비정형 데이터 탐색
A. 이미지나 영상, 텍스트처럼 형태와 구조가 다른 구조화 되지 않은 데이터
B. 유형
i. 비정형 데이터
1. 텍스트 : 단어들의 빈도를 표현하는 방법, 텍스트 덩어리를 정형 데이터로 변환한 뒤 텍스트 분석
2. 이미지 : 픽셀마다 수치로 변환화는 과정을 통해 이미지 분석 (CNN)
ii. 반정형 데이터
1. XML
2. JSON
3. HTML
C. 탐색 방법
i. 텍스트 탐색 방법 : 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
ii. 동영상, 이미지 탐색 방법 : 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용하여 탐색
iii. XML, JSON, HTML 탐색 방법 : 각각의 파서를 이용하여 데이터 파싱 후 탐색
D. 비정형 데이터 탐색 플랫폼 구성 예시
i. HDFS, 맵리듀스, 주키퍼, Avro, Hive, Pig, HCatalog
'Study > 빅데이터분석기사' 카테고리의 다른 글
| Ch3_01 분석 모형 설계 (0) | 2020.12.14 |
|---|---|
| Ch2_03 통계기법 이해 (0) | 2020.12.14 |
| Ch2_01 데이터 전처리 (0) | 2020.12.09 |
| Ch1_03 데이터 수집 및 저장 계획 - 2 (0) | 2020.12.08 |
| Ch1_03 데이터 수집 및 저장 계획 - 1 (0) | 2020.12.08 |



