Ch1_03 데이터 수집 및 저장 계획

Ch1_03 데이터 수집 및 저장 계획 - 1

Study/빅데이터분석기사 2020. 12. 8. 04:36

데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

i. 프로세스

1. 수집 데이터 도출

2. 목록 작성 (가능성, 보안, 정확성, 수집 비용)

3. 데이터 소유기관 파악 및 협의

4. 데이터 유형 분류 및 확인

5. 수집 기술 선정

6. 수집 계획서 작성

7. 수집 주기 결정

8. 데이터 수집 실행

ii. 수집 데이터의 대상

1. 내부 데이터 : 조직 내부에 데이터가 위치, 데이터 담당자와 수집 주기 및 방법 등을 협의하여 데이터를 수집

2. 외부 데이터 : 조직 외부에 데이터가 위치, 특정 기관의 담당자 협의 또는 데이터 전문업체를 통해 데이터를 수집

iii. 데이터 수집 방식 및 기술

1. 정형 데이터 수집 방식 및 기술

A. ETL : Extract Transform Load, 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터마트에 저장하는 기술

i. ETL 프로세스

1. 추출 : 동일 기종 또는 이기종 소스 데이터베이스로부터 데이터 추출

2. 변환 : 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터 변환

3. 적재 : 추출 및 변환된 데이터를 최종 대상에 저장

B. FTP : 원격지 시스템 간에 파일을 공유하기 위한 서버 클라이언트 모델로 TCP/IP 기반으로 파일을 송수신하는 응용계층 통신 프로토콜

i. 유형

1. Active FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로 데이터를 전송해주는 방식

2. Passive FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식

C. API : 솔루션 제조사 및 서드파티 소프트웨어로서 제공되는 도구로서, 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능을 제공하는 인터페이스 기술

D. DBtoDB : 데이터 베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술

E. Rsync : 서버 클라이언트 방식으로 수집 대상 시스템과 1:1 파일과 디렉터리를 동기화하는 응용프로그램 활용기술

F. 스쿱 : 커넥터를 사용하여 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술

i. 특징

1. 벌크 임포트 지원

2. 데이터 전송 병렬화

3. 직접 입력 제공

4. 프로그래밍 방식의 인터랙션

ii. 주요 기능

1. 구조

A. 스쿱 클라이언트

B. 스쿱 서버

2. 커넥터

A. FTP 커넥터

B. JDBC 커넥터

C. HDFS 커넥터

D. 카프카 커넥터

E. Kite 커넥터

F. SFTP 커넥터

3. 툴

A. Import

B. Export

C. Job

D. Metastore

E. Merge

2. 비정형 데이터 수집 방식 및 기술

A. 크롤링 : 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술

B. RSS : 블로그, 뉴스, 쇼핑몰 등 웹사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술

C. Open API : 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술

D. 스크래파이 : 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크로서 데이터마이닝, 정보처리, 이력기록 같은 다양한 애플리케이션에 사용되는 수집 기술

i. 특징

1. 파이썬 기반

2. 단순한 스크랩 과정

3. 다양한 부가요소

ii. 주요 기능

1. Spider

2. Selector

3. Items

4. Pipelines

5. Settings

E. 아파치 카프카 : 대용량 실시간 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행, 구독하는 방식의 분산 스트리밍 플랫폼 기술

i. 특징

1. 신뢰성 제공

2. 확장성 제공

ii. 주요 기능

1. 소스

2. 채널

3. 싱크

4. 인터프리터

3. 반정형 데이터 수집 방식 및 기술

A. 센싱 : 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용

B. 스트리밍 : 네트워크를 통해 센서, 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술

C. 플럼 : 스트리밍 데이터 흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술

i. 특징

1. 발생 / 구독 모델

2. 고가용성 제공

3. 파일 기반 저장 방식

ii. 주요 기능

1. 소스

2. 채널

3. 싱크

D. 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술

i. 특징

1. 실시간 스트리밍 수집

2. 확장

3. 데이터 수집 다양성

4. 고가용성

E. 척와 : 대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해데이터를 수집하고, 수집된 데이터를 HDFS에 저장하는 기능을 제공하는 데이터 수집 기술

i. 특징

1. HDFS 연동

2. 실시간 분석 제공

3. 청크 단위 처리

ii. 구성

1. 에이전트

2. 컬렉터

iii. 데이터 처리

1. 아카이빙

2. 디먹스

2. 데이터 유형 및 속성 파악

A. 데이터 유형

i. 구조 관점의 데이터 유형

1. 정형 데이터 : 정형화된 스키마 기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 가지는 데이터

2. 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터

3. 비정형 데이터 : 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터

ii. 시간 관점의 데이터 유형

1. 실시간 데이터

2. 비실시간 데이터

iii. 저장 형태 관점의 데이터 유형

1. 파일 데이터 : 시스템 로그, 서비스 로그 텍스트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터이며, 파일 크기가 대용량이거나 파일의 개수가 다수인 데이터

2. 데이터베이스 데이터 : RDBMS, NoSQL, 인메모리 DB 등에 의해 데이터의 종류나 성격에 따라 DB의 컬럼 또는 테이블 등에 저장된 데이터

3. 콘텐츠 데이터 : 텍스트, 이미지, 오디오 등과 같이 개별적으로 데이터 객체로 구분될 수 있는 미디어 데이터

4. 스트림 데이터 : 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터

B. 데이터 속성 파악

i. 수집 데이터 특징 및 형태

1. 정형 데이터

2. 반정형 데이터

3. 비정형 데이터

ii. 데이터 형태에 따른 분류

1. 정성적 데이터 : 언어, 문자 등

2. 정량적 데이터 : 수치, 도형, 기호 등

iii. 데이터 속성 파악

1. 범주형 데이터 : 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수

A. 명목형 : 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우

B. 순서형 : 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우

2. 수치형 데이터 : 수치형은 몇 개인가를 세어 측정하거나 측정길이, 무게와 같이 양적인 수치로 측정되는 변수

A. 이산형 : 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우

B. 연속형 : 변수가 구간 안의 모든 값을 가질 수 있는 경우

iv. 데이터 속성에 대한 측정 척도

1. 명목 척도 : 관측 대상을 임의의 범주로 분류한 후 기호나 숫자를 부여하는 방법

2. 서열 척도 : 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화를 통해 관측하는 방법

3. 등간 척도 : 동일 간격화로 크기간의 차이를 비교할 수 있게 만든 척도

4. 비율 척도 : 균등 간격에 절대 영점이 있고 비율 계산이 가능한 척도

3. 데이터 변환

A. 데이터 저장 전처리 절차

i. 데이터 저장 전처리 절차 : 데이터 전후처리 데이터 저장 데이터 보안관리 데이터 품질관리

ii. 데이터 저장 전후처리 시 고려사항

1. 데이터 전처리 : 데이터 유형 분류, 분류기준 등

2. 데이터 후처리 : 잡음 제거, 집계 데이터 시 요약 등

iii. 데이터 처리 방식 선정

1. 전처리 단계 : 수집된 데이터를 저장소에 적재하기 위한 작업으로 데이터 필터링, 유형 변환, 정제 등의 기술 활용

2. 후처리 단계 : 저장된 데이터를 분석이 용이하도록 가공하는 작업으로 변환, 통합, 축소 등의 기술 활용

B. 데이터 변환 기술

i. 데이터 변환 기술

1. 평활화 : 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법 (구간화, 군집화 등)

2. 집계 : 다양한 차원의 방법으로 데이터를 요약하는 기법

3. 일반화 : 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법

4. 정규화 : 데이터를 정해진 구간 내에 들도록 하는 기법

5. 속성 생성 : 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법

ii. 데이터 변환 기술 정규화 상세

1. 최소-최대 정규화 : 모든 데이터에 대해 최솟값 0, 최댓값 1로, 그리고 다른 값들은 0과 1사이의 값으로 변환하는 기법

2. Z-스코어 정규화 : 데이터들의 평균과 표준편차를 구하고 평균 대비 몇 표준편차만큼 데이터가 덜어져 있는지를 점수화하는 기법

3. 소수 스케일링 : 특성값의 소수점을 이동하여 데이터 크기를 조정하는 정규화 기법

4. 데이터 비식별화

A. 데이터 보안 관리

i. 수집 데이터 보안 관리

1. 개인정보 보안 관점

2. 데이터 연계 보안 관점

3. 빅데이터 보안 관점

ii. 빅데이터 수명 주기별 보안 관리

1. 빅데이터 수집 보안 관리

A. 데이터 수집 기술 취약성

B. 수집 서버 및 네트워크 보안

C. 개인정보 및 기밀 정보 유출 방지

2. 빅데이터 저장 보안 관리

A. 데이터 저장소 취약성

B. 빅데이터 보안 등급 분류

C. 보안 모니터링

3. 빅데이터 분석 보안 관리

A. 내부 사용자

B. 외부 침입자

C. 보안 로그

iii. 빅데이터 보안 대응 방안

1. 빅데이터 개인정보 처리, 사용자 인증, 접근 제어, 암호화, 보안 모니터링, 보안 인프라

B. 데이터 비식별화

i. 데이터 비식별화 적용 대상

1. 그 자체로 개인을 식별할 수 있는 정보

2. 다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보

ii. 데이터 비식별화 처리 기법

1. 가명처리 : 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체

2. 총계처리 : 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법

3. 데이터값 삭제

4. 범주화 : 단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법

5. 데이터 마스킹 : 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환

iii. 데이터 비식별화 처리 기법에 활용되는 세부 기술

1. 가명처리

A. 휴리스틱 익명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙을 이용해서 개인정보를 숨기는 방법

B. K-익명화 : 같은 속성값을 가지는 데이터를 K개 이상으로 유지하여 데이터를 공개하는 방법

C. 암호화 : 정보의 가공에 있어서 일정 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법

D. 교환방법 : 미리 정해진 변수들의 집합에 대하여 데이터베이스의 레코드왕 연계하여 교환

2. 총계처리

A. 총계처리 기본방식 : 수집된 정보에 민감한 개인정보가 있을 경우 데이터 집합 또는 부분으로 집계 처리를 하여 민감성을 낮추는 방법

B. 부분집계 : 다른 속성값에 비하여 오차 범위가 큰 항목이나 속성값에 대하여 통곗값을 활용하여 값을 반환

C. 라운딩 : 반올림, 내림하여 집계

D. 데이터 재배열 : 기존 정보 값은 유지하면서 개인정보와 연관이 되지 않도록 해당 데이터를 재배열

3. 데이터값 삭제

A. 속성값 삭제 : 원시 데이터에서 민감한 속성값 등 개인 식별 항목을 단순 제거

B. 속성값 부분 삭제 : 전체를 삭제하는 방식이 아닌 해당 속성의 일부 값을 삭제함으로써 대표성을 가진 값으로 보이도록 하는 방법

C. 데이터 행 삭제 : 타 정보와 비교하여 값이나 속성의 구별이 뚜렷하게 식별되는 정보 전체를 삭제

D. 준 식별자 제거를 통한 단순 익명화 : 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 준 식별자를 모두 제거함으로써 프라이버시 침해 위험을 줄이는 방법

4. 범주화

A. 범주화 기본 방식 : 은폐화 방법이라고도 하며 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주의 값으로 변환하는 방식

B. 랜덤 올림 방법 : 개인 식별 정보에 대한 수치 데이터를 임의의 수 기준으로 올림 또는 절사하는 방법

C. 범위 방법 : 개인 식별 정보에 대한 수치 데이터를 임의의 수 기준의 범위로 설정하는 기법, 해당 값의 분포로 표현

D. 세분 정보 제한 방법 : 개인정보 중 단일 항목으로 개인 식별이 될 수 있는 항목을 민감 항목 또는 높은 시각 항목이라 하는데, 이와 같은 민감한 항목을 상한, 하한 코딩, 구간 재코딩 방법을 이용하여 정보 노출 위험을 줄일 수 있도록 하는 기법

E. 제어 올림 방법 : 랜덤 올림 방법에서 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법

5. 데이터 마스킹

A. 임의 잡음 추가 방법 : 소득과 같은 민감 개인 식별 항목에 대해 임의의 숫자 등의 잡음을 추가하여 식별정보 노출을 방지하는 기법

B. 공백과 대체 방법 : 빅데이터 자료로부터 비식별 대상 데이터를 선택한 후 선택된 항목을 공백으로 바꾼 후에 대체법을 적용하여 공백 부분을 채우는 기법

C. 개인정보 비식별 조치 가이드라인

i. 단계별 조치 기준

1. 사전 검토

2. 비식별 조치

A. 기준 : 식별자 조치 기준 / 속성자 조치 기준 / 비식별 조치 방법

3. 적정성 평가

A. 평가 기준 : 기초 자료 작성 / 평가단 구성 / 평가 수행 / 추가 비식별 조치 / 데이터 활용

4. 사후 관리

A. 관리 기준 : 비식별 정보 안전조치 / 재식별 가능성

5. 데이터 품질 검증

A. 데이터 품질 특성

i. 데이터 유효성 관련 품질 특성

1. 데이터 정확성

A. 정확성 : 실세계에 존재하는 객체의 값이 오류 없이 저장되어 있는 특성

B. 사실성 : 데이터가 실세계의 사실과 같은 값을 가지고 있는 특성

C. 적합성 : 데이터가 정해진 유효 범위를 충족하고 있는 특성

D. 필수성 : 필수 항목에 데이터의 누락이 발생하지 않는 특성

E. 연관성 : 연관 관계를 가지는 데이터 항목 간에 논리상의 오류가 없는 특성

2. 데이터 일관성

A. 정합성 : 정보시스템 내의 동일한 데이터 간에 불일치가 발생하지 않는 특성

B. 일치성 : 기능, 의미, 성격이 동일한 데이터가 상호 동일한 용어와 형태로 정의되어 있는 특성

C. 무결성 : 데이터 처리의 선후 관계가 명확하게 준수되고 있는 특성

ii. 데이터 활용성 관련 품질 특성

1. 데이터 유용성

A. 충분성 : 제공 데이터가 사용자의 요구사항을 충분히 충족시킬 수 있는 특성

B. 유연성 : 데이터가 사용자의 다양한 요구사항을 수용할 수 있는 유연한 구조로 되어 있는 특성

C. 사용성 : 공급되는 데이터가 현장에서 유용하게 사용될 수 있는 특성

D. 추적성 : 데이터의 변경 내역이 관리되고 있는 특성

2. 데이터 접근성

A. 접근성 : 사용자가 원하는 데이터를 손쉽게 이용할 수 있으며, 사용의 용이성 관점과 검색의 용이성 관점에서 데이터의 접근이 제공되는 특성

B. 적시성 : 응답시간과 같은 비기능적 요구상 그리고 데이터의 최신성 유지와 같은 품질요건에 잘 대처되고 있는 특성

3. 데이터 보안성

A. 보호성 : 훼손, 변조, 유출 등의 다양한 형태의 위협으로부터 데이터를 안전하게 보호할 수 있는 특성

B. 책임성 : 사용자 접근 권한과 책임을 명확히 부여하는 특성

C. 안정성 : 시스템의 에러나 장애를 사전에 차단하고, 에러나 장애가 발생했을 때 중단 및 지연을 최소화할 수 있는 특성

B. 데이터 변환 후 품질 검증 프로세스

i. 수집 데이터 분석

1. 수집 데이터 분석 프로세스

A. 빅데이터 수집

B. 메타데이터 수집

C. 수집된 메타데이터 분석

D. 데이터 속성 분석

2. 메타데이터를 통한 데이터 속성 분석 방안

A. 누락 값 분석

B. 값의 허용 범위 분석

C. 허용 값 목록 분석

D. 문자열 패턴 분석

E. 날짜 유형 분석

F. 유일 값 분석

G. 구조 분석

ii. 데이터 유효성 여부를 검증할 수 있는 규칙 설정 기능 개발

iii. 정규 표현식을 활용한 검증 수행

C. 품질 검증 방안

i. 빅데이터 수집 시스템의 요구사항 관련 자료 수집

ii. 수집된 빅데이터의 특성을 고려한 품질 검증 기준 정의

1. 수집 데이터의 복잡성 기준 정의

A. 구조, 형식, 자료, 계층

2. 수집 데이터의 완전성 기준 정의

A. 설명 유무, 개체/변수, 메타데이터

3. 수집 데이터의 유용성 기준 정의

A. 처리 용이성, 자료 크기, 제약 사항

4. 수집 데이터의 시간적 요소 및 일관성 기준 정의

A. 시간적인 요소, 일관성, 타당성, 정확성

iii. 데이터 변환 후 빅데이터 품질 검증 기준에 따라 검증 수행

저작자표시 (새창열림)

'Study > 빅데이터분석기사' 카테고리의 다른 글

Ch2_02 데이터 탐색 (0)	2020.12.11
Ch2_01 데이터 전처리 (0)	2020.12.09
Ch1_03 데이터 수집 및 저장 계획 - 2 (0)	2020.12.08
Ch1_02 데이터 분석 계획 (0)	2020.12.04
Ch1_01 빅데이터의 이해 (0)	2020.12.04

Bonseong

Ch1_03 데이터 수집 및 저장 계획 - 1

'Study > 빅데이터분석기사' 카테고리의 다른 글

글갈래

알림

새글

댓글

즐겨찾기

글 보관함

인기글

방문자

티스토리툴바