Ch1_01 빅데이터의 이해
Study/빅데이터분석기사 2020. 12. 4. 02:35빅데이터 개요 및 활용
1. 빅데이터 특징
A. 빅데이터 개념
i. 막대한 양의 정형 및 비정형 데이터
ii. DIKW 피라미드
1. Data : 객관적 사실로서 다른 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호
2. Information : 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터
3. Knowledge : 획득된 다양한 정보를 구조화하여 유의미한 정보로 분류하고 일반화시킨 결과물
4. Wisdom : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
B. 빅데이터 특징 (3V / 5V / 7V)
i. 규모 (Volume) : 빅데이터 분석 규모에 관련된 특징
ii. 다양성 (Variety) : 빅데이터 자원 유형에 관련된 특징
iii. 속도 (Velocity) : 빅데이터 수집, 분석, 활용 속도에 관련된 특징
iv. 신뢰성 (Veracity) : 빅데이터의 수집 대상 데이터가 가지는 신뢰에 관련된 특징
v. 가치 (Value) : 빅데이터 수집 데이터를 통해 얻을 수 있는 가치
vi. 정확성 (Validity) : 빅데이터의 수집 대상 데이터가 가지는 유효성과 정확성
vii. 휘발성 (Volatility) : 빅데이터의 수집 대상 데이터가 의미가 있는 시간
C. 빅데이터의 유형
i. 정형 : 정형돠된 스키마 구조, DBMS에 내용이 저장될 수 있는 구조
ii. 반정형 : 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조
iii. 비정형 : 수집 데이터 각각이 데이터 객체로 구분
D. 데이터 지식경영
i. 암묵지 : 학습과 경영을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
ii. 형식지 : 문서나 매뉴얼처럼 형상화된 지식
iii. 내면화 : 행동과 실천교육을 통해 형식지가 개인의 암묵지로 체화되는 단계
iv. 공통화 : 다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
v. 표출화 : 형식지 요소 정의 하나이며 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 가공, 분석하는 단계
vi. 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 단계
2. 빅데이터의 가치
A. 빅데이터의 가치
i. 경제적 자산
ii. 불확실성 제거
iii. 리스크 감소
iv. 스마트한 경쟁력
v. 타 분야 융합
B. 빅데이터 가치 산정이 어려운 이유
i. 데이터 활용 방식의 다양화
ii. 새로운 가치 창출
iii. 분석기술의 급속한 발전
C. 빅데이터 영향
i. 기업 : 혁신 수단 제공, 경쟁력 강화, 생산성 향상
ii. 정부 : 환경 탐색, 상황 분석, 미래 대응 가능
iii. 개인 : 목적에 따른 활용
D. 빅데이터 위기 요인 및 통제 방안
i. 빅데이터 위기 요인
1. 사생활 침해
2. 책임 원칙 훼손
3. 데이터 오용
ii. 빅데이터 위기 요인에 대한 통제 방안
1. 알고리즘에 대한 접근 허용
2. 책임의 강조
3. 결과 기반의 책임 적용
3. 빅데이터 산업의 이해
A. 빅데이터 산업 개요
i. 데이터 활용 증가, 빅데이터는 신성장동력을 급부상
ii. 클라우딩 컴퓨팅 기술의 발전, 데이터 처리 비용 감소
B. 산업 별 빅데이터 활용
i. 의료 건강, 과학기술, 정보보안 등
4. 빅데이터 조직 및 인력
A. 빅데이터 조직 설계
i. 빅데이터 업무 프로세스
1. 빅데이터 도입 단계 : 빅데이터 서비스를 제공하기 위해서는 빅데이터 시스템 구축을 위한 빅데이터 도입 기획, 기술 검토, 도입 조직 구성, 예산 확보 등을 수행
2. 빅데이터 구축 단계 : 빅데이터 플랫폼을 구축하기 위해서는 요구사항 분석, 설계, 구현, 테스트 단계를 수행
3. 빅데이터 운영 단계 : 빅데이터 시스템의 도입 및 구축이 끝나면, 이를 인수하여 운영 계획을 수립
ii. 조직 설계의 절차
1. 경영 전략 및 사업 전략 수립 -> 전체 조직 구조 설계 -> 핵심 업무 프로세스 검토 -> 팀 조직 구조 설계 -> 핵심 인력 선발 -> 역할과 책임 할당 -> 성과 측정 기준 수립 -> 역량 교육 및 훈련
iii. 조직 구조 설계의 요소
1. 조직의 구조 설계의 요소 : 업무활동, 부서화, 보고체계 고려
2. 조직 구조 유형
A. 집중 구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당
B. 기능 구조 : 일반적인 형태로 별도 분석조직이 없고 해당 부서에서 분석 수행
C. 분산 구조 : 분석조직 인력들을 현업 부서로 직접 배치해 분석 업무를 수행
iv. 조직 구조의 설계 특성
1. 공식화
2. 분업화
3. 직무 전문화
4. 통제 범위
5. 의사소통 및 조정
B. 조직 역량
i. 역량 모델링
1. 소프트 스킬 : 분석의 통찰력, 여러 분야의 협력 능력, 설득력 있는 전달력
2. 하드 스킬 : 빅데이터 관련 이론적 지식, 분석기술의 숙련도
ii. 역량 모델 개발 절차
1. 조직의 미션/성과/목표/CSF 검토
2. 조직 구성원의 행동 특성 도출
3. 조직 구성원의 역량 도출
4. 조직 구성의 역량 모델 확정
iii. 역량 교육 체계 설계 절차
1. 요구사항 분석
2. 직무별 역량 모델 검토
3. 역량 차이 분석
4. 직무 역량 매트릭스 작성
5. 직무별 역량 교육 체계 설계
C. 조직성과 평가
i. 조직성과 평가 절차
1. 목표 설정
2. 모니터링
3. 목표 조정
4. 평가 실시
5. 결과의 피드백
ii. 균형 성과표 관리
1. 재무 : 기업의 주요 이해 관계자들에게 재무적인 지표를 통해 조직의 성과를 보여주기 위한 관점
2. 고객 : 고객 관계 관리를 위한 관점
3. 내부 프로세스 : 내부 비즈니스 프로세스 관점은 성과를 극대화하기 위하여 기업의 핵심 프로세스 및 핵심 역량을 규명하는 과정에 관련한 관점
4. 학습, 성장 : 미래 지향적인 관점
빅데이터 기술 및 제도
1. 빅데이터 플랫폼
A. 빅데이터 플랫폼의 개념 : 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술 (수집-저장-처리-분석-시각화)
B. 빅데이터 플랫폼의 구성요소
i. 데이터 수집 : 원천 데이터의 정형/반정형/비정형 데이터 수집
ii. 데이터 저장 : 정형/반정형/비정형 데이터 저장
iii. 데이터 분석 : 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
iv. 데이터 활용 : 데이터 가시화 및 BI, Open API 연계 등
C. 빅데이터 플랫폼 데이터 형식
i. HTML : 웹 페이지를 만들 때 사용되는 문서 형식
ii. XML : SGML 문서 형식을 가진, 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어
iii. CSV : 몇 가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
iv. JSON : 키-값으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷
D. 빅데이터 플랫폼 구축 소프트웨어
i. 빅데이터 플랫폼 구축 소프트웨어
1. R : 빅데이터 분석
2. 우지 : 워크플로우 관리
3. 플럼 : 데이터 수집
4. HBase : 분산 데이터 베이스
5. 스쿱 : 정형 데이터 수집
ii. 분산 컴퓨팅 환경 소프트웨어 구성요소
1. 맵리듀스 : Key-Value 형태의 데이터 처리, 맵-셔플-리듀스 순서대로 데이터 처리
2. 얀 : 하둡의 맵리듀스 처리부분을 새롭게 만든 자원 관리 플랫폼
3. 아파치 스파크 : 하둡 기반 대규모 데이터 분산처리시스템, 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터 처리
4. 하둡 분산 파일 시스템 (HDFS) : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
5. 아파치 파둡 : 분산 파일 시스템과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
E. 하둡 에코 시스템 : 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임
i. 하둡 에코시스템의 수집, 저장, 처리 기술
1. 비정형 데이터 수집
A. 척와 : 분산된 각 서버에서 에이전츠를 실행하고 커렉터가 에이전트로부터 데이터를 받아 HDFS에 저장
B. 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
C. 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 저장하는 대용량 실시간 로그 수집 기술
2. 정형 데이터 수집
A. 스쿱 : 대용량 데이터 전송 솔루션
B. 히호 : 스쿱과 같은 대용량 데이터 전송 솔루션, 깃허브에 공개되어 있음
3. 분산 데이터 저장
A. HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분삭 파일 시스템
4. 분삭 데이터 처리
A. 맵리듀스 : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
5. 분산 데이터베이스
A. HBase : 컬럼 기반의 저장소로 HDFS와 인터페이스 제공
ii. 하둡 에코 시스템의 데이터 가공 및 분석, 관리를 위한 주요 기술
1. 데이터 가공
A. 피그 : 대용량 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공
B. 하이브 : 하둡 기반의 데이터 웨어하우스 솔루션
2. 데이터 마이닝
A. 머하웃 : 하둡 기반의 데이터 마이닝 알고리즘을 구현한 오픈 소스
3. 실시간 SQL 질의
A. 임팔라 : 하둡 기반의 실시간 SQL 질의 시스템
4. 워크플로우 관리
A. 우지 : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
5. 분산 코디네이션
A. 주키퍼 : 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
2. 빅데이터와 인공지능
A. 인공지능의 개념 : 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어
B. 빅데이터와 인공지능의 관계 : 인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 가지고 학습하는 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 됨
C. 빅데이터와 인공지능의 전망 : 상호보완 관계
3. 개인정보보호법, 제도
A. 정보 주체의 개인정보 자기 결정권을 철저히 보장하는 활동
B. 필요성
i. 유출 시 피해 심각
ii. 정보사회 핵심 인프라
iii. 개인정보 자기 통제권
C. 빅데이터 개인정보보호 가이드라인
i. 개인정보 비식별화
ii. 개인정보 재식별 시 조치
iii. 민감정보 처리
iv. 투명성 확보
v. 수집정보의 보호조치
D. 개인정보보호 관련 법령
i. 개인정보 보호법
ii. 정보통신망법
iii. 신용정보법
iv. 위치정보법
v. 개인정보의 안전성 확보조치 기준
E. 개인정보보호 내규
i. 정보보호 업무처리 지침
ii. 개발 보안 가이드
iii. 개인정보 암호화 매뉴얼
iv. 소프트웨어 개발 보안 구조
v. 기술적, 관리적 보호
4. 개인정보 활용
A. 개인정보 비식별화 개념 : 데이터값 삭제, 가명처리, 총계처리 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치
B. 절차
i. 사전 검토 : 데이터가 개인정보에 해당하는지 검토
ii. 비식별 조치 : 데이터 집합에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체
iii. 적정석 평가
iv. 사후 관리
C. 개인정보 비식별 조치 방법
i. 가명처리 : 개인이 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체
ii. 총계처리 : 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
iii. 데이터 삭제 : 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
iv. 데이터 범주화 : 단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법
v. 데이터 마스킹 : 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환
D. 재식별 가능성 모니터링
'Study > 빅데이터분석기사' 카테고리의 다른 글
| Ch2_02 데이터 탐색 (0) | 2020.12.11 |
|---|---|
| Ch2_01 데이터 전처리 (0) | 2020.12.09 |
| Ch1_03 데이터 수집 및 저장 계획 - 2 (0) | 2020.12.08 |
| Ch1_03 데이터 수집 및 저장 계획 - 1 (0) | 2020.12.08 |
| Ch1_02 데이터 분석 계획 (0) | 2020.12.04 |



