못정함

[BDA x 영진닷컴] BDA 스터디: 4주차 / PART 2 개념 정리 본문

ADsP 데이터분석준전문가 자격증 공부

[BDA x 영진닷컴] BDA 스터디: 4주차 / PART 2 개념 정리

hadara 2024. 4. 22. 19:18

24년 4월 17일 ADsP 4주차 스터디를 진행했다.

스터디 범위:  PART 1 데이터의 이해(p15~p64)

...이지만 우리 조는 휴회기간에도 스터디를 진행하기로 했기 때문에 자체적으로 일정을 1주일 씩 미루었다.

 

이번 주도 온라인으로 진행했다. PART 2 개념 진도와 PART 3 기출 오답을 진행했다.

사전에 PART 3 기출을 풀고 오답을 해온 후 모르는 문제를 서로 물어보며 정리했다.

 

 

기출을 풀어보니 PART 3 빈출 문제 유형을 좀 파악할 수 있게되었다.

-confusin matrix

-연관분석 - 향상도, 신뢰도 등

-box plot (IQR 관련)

-데이터 분석 결과해석 (코드)

-의사결정나무 지니지수

정도가 되겠음.

 

 

다중공선성, 주성분분석, 시계열분석 등의 개념 정리가 더 필요하다.

 


PART02 데이터 분석 기획

CHAPTER01 데이터 분석 기획의 이해

01 분석 기획 방향성 도출

분석 주제 유형

  what
분석대상
how 
분석 방법
  known unknown
known 최적화 (Optimization) 통찰 (Insight)
unknown 솔루션 (Solution) 발견 (Discover

 

목표 시점별 분석 기획 방안

-과제 중심적 접근방식의 단기 방안: 문재 해결 (Problem Solving)

-마스터플랜 단위의 중장기 방안: 문제 정의 (Problem Definition)\

 

분석 기획시 고려사항

가용한 데이터 (데이터 유형) / 분석 수행시 발생하는 장애요소들에 대한 사전 계획 수립, 분석을 통해 가치가 창출될 수 있는 적절한 유스케이스 탐색 (기존에 잘 구현되어 활용되고 있는 유사분석 시나리오 및 솔루션을 최대한 활용)

 

02 분석 방법론

 

분석 방법론의 적용 업무 특성에 따른 모델

폭포수 모델 나선형 모델 프로토타입 모델
ㄱ순차적.  반복을 통해 점층적으로 개발.
처음 시도하는 프로젝트에 용이함
고객의 요구사항을 완전히 이해하고 있지 못할 때
완벽한 여구사항 분석의 어려움을 해결하기 위해

분석 방법론의 종류

통계적 분석 방법론 데이터 마이닝 분석 방법론 빅데이터 분석 방법론
전통적 통계 분석
비즈니스 목적 X
RDBMS (관계형 DB)
비즈니스 활용
패턴 파악

ex)
SEMMA
KDD (지식 탐색 중심)
CRISP-DM
RDBMS + NoSQL
비정형 데이터 활용

데이터 마이닝 분석 방법론

패턴인식 기법 사용 / 의미있는 상관관계, 패턴, 추세 등을 발견 / 알고리즘 활용

1) SEMMA 분석 방법론

-문제 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하여 개선하는 방식

① sampling: 분석 데이터 추출 ② exploration: 데이터 탐색. 기본 정보 획득 ③ modification: 변수 생성 ④ modeling: 예측 모형 만들기 ⑤ assessment: 신뢰성, 유용성 등을 평가

2) KDD 분석 방법론

-Knowledge Discovery in Database, 지식 탐색 중심

-데이터로부터 insight 추출을 위해

① 데이터셋 선택 (Selection):  목표 데이터 (Target data)를 구성해 분석에 활용

② 데이터 전처리 (Preprocessing): 잡음, 이상값, 결측치 등을 식별, 필요시 제거

③ 데이터 변환 (Transformation): 목적에 맞는 변수 선택 / 데이터의 차원 축소 / 학습용, 검증용 데이터로 분리

④ 데이터 마이닝 (Mining): 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘 선택, 실행

⑤ 데이터 마이닝 결과 평가 (Interpretation / Evaluation) 

3) CRISP-DM (Cross-Industry Standard Process for Data Mining) 

-가장 많이 사용되는 방법론

-계층적 프로세스 모델 (4개 레벨, 6단계의 프로세스) / but 순차적으로 진행되지 X. 단계 간 반복 수행 / 단방향 X

*4개 레벨: 단계, 일반화작업, 세부작업, 프로세스 실행

*6단계 프로세스: 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개 

① 업무 이해 (Business Understanding)

-도메인 지식을 데이터 분석을 위한 문제 정의로 변경

② 데이터 이해 (Data Understanding)

③ 데이터 준비 (Data Preparation)

- KDD의 변환(Transformation)과 같은 과정

-분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 준비하는 과정 / 데이터 정제, 데이터 통합 등

④ 모델링 (Modeling)

-parameter 최적화 / 모델 성능 측정 / 과적합 문제 해결

⑤ 평가 (Evaluation)

⑥ 전개 (Deployment)

-완성된 모델을 실제 업무에 적용하기 위한 계획 수립 단계 / 모니털이 유지보수 계획 등

빅데이터 분석 방법론

-단계, 태스크, 스탭으로 구성됨. 3계층

절차: 분석 기획(Planning) 데이터 준비 (Preparing) 데이터 분석 (Analyzing) 시스템 구현 (Developing) 평가 및 전개 (Deploying)

분석 기획 정의서 작성 (SOW: 작업 요구 사항. statement of work), WBS 작성
-위험 식별 
-위험 대응: 회피 / 전이(보험, 사후 보증), 완화, 수용
데이터 준비  -필요 데이터 정의 (메타데이터 정의서, ERD 포함)
-데이터 스토어 설계
  정형: 관계형DB
  비정형: 하둡, NoSQL 등
-크롤링, ETL, API 등으로 데이터 수집
데이터 분석 -텍스트 분석 
-탐색적 분석 (EDA, 데이터 시각화 등)
-모델링
-모델 평가 및 검증
시스템 구현  
평가 및 전개  

 

03 분석 과제 도출

*Agile 기법: 빠르게 반복 작업을 통해 실제 작동 가능한 소프트웨어를 개발하여 지속적으로 제공하기 위한 소프트웨어 개발 방식

*분석 과제 도출 방법

하향식 접근 방법 -분석 문제가 확실할 때
-지도학습
-전통적인 문제 도출 접근 방법
-분석 문제가 주어지고 해법을 찾기 위해 체계적으로 분석
상향식 접근 방법 -문제의 정의 자체가 어려운 경우
-비지도 학습
-답을 도출하는 게 아닌 데이터 자체를 그대로 인식하는 관점으로 접근
디자인 싱킹 (design thinking) -혼합형
-상향식 접근 방식의 발산(Diverge)단계와 하향식 접근의 수렴(Converse) 단계를 반복적으로 수행하는 등 상호보완적 동적 환경을 통해....

 

하향식 접근 방식 (Top-Down Approach)

4단계로 구성) 문제 탐색 단계(Probelm Discovery) → 문제 정의 단계(Problem Definition): 데이터 분석 문제 변환 → 해결 방안 탐색 단계(Solution Search): 수행 옵션 도출 → 타당성 검토 단계(Feasibility Study): 타당성 평가, 과제 선정 

① 문제 탐색 단계

<비즈니스 모델 기반 문제 탐색>

비즈니스 모델 캔버스 기반 문제 탐색  비즈니스 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴 과제 발굴 영역)
업무, 제품, 고객, 규제&감사, 지원 인프라
STEEP (거시적 관점 분석 모델) 사회, 기술, 경제, 환경, 정치 영역으로 나누어 비즈니스를 분석함  
경쟁자 확대 관점 분석 모델: 대체재, 경쟁자, 신규 진입자의 관점에서 분석  
시장의 니즈 탐색 관점 분석 모델 고객, 채널, 영향자들의 관점에서 분석  
역량의 재해석 관점 분석 모델 내부 역량, 파트너 네트워크 관점에서 분석  

<외부 참조 모델 기반 문제 탐색>

<분석 유스 케이스>

: 도출한 분석 기회들에 대해 구체적인 과제로 만들기 전에 정의 / 해결해야할 문제에 대한 상세 설명과 해당 문제를 해결했을 때 발생하는 효과를 명시

(기출31_11) 현재의 비즈니스 모델 및 유사/동종사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유스케이스로 표기. / 풀어야할 문제에 대해 상세설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시 / 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용

② 문제 정의 단계: 데이터 분석 문제 변환

-비즈니스 문제를 데이터 분석 문제로 변환하여 정의함

-How

③ 해결 방안 탐색 단계: 수행 옵션 도출

-어떤 데이터 또는 분석 시스템을 사용할 것인지

④ 타당성 검토 단계

-타당성 평가 → 과제 선정

 

상향식 접근 방식 (Bottom-Up Approach)

-기존 하향식 접근 방식의 한계(: 대규모의 데이터가 생성되고 빠르게 변하는 기업 환경에서는 문제 자체의 변화가 심해져 문제를 사전에 정확히 정의하는 것이 어려움)를 극복하기 위해 고안됨

-디자인 싱킹, 프로토타이핑 모델, 비지도 학습

-통계적 분석: 인과관계를 분석하기 위해 가설을 설정하고 이를 검정하는 식으로 문제를 해결함

-빅데이터 환경에서의 분석: 논리적 인과관계 분석 + 상관관계 분석 + 연관분석

디자인 싱킹

-사람, 사물에 대한 공감적 관찰을 통해 문제를 재해석. 고객을 포함한 이해 관계자를 이끌어내 빠른 시일 내에 가시적인 프로토 타입을 공동 제작하는 액션전략

-공감하기(Empathize) → 정의하기(define) → 아이디어 내기 (Ideate) → 프로토타입 만들기 (Prototype) → 테스트하기 (Test)

프로토타이핑 모델

-사용자 요구사항을 정확히 파악하기 어렵고 데이터를 규정하기 어려운 상황에서 먼저 분석을 시도해보고 결과를 확인하여 반복적으로 모델을 개선해나가는 방법

-가설 생성 → 디자인에 대한 실험 → 실제 환경에서의 테스트 → 테스트 결과에서의 통찰 도출 및 가설 확인 (기출)

비지도 학습

-레이블(정답)을 제공하지 않고 인공지능이 입력 데이터셋에서 패턴과 상관관계를 찾아내는 머신러닝 알고리즘

 

*상향식 접근 방식의 절차

1. 프로세스 분류 가치 사슬 → 메가 프로세스 → 메이저 프로세스 → 프로세스
2. 프로세스 흐름 분석 프로세스별로 프로세스 맵을 통해 업무 흐름을 상세히 표현
3. 분석요건 식별 각 프로세스 맵 상의 주요 의사 결정 포인트 식별
4. 분석요건 정의 각 의사결정 시점에 무엇을 알아야 의사결정을 할 수 있는지 분석의 요건을 정리

 

*분석 과제 5가지 주요 특성

데이터 크기, 데이터 복잡도, 속도, 분석 복잡도, 정확도와 정밀도

 

04분석 프로젝트 관리 방안

데이터 크기 -분석하고자하는 데이터의 양을 고려하는 관리 방안 수립이 필요
-하둡 분산 프레임워크 환경 vs 기존의 정형 DB
데이터 복잡도 -비정형 데이터
속도 -분석 후 결과를 활용하는 시나리오 측면에서의 속도가 고려되어야함
-일, 주 단위 실적 - 배치(batch) 형태로 일괄 작업 가능
-실시간 사기(Fraud)를 탐지하거나 개인화된 맞춤형 상품/서비스 추천 시에는 빠르게 수행되어야하기 때문에 속도를 고려하여 개발해야함
분석 복잡도 -Accuracy(정확도)와 Complexity(복잡도)는 trade-off 관계
정확도(Accuracy)와 정밀도(Precision) -정확도(Accuracy): 모델의 예측 값과 실제 값의 차이. 정확도가 높을수록 예측 값과 실제 값의 차이가 작다.
TP + TN / TP + FP + TN + FN

-정밀도(Precision): 모델을 반복적으로 수행했을 때 예측 값과 실제 값 사이의 편차의 수준을 의미함
모델이 true라고 분류한 것 중 실제 값도 true인 것의 비율
TP / TP + FP 

-정밀도와 정확도는 트레이드 오프 관계. 
-분석의 활용적 측면 → Accuracy
-분석의 안정성 측면 → Precision

 

*주제별 프로젝트 관리 체계(방안)

관리요소: 시간, 범위, 품질, 통합, 이해관계자, 자원, 원가, 리스크, 조달, 의사소통


CHAPTER02 분석 마스터 플랜

: 분석 과제의 우선순위를 결정, 거버넌스

 

01 마스터 플랜 수립

-과제의 우선순위를 결정, 단기 및 중장기로 나누어 계획을 수립

-전략적 중요도, 비즈니스 성과, ROI 및 분석 과제의 실행 용이성을 고려해 과제의 우선순위를 결정

*분석 마스터플랜 수립 분석 과제 도출 및 우선순위 평가 로드맵 수립 세부 이행계획 수립

용어) ROI: Return On Investment / 투자 혹은 비용에 대한 순이익

ISP: Information Strategy Planning / 전사적 관점....

 

분석 마스터플랜 수립 

분석 과제 우선순위 고려 요소 적용 우선순위 고려 요소 분석 구현 로드맵 수립

ROI 요소

투자비용 측면) 크기, 다양성 속도

비즈니스 효과 측면) 가치 

 

분석 과제 우선순위 평가 기준

시급성, 난이도

https://m.blog.naver.com/PostView.naver?blogId=libertyforever&logNo=222329175691&categoryNo=17&proxyReferer=

*1사분면에 위치한 분석 과제의 난이도를 어려움 → 쉬움으로 변경하여 3사분면에 위치시킬 수 있음 

 

로드맵 수립: 데이터 분석체계 도입 → 데이터 분석 유효성 입증 → 데이터 분석 확산과 고도화

세부 이행계획 수립: 데이터 분석 과제 정의 → 데이터 준비 및 탐색 → 데이터 분석 모델링 및 검증 → 산출물 정리

 

02 분석 거버넌스 체계

분석 거버넌스: 기업에서 의사 결정을 위한 데이터의 분석과 활용을 위한 관리 체계

구성요소: 프로세스, 조직, 시스템, 인적 자원, 자료 (POSHD)

데이터 분석 성숙도 - CMMI 모델 활용

분석 성숙도 4단계: 도입 단계 → 활용 단계 (실제 업무에 적용 가능) → 확산 단계  (전사 차원에서 분석을 관리하고 공유) → 최적화 단계

 

*데이터 거버넌스:

전사적 차원에서 데이터 관리 체계를 구축하는 활동

관리 대상: 데이터 사전, 마스터 데이터, 메타 데이터 

데이터 거버넌스 구성 요소

원칙 (Principle) 조직 (Organization) 절차 (Process)
-데이터 유지 및 관리를 위한 지침
-보안, 품질 기준, 변경 관리
-데이터를 관리할 조직의 역할과 책임 -데이터 관리를 위한 활동과 체계
-작업 절차, 모니터링 활동, 측정 활동

데이터 거버넌스 체계 요소

데이터 표준화 -데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축, 데이터 생명주기 관리 등
데이터 관리 체계 -메타 데이터 관리, 데이터 사전 관리, 데이터 생명주기 관리

데이터 저장소 관리 -전사 차원의 저장소를 구성
-관리용 응용 소프트웨어 지원
-데이터 구조 변겨엥 따른 사전 영향 평가 수행
표준화 활동 -데이터 거버넌스 체계를 구축한 후, 표준 준수 여부를 주기적으로 점검

 

소프트웨어 프로세스

-CMMI: 소프트웨어공학에서 소프트웨어 개발 및 전산 장비 운영 업체들에 대한 업무 능력, 조직의 성숙도에 대한 평가를 하는 모델

단계 프로세스 특징
초기 (initial) 정의된 프로세스가 없는 상태 -작업자 능력에 따라 성공 여부 결정
-소프트웨어 개발 프로세스가 거의 X
관리 (managed) 규칙화된 프로세스 -특정 프로젝트 내의 프로세스 정의 및 수행
-일정 및 비용 등과 같은 관리 프로세스 중심
정의 (defined) 표준화된 프로세스 -조직의 표준 프로세스를 활용해 업무 수행
정량적 관리 (quantitatively managed) 예측 가능한 프로세스 -프로젝트를 정량적으로 관리 및 통제
-소프트웨어 프로세스 및 품질에 대한 정량적인 측정이 가능
최적화 (optimizing) 지속된 개선 프로세스 -프로세스 역량 향상을 위해 지속적인 프로세스 개선

*SPICE

-Software Process Improvement and Capability dEtermination)

-정보시스템 분야에서 소프트웨어의 품질 및 생산성 향상을 위해 스포트웨어 프로세스를 평가 및 개선하는 국제 표준

프로세스 범주 특징
고객-공급자 (Customer-Supplier) 프로세스 소프퉤어를 개발해 고객들에게 전달하는 것을 지원하고 소프트웨어의 정확한 운용 및 사용을 위한 프로세스로 구성
공학 (Engineering) 시스템과 소프트웨어 제품의 명세화, 구현, 유지보수를 하는데 사용되는 프로세스로 구성
지원 (Support) 소프트웨어 생명주기에서 다른 프로세스에 의해 이용되는 프로세스로 구성
관리 (Management) 소프트웨어 생명주기에서 프로젝트 관리자에 의해 사용되는 프로세스로 구성
조직 (Organization) 조직의 업무 목적 수립과 조직의 업무 목표달성을 위한 프로세스로 구성
단계 특징
불완전 (Incomplete) 프로세스가 구현되지 않았거나 목적을 달성하지 X
수행 (Performed) 프로세스가 수행되고 목적이 달성됨
관리 (Managed) 정의된 자원의 한도 내에서 그 프로세스가 작업산출물을 인도하는 단계
확립 (Established) 소프트웨어 공학 원칙에 기반해 정의된 프로세스가 수행되는 단계
예측 (Predictable) 프로세스가 목적 달성을 위해 통제되고, 양적인 측정을 위해 일관되게 수행되는 단계
최적화 (Optimizing) 프로세스 수행을 최적화하고, 지속적인 개선을 통해 업무 목적을 만족시키는 단계

*ISO/IEC 12207

ISO에서 만든 표준 소프트웨어 생명 주기 프로세스

-소프트웨어의 개발, 운영, 유지보수 등을 체계적으로 관리하기 위한 소프트웨어 생명주기 표준을 제공

종류 내용
기본 생명주기 프로세스 획득, 공급, 개발, 운영, 유지보수 프로세스
지원 생명주기 프로세스 품질보증, 검증, 확인, 활동 검토, 감사, 문서화, 형상관리, 문제해결 프로세스
조직 생명주기 프로세스 관리, 기반구조, 훈련, 개선 프로세스

 

 

03  데이터 분석 조직 (team)

조직의 목표: 기업의 경쟁력 확보를 위해 비즈니스 질문(question)과 이에 부합하는 가치(value)를 갖고 비즈니스를 최적화(Optimization)하는 것

유형

집중형 조직 구조 -조직내 별도 독립적인 분석 전담 조직을 구성
기능 중심 조직 구조 -별도 분석 조직 구성X. 
-각 해당 업무부서에서 직접 분석
-전사적 핵심분석이 어려움
분산 조직 구조 -분석 조직의 인력들이 현업부서에 배치되어 업무를 수행

인력: 비즈니스 인력, IT 기술 인력 (아키텍처 수립), 분석 전문 인력 (통계 분석 기법, 모델링), 변화 관리 인력 (경영층을 대상으로 분석문화 확산을 위한 변화 관리를 담당), 교육 담당 인력

분석 과제 기획 및 운영

-분석 조직의 변화 관리: 조직 전반에 분석 문화를 정착시키고 변화시키려는 시도

-과제발굴: 과제 제안자. 분석 프로젝트를 선정하는 작업 수행

-과제 수행: 과제 추진팀.  

*교육: 경영진들이 사실(Data) 기반 의사결정을 할 수 있는 문화를 정착한다.

-비즈니스 영역에서의 빅데이터 활용에서 조직역량의 방해 요인: 분석 전문가의 부족, 섀도우(Shadow) IT(개인 혹은 조직 단위로 회사에서 허용하지 않는 IT 도구), 사일로(silo)조직 (회사 안에서 다른 부서와 소통하지 않는 부서)

-분석 교육은 단순한 툴 교육이 아닌 분석역량을 확보하고 강화하는 것에 초점을 맞춰 진행되어야 한다.