본문 바로가기
데이터 과학

과목2 데이터 분석 기획 알아야 할 주요 개념

by 달-빛 2023. 2. 23.

분석 기획의 이해

1. 분석을 기획하기 위해서는 분석방법 그리고 분석대상을 알때와 모를때를 나누어서 접근해야 합니다.

최적화  통찰

솔루션  발견 요건 좀 외워줘야 합니다.

2. 목표 시점별 분석 기획에 대해 구분해야 합니다.

당면한 분석 주제의 해결은 과제단위 입니다. 속도가 중요합니다. 문제해결에 중점을 둡니다.

지속적 분석 문화 내재화는 마스터플랜 단위입니다. 정확도와 문제의 정의에 중점을 둡니다.

3. 분석 기획시 고려할 세가지 사항을 외워봅시다.

가용 데이터 즉, 관련데이터의 확보가 중요합니다.

적절한 활용 방안 및 유즈케이스 확보(비즈니스 케이스 확보)

장애요소에 대한 사전계획 수립(이행 저해요소 관리)이 있습니다.

4. 의사결정 방해요소

고정관념

편향된 생각

프레이밍 효과 : 같은 상황에서도 개인의 판단이나 선택이 달라질 수 있는 것 입니다.

5. 분석 방법론 구성요소 4가지

절차

방법

도구(ex.R)와 기법

템플릿과 산출물 : 분석 수행과정을 기록하기 위한 양식이 필요합니다.

6. 분석방법론의 모델

폭포수 모델 : 단계적으로 진행(이전단계 완료되야 다음단계 진행)합니다.

프로토타입 모델 : 일부 우선개발 후 사용자 평가를 거쳐 개선작업 시행합니다.

나선형 모델 : 반복을 통해 점증적 개발합니다.

계층적 프로세스 모델 : 단계, 테스크, 스텝 형태로 구성됩니다.

7. 계층적 프로세스 모델의 방법론 

KDD 분석 방법론 : 5단계 : 데이터셋 선택 / 데이터전처리 / 데이터 변환 / 데이터마이닝 / 해석 및 평가

CRISP-DM분석 방법론 : 6단계 : 업무이해 / 데이터이해 / 데이터 준비 / 모델링 / 평가 / 전개

빅데이터 분석 방법론 : 단계, 테스크, 스텝 3계층 5단계로 구성 : 분석기획 / 데이터 준비 / 데이터분석 / 시스템구현 / 평가 및 전개

8. 1단계 분석기획 순서

프로젝트 범위설정하고 데이터 분석 프로젝트를 정의합니다. 정의된 프로젝트를 바탕으로 수행계획을 수립하고, 데이터 분석 위험을 식별합니다. 식별된 위험은 대응계획을 수립하는데 예상되는 위험에 대해서는 회피, 전이, 완화, 수용으로 구분하여 위험관리 계획을 세워야 합니다. 이 네가지는 외워야 합니다. 회피, 전이, 완화, 수용.

9.2단계 데이터 준비 단계 -> 준비단계에 어떤게 있는지 외워야 할 것 같습니다.

데이터 준비단계에서는 데이터 정의, 데이터 획득방안 수립, 데이터 스토어 설계, 데이터 수집 및 저장, 데이터 정합성 점검 과정이 있습니다.

10. 데이터 분석 단계 -> 여기는 단계 순서를 암기하는 것이 좋을 것 같습니다.

분석용 데이터 준비 -> 텍스트 분석 -> 탐색적 분석 -> 모델링 -> 모델 평가 및 검증

11. 분석 과제 발굴은 하향식과 상향식 두가지 방식으로 나누어집니다.

하향식 : 명확한 문제를 알때 이용합니다.

상향식 : 명확한 문제를 모를때 이용합니다. - 데규모 데이터로 부터 인사티트를 도출합니다.

 

12. 하향식 접근법의 단계를 알아두어야 합니다.

문제를 탐색(Discovery) 후 문제 정의(Definition)합니다. 정의된 문제를 바탕으로 해결방안 탐색(Search)하고 타당성 검토(Study)단계로 진행합니다.

문제 탐색시 비즈니스 모델 캔버스의 9가지를 단순화한 5가지 블록을 활용하여 문제를 탐색합니다.

5가지는 업무, 제품, 고객, 규제와 감사, 지원인프라로 입니다.

유스케이스를 탐색하고 활용하는것이 중요하며, 거시적 관점등의 외부적인 요소를 통해 새로운 유형의 기회를 발굴합니다. 또한 시장 니즈를 파악하는 것도 중요합니다.

 

13. 상향식 접근법 : 지도학습, 비지도학습, 프로토타이핑접근법이 있습니다.

14. 지도학습의 경우

정답(종속변수)이 있는 데이터를 활용하여 분석 모델을 구축하는 것입니다.

종속변수는 연속형인 회귀(다항회귀분석)와 범주형인 분류(의사결정나무 포함)로 나누어 집니다.

15. 비지도 학습의 경우

정답이 없는 데이터를 활용하여 분석 모델을 구축하는 것입니다.

데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표시하는 것이라 할 수 있습니다.

군집분석연관분석이 있습니다.

16. 프로토타이핑 접근법

먼저 분석을 시도하고 그 결과를 통해 조금씩 개선해나가는 방법으로 시행착오를 통한 문제 해결 방법입니다.

가설설정 -> 디자인에 대한 실험 -> 실제환경 테스트 -> 인사이트 도출 및 가설확인 순서로 진행됩니다.

17. Design Thinking 창의적 아이디어를 도출하는 것이 목적입니다. 문제가 주어지지않았을때 더 높은 가치를 찾기위해 데이터를 다양하게 조합 분석하는 것으로 감정이입(Empathize)가 중요합니다.

18.다음은 앞서 발굴된 분석 과제로부터 어떤 방향으로 관리를 하게 되는지 속성을 통해 확인해보겠습니다.

속성 관리방안으로는 5가지로 나누어 볼 수 있습니다.

데이터 양, 분석의 속도, 데이터의 복잡도, 분석의 복잡도, 정확도 및 정밀도가 있습니다.

ISO21500을 통한 관리방안으로는 10가지로 나누어 볼 수 있습니다.

범위, 시간, 품질, 원가, 자원, 조달, 이해관계자, 의사소통, 통합, 리스크가 있습니다.

 

분석 마스터 플랜

우선순위 결정하고, 적용범위와 방식 결정 이행 계획 수립합니다.

1. 우선순위를 선정함에 있어 고려요소를 알아두어야 합니다.

고려요소는 전략적 중요도, 실행용이성, 비즈니스성과/ROI 세가지가 있습니다.

쉬우면서 급한 것 부터 수행하고 어렵고 여유로운 것 순서로 진행합니다.

2. 적용범위 및 방식을 결정합니다.

업무 내재화 적용수준, 분석데이터 적용 수준, 기술 적용수준 세가지가 있습니다.

3. 이행 계획을 수립합니다.

 

 

 

 

데이터 거버넌스 체제

댓글