본문 바로가기
데이터 과학

읽으면서 공부하는 3과목 데이터 통계분석

by 달-빛 2023. 2. 24.

1. 세번째 과목 : 데이터 분석 

이 과목은 크게 R기초와 데이터마트, 통계분석, 정형데이터 마이닝 세가지 파트로 나누어 집니다.

  • 첫째, R기초와 데이터 마트에서는 R기초, 데이터마트, 결측값 처리와 이상값 검색을 각 절로 다루고 있습니다.
  • 두번째 통계분석 장에서는 통계학 개론, 기초 통계분석, 다변량 분석, 시계열 예측 이라는 4절로 나누어집니다.
  • 마지막 정형 데이터 마이닝에서는 데이터 마이닝 개요, 분류분석, 군집분석, 연관분석 4절로 나누어져 있습니다.

단어들 사진
데이터분석

 

1장. R기초와 데이터마트, 결측치와 이상값 키워드 암기

여기서 저는 요약변수와 파생변수의 정의를 간단히 정리하고 넘어가려고 합니다. 요약변수는 가장 기본적인 변수, 파생변수는 특정 조건에 맞추어 의미를 부여한 변수로 기억해보겠습니다. 참고로 파생변수는 의미부여가 주관적일 수 있으니 논리적 타당성이 필요하다 정도를 덧붙여볼게요.

 

  • melt(), cast()함수 이건 어떻게 쓰는지만 대충 외워봅니다.
  • summary() 이 함수는 기초통계량 확인할때 사용합니다.

 

결측치

  • complete는 완벽하니까 결측값 있으면 F
  • is.na는 na가 있다 즉, 결측값이 있으면 T
  • 단순확률 대치법이든 다중 대치법이든 추정량 표준오차의 과소추정문제를 보완한 방법입니다.

 

이상값(너무 크거나 작거나 튀는 값)

  • 이상값의 검색 알고리즘은 ESD(Extreme Studentized Deviation) 입니다.
  • 이상값은  부정 사용방지 시스템, 부도 예측 시스템에 활용할 수 있습니다.
  • 그리고 이상값이라고 해서 무조건 제거하면 안됩니다. 이건 결측치도 마찬가지 입니다.

 

2장. 데이터 통계분석 (시험 위주 정리본)

업데이트 23.2.27

어쩌다 보니 시험을 먼저 치고 와버렸어요. 공부를 하면서 블로그 정리를 할려고 했는데 마지막날 집중해서 공부한다고 책만 달달 보고있었습니다. 공부할량이 너무 많은데다 급하게 외우려니 자꾸 헷갈려서 식겁했네요. 아무튼 정리해서 올려보겠습니다. 시험 후 정리하는 거니까 어쩌면 따끈따끈한 기출 문제가 스며들어 있을 수 있습니다.

 

  • R은 기본적인 개념과 구조에 대해서 익혀두시면 좋습니다. 가령 숫자 벡터 문자 논리형을 모두 사용한다면 문자형 데이터 구조가 나오게 되는 특징을 기억해주시면 좋습니다.
  • 통계 같은 경우에도 개념 관련해서 익혀두면 좋은데 평균, 중앙값, 최빈값을 그래프와 연관해서 익혀두실 필요가 있습니다. ex. 오른쪽으로 긴 꼬리 분포의 경우에는 최빈값<중앙값<평균 입니다.
  • 정형 데이터 마이닝은 세부적으로 분류해서 잘 외워두실 필요가 있습니다. 저는 오분류표, 분류분석, 앙상블 분석, 인공신경망 분석, 군집분석, 연관분석으로 나누어서 공부를 했습니다.
  • 오분류표 계산문제가 이번 시험에도 나왔는데 정분류율, Error rate, 특이도, FP Rate, 정확도, 재현율, F1값 정도는 표를 보고 계산이 가능하게 공부하는게 좋습니다. 책을 보면 TN, TP 막 이런식으로 용어가 되어있는데 저는 그냥 한글로 외우는게 편했습니다.

    예를 들면 정분류율은 전체 예측중에서 옳은 예측만 해야되 = 옳은 예측에 값 더한거/표 전체 값 더한 값으로 외웠습니다. 특이도는 실제값이 나쁜데 예측도 나쁜거 = 실제N/예측N 이라고 외웠습니다. 이런식으로 외웠더니 시험장에서 표를 보고 바로 계산이 가능했습니다. 

    참고로 F1 계산 할 수 있어야 합니다. 정확도(예측을 바르게 했더니 실제도 사실인 값=사실T/예측T)와 재현율(실제가 사실인 값이 예측도 사실=예측T/실제T) 구하는 공식을 알면 F1은 구하기 쉬웠습니다.

  • 분류분석은 로지스틱스 회귀분석과 의사결정나무는 각 특징을 비교해서 외워주세요. 특히 의사결정 나무 값은 경우 정리규칙과 지수들 특징 기억해주어야 합니다. 가령 의사결정 나무같은 경우 연관성이 높은 변수가 있다면 영향을 많이 받습니다. 다만 다른 불필요한 변수는 있어도 크게 영향을 받지 않습니다.

  • 인공 신경망에서는 시그모이드 함수와 소프트 맥스 함수를 공부해주시는게 좋아요. 시그모이드 함수의 경우 0~1의 범위를 가지게 됩니다. 소프트 맥스 함수는 출력값이 여러개 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공해주는 함수입니다.

  • 군집분석은 계층적 군집과 비계층적 군집을 구분하고, 각각 특징들은 공부해주시는게 좋습니다. 계층적 군집에는 또다시 연속형과 범주형으로 나눌 수 있습니다.

    - 연속형에는 유클라디안거리, 마할라노비스거리, 맨하탄거리, 표준화거리, 민코우스키거리가 있으며, 계산은 못하더라도 공식을 외우는게 좋습니다. 공식이 주어지고 어떤 거리인지 물어보는 문제가 나올 수 있습니다. 
    - 범주형 같은 경우 와드연결법, 코사인거리, 군지봐, 자카드 거리 등이 있습니다. 여기서는 와드연결법이 중요한데 주관식 문제로도 잘 나옵니다. 군집 내 편차들의 제곱합 정도는 외워두는게 좋습니다.

  • 비계층적 군집은 K-Means와 실루엣이 있습니다.
    - K Means는 분석 절차 임의선택 -> 할당 -> 갱신 -> 반복을 외워주시고 간단한 특징을 암기하는게 좋습니다. 특징으로는 단순하며, 많은 양의 자료가 가능하다. 중앙값 군집을 사용, 초기값 선택이 최종 군집에 영향을 미친다. 초기 군집수 정하기가 어렵다 등이 있습니다.
    - 실루엣은 특징을 외워두어야 합니다. 특징으로는 군집내 거리와 군집간 거리기준으로 군지 분할 성과를 측정한다. 거리는 가까우면 놓고 멀수록 낮은 지표, 완전히 분리된 경우 1 = 군집화가 잘 되었다. 0.5보다 크다면 군집 결과가 타당한 것으로 평가한다 정도가 있습니다.
  • 연관규칙은 키워드를 알고 있어야 합니다. 키워드로는 교차판매, 물건 배치, 과거상품구매 패턴 분석, 연관규칙, 조건반응 등이 있습니다. 또한 지지도와 신뢰도, 향상도의 계산 공식을 알아두어야 합니다. 1이면 독립, 1이상이면 연관성이 있고, 1보다 작은 경우 연관성이 없다고 할 수 있습니다. 이 외에도 연관규칙의 특징을 알아두어야 합니다. 예를 들면 연관분석은 분석을 위한 계산이 복잡하지 않으며 구조 또한 간단하다는 특징이 있습니다.

정형 데이터 마이닝은 시험에 있어 많은 부분을 차지하고 있으니 하나하나 분류하는 방식으로 마인드 맵을 그려가며 공부하는것을 추천합니다. 오늘 하루도 수고하셨습니다.

 

 

 

 

 

댓글