본문 바로가기
데이터 과학

공식 없이 이해하는 확률과 통계

by 달-빛 2023. 3. 7.

데이터 분석에 빼놓을 수 없는 확률과 통계에 대하여 자세히 알아보도록 하겠습니다.

이전 데이터분석 시험에 필요한 통계분석에 대해 알아본 적이 있는데요. 이번에는 더 구체적으로 확률과 통계에 대하여 공부해 보겠습니다.

주사위 사진
확률과 통계에 관한 설명

 

1. 확률이란?

어떤 일이 일어날 수 있는 가능성을 나타낸 값입니다. 같은 원인에서 특정한 결과가 나오는 비율을 뜻하는 것으로 '모든 경우의 수 중에서 어떤 일이 일아날 수 있는 경우의 수'로 정의합니다. 예를 들면 10일 중 3일이 비가 온다면, 비가 올 수 있는 확률은 10번 중에 3번입니다. 이것을 30%라고 표현합니다.

 

이러한 확률의 이론은 프랑스의 B.파스칼, P.페르마 등이 17세기 중엽 도박 문제에 관해 얘기하면서 수학적으로 다루기 시작했다고 합니다. 이후에는 베르누이 일가 및 J.L.라그랑주 등을 통해 발전을 거듭하며 오늘날의 통계학으로 발전이 되었습니다.

 

2. 확률 용어 알기

확률에서 기본적으로 사용되는 용어들을 알아보겠습니다.

  • 시료(샘플) : 특정 목적에 대한 정보를 얻기 위해 수집한 자료입니다.
  • 모집단 : 데이터를 분석하기 위한 원 집단이며, 이러한 모집단을 대표하는 값은 모수라고 합니다.
  • 계량치 : 연속량으로써 측정할 수 있는 품질 특성값. 셀 수 없습니다.
  • 계수치 : 수치적으로 측정할 수 있는 품질 특성값. 셀 수 있습니다.
  • 중심치 : 데이터의 중심이 어디에 위치하는지 파악하는 값으로 평균, 중앙값, 최빈값 등이 있습니다.
  • 산포 : 데이터가 흩어진 정도를 파악하는 값으로 분산, 표준편차 등이 있습니다.

확률 공부에 앞서 6가지 대표 용어들을 알아보았습니다. 지금부터는 확률의 분포에 관한 내용을 더 세부적으로 알아보겠습니다. 

3. 확률 분포란?

확률 값들을 그래프에 나타내게 되면 분포가 나타나며 이러한 분포를 확률 분포라고 합니다. 확률 분포는 계량치와 계수치로 분류할 수 있습니다. 계수치의 경우 이산분포라고 하며, 예시로는 베르누이분포, 이항분포, 포아송 분포, 기하분포 등이 있습니다. 계량치는 연속 분포라고 하며, 정규분포, t분포, 카이제곱분포, F분포 등이 있습니다. 

 

4. 이산확률분포

이산확률분포는 가능한 결과들이 이산적인 값들로 구성된 확률분포를 의미합니다. 모든 가능한 결과에 대한 확률의 합은 1이며, 각각의 가능한 결과에 대해 확률은 0이상의 값을 가집니다. 일반적으로 사용되는 이산확률분포에는 베르누이 분포, 이항분포, 기하분포, 포아송분포 등이 있습니다.

 

  • 베르누이 분포 : 두가지 결과(성공 또는 실패) 중 하나가 나오는 시행에서 성공할 확률을 나타내는 분포입니다. 예를 들면 동전 던지기에서 앞면이 나올 확률이 0.5인 동전을 던질 때, 1회 시행 시 앞면이 나온 확률을 베르누이 분포라 할 수 있습니다.
  • 이항분포 : 이항분포는 베르누이 시행을 n번 시행하여 성공하는 횟수를 확률 변수로 나타낼 때 이를 따르는 분포를 의미합니다. 예를 들면 동전 던지기에서 앞면이 나오는 확률이 0.5인 동전을 10번 던질때, 앞면이 나오는 횟수가 나타내는 분포를 의미합니다. 
  • 포아송분포 : 포아송 분포는 단위시간 또는 단위공간에서 발생하는 사건의 수를 확률로 나타낼 때, 이 확률 변수가 따르는 이산확률 분포를 의미합니다. 예를 들면 특정 웹사이트의 방문자 수, 단위시간동안 도시에서 발생하는 교통사고의 수, 호텔 예약의 취소 수, 인터넷 상에서 발생하는 패킷 손실의 수, 공항에서 발생하는 연착편의 수 등을 나타낼 수 있습니다. 이처럼 포아송 분포는 사건이 발생하는 빈도와 패턴을 나타내며, 사건이 일어날 확률이 매우 낮은 경우에 유용하게 사용할 수 있습니다.
  • 기하분포 : 기하분포는 베르누이 시행에서 첫 번째 성공까지 걸리는 시행횟수를 나타내는 이산 확률 분포입니다. 즉, 성공확률이 p인 베르누이 시행을 반복하여 처음으로 성공할 때까지 걸리는 시행 횟수를 분포로 나타낸 것입니다. 예를 들면, 동전을 여러번 던졌을 때 처음으로 앞면이 나올 때까지 필요한 시행횟수를 계산할 때 기하분포를 사용할 수 있습니다. 또 다른 예로는 인터넷 검색에서 원하는 정보를 찾을 때까지 클릭하는 광고의 횟수를 계산할 때와 같은 상황에서 사용할 수 있습니다.

이와같은 이산확률분포는 다양한 분야에서 사용이 됩니다. 금융 분야에서는 주식가격 확률 계산을, 공학 분야에서는 고장확률 계산을 구하는 것을, 제조업에서는 불량품 발생률을 예측하며, 마케팅에서는 구매확률 예측 등이 그 예시가 되겠습니다. 이처럼 이산 확률 분포는 실제 상황에서 발생하는 현상들을 모델링하고 예측하는데 매우 유용합니다. 

댓글