본문 바로가기

데이터 분석

EDA에 대해서 알아봅시다

학습 목표:

  • 데이터의 타입을 확인한다.
  • 적합한 기술 통계량을 선택한다.
  • 로버스트한 통계량을 사용할 때를 안다.
  • 알맞은 타입의 플롯을 선택한다.
  • 각각의 타입의 플롯의 한계를 설명한다.

Types of Data

  • Categorical data
    • Nominal
    • Ordinal
  • Continuous data
    • Interval
    • Ratio

Nominal data

  • 이산단위의 값을 갖는다
  • 순서가 바뀐다고해서 그 값이 변하지 않는다.

Ordinal data

  • 이산,순서가 있는 단위의 값을 갖는다
  • 단위 사이의 거리는 같지 않다.

Interval data

  • 중간 값이 갖는 순서가 있는 단위
  • 단위 사이의 거리는 같다
  • 절대 0값이 없다
    • IQ가 160인 사람인 80인 사람보다 2배 똑똑하다고 할 수 없다.

Ratio data

  • 중간 값이 갖는 순서가 있는 단위
  • 단위 사이의 거리는 같다
  • 절대 0값이 존재한다.
    • 12인치 샌드위치는 6인치 샌드위치보다 2배 길다.

Descriptive Statistics

  • Central tendency
    • Mean, x¯=1N∑i=1Nxi
    • Mendian P50orQ2
    • Mode, 최빈값
  • Variability (i.e. scale)
    • Range max−min
    • Standard deviation, s=∑i=1N(xi−x¯)N−1
    • Interquartitle range, IQR=Q3−Q1

--> data의 type에 따라 적절한 통계량을 써야한다.

Type별 데이터 요약 및 시각화

Nominal

  • Frequencies : 관심있는 사건이 발생한 수, fi
  • Proportion : fiN N=전체사건
  • Percentage : fiN×100
  • bar chart or pie chart

Ordinal Data

  • Frequencies, Proportion, Percentage
  • Percentiles
  • Mode
  • Median
  • Interquartile range
  • bar chart or pie chart

Continuous Data

  • Frequencies, Proportion, Percentage
  • Mean, median or mode
  • Standard deviation, range or IQR
  • Histogram, Boxplot

두 변수의 요약

두 Categorical 변수

  • 한 변수별 다른변수의 비율을 표현

두 Continuous 변수

  • scatter plot을 이용한 상관성 파악
  • 각 변수의 통계량 파악

하나의 Continuous 와 하나의 Categorical 변수

  • 각 범주별 통계량 파악
  • box plot을 이용한 각 변수별 분포 파악

Outliers

Outliers

  • 값이 lower inner fence(Q1−1.5IQR)보다 작을때
  • 값이 upper inner fence(Q3+1.5IQR)보다 클때

Extreme values

  • 값이 lower inner fence(Q1−3IQR)보다 작을때
  • 값이 upper inner fence(Q3+3IQR)보다 클때

연속형 데이터를 위한 Robust Statistics

  • Median
  • Interquartile range

bivariaty outlier

  • 몇개의 매우작거나 큰 값을 갖는경우
  • 상관계수를 선택할때 영향을 준다.

'데이터 분석' 카테고리의 다른 글

EDA  (0) 2022.08.02