학습 목표:
- 데이터의 타입을 확인한다.
- 적합한 기술 통계량을 선택한다.
- 로버스트한 통계량을 사용할 때를 안다.
- 알맞은 타입의 플롯을 선택한다.
- 각각의 타입의 플롯의 한계를 설명한다.
Types of Data
- Categorical data
- Nominal
- Ordinal
- Continuous data
- Interval
- Ratio
Nominal data
- 이산단위의 값을 갖는다
- 순서가 바뀐다고해서 그 값이 변하지 않는다.
Ordinal data
- 이산,순서가 있는 단위의 값을 갖는다
- 단위 사이의 거리는 같지 않다.
Interval data
- 중간 값이 갖는 순서가 있는 단위
- 단위 사이의 거리는 같다
- 절대 0값이 없다
- IQ가 160인 사람인 80인 사람보다 2배 똑똑하다고 할 수 없다.
Ratio data
- 중간 값이 갖는 순서가 있는 단위
- 단위 사이의 거리는 같다
- 절대 0값이 존재한다.
- 12인치 샌드위치는 6인치 샌드위치보다 2배 길다.
Descriptive Statistics
- Central tendency
- Mean, x¯=1N∑i=1Nxi
- Mendian P50orQ2
- Mode, 최빈값
- Variability (i.e. scale)
- Range max−min
- Standard deviation, s=∑i=1N(xi−x¯)N−1
- Interquartitle range, IQR=Q3−Q1
--> data의 type에 따라 적절한 통계량을 써야한다.
Type별 데이터 요약 및 시각화
Nominal
- Frequencies : 관심있는 사건이 발생한 수, fi
- Proportion : fiN N=전체사건
- Percentage : fiN×100
- bar chart or pie chart
Ordinal Data
- Frequencies, Proportion, Percentage
- Percentiles
- Mode
- Median
- Interquartile range
- bar chart or pie chart
Continuous Data
- Frequencies, Proportion, Percentage
- Mean, median or mode
- Standard deviation, range or IQR
- Histogram, Boxplot
두 변수의 요약
두 Categorical 변수
- 한 변수별 다른변수의 비율을 표현
두 Continuous 변수
- scatter plot을 이용한 상관성 파악
- 각 변수의 통계량 파악
하나의 Continuous 와 하나의 Categorical 변수
- 각 범주별 통계량 파악
- box plot을 이용한 각 변수별 분포 파악
Outliers
Outliers
- 값이 lower inner fence(Q1−1.5IQR)보다 작을때
- 값이 upper inner fence(Q3+1.5IQR)보다 클때
Extreme values
- 값이 lower inner fence(Q1−3IQR)보다 작을때
- 값이 upper inner fence(Q3+3IQR)보다 클때
연속형 데이터를 위한 Robust Statistics
- Median
- Interquartile range
bivariaty outlier
- 몇개의 매우작거나 큰 값을 갖는경우
- 상관계수를 선택할때 영향을 준다.