요약척도
- 산포척도 : 변동성을 측정
- 범위 : 최대값 - 최솟값
- 사분위범위(IQR) : 3사분위수와 1사분위수 간의 차이
- IQR = Q3 - Q1
- 변수 관측치의 중간 50% 범위
- 평균절대편차(MAD) : 관측치와 평균 간의 차이 절대값의 평균
- 샤프지수(sharpe ratio) : 변동성 대비 보상 비율
- 평균 수익 : 투자자의 보상
- 분산, 표준편차 : 위험
- Rf : 단기국채와 같은 무위험 자산의 평균수익률
- 샤프지수가 높을수록 투자는 투자자에게 위험에 대해 더 잘 보상함
💡 샤프지수 https://www.kcie.or.kr/mobile/guide/3/17/web_view?series_idx=&content_idx=498
- 비대칭
- 왜도(좌우) / 첨도(상하)
범주형 및 수치형 변수 시각화 방법
- 범주형 변수 - 레이블 또는 이름을 나타내는 관측치로 구성
- 빈도분포, 막대그래프 주로 이용
- 수치형 변수
- 빈도분포를 사용하여 수치형 변수를 요약
- 범주 대신 구간을 작성
- 각 관측치의 구간은 겹치지 않음
- 총 구간수는 전체 표본을 포함(5~20개가 가장 적절한 구간 개수)
- 히스토그램 : 각 직사각형의 너비와 높이가 각 구간의 간격 폭과 빈도(상대빈도)를 나타내는 일련의 직사각형 + 구간이 연결되어 있음
- 분포의 형태에 대한 정보를 제공
- 대칭 / 비대칭
💡 excel 함수
|
차트 그리기
- 막대그래프
데이터 선택 - 삽입 - 차트 - 원하는 그래프 선택
- 히스토그램
데이터 - 데이터 분석 - 히스토그램 -구간 선택 - 데이터 선택 - 차트 그리기 → 히스토그램은 막대 선택 후 오른쪽 마우스 - 데이터 계열 서식 - 간격너비 0
💡 히스토그램 그릴 시 주의사항
- 단순하게 그리기
- 눈금 수치 명확하게 표시
- 각 축에 레이블 표시
- 각 막대 / 직사각형의 폭이 같아야 함
- 눈금 왜곡되지 않게 간격 조절하기
ex)
분할표
- 피벗테이블
삽입 - 피벗테이블 - 표/범위 선택 - 데이터 모델에 이 데이터 추가 체크
개수: Email 열 레이블
행 레이블 | no | yes | 총합계 |
Midwest | 107 | 77 | 184 |
Northeast | 41 | 102 | 143 |
South | 24 | 130 | 154 |
West | 18 | 101 | 119 |
총합계 | 190 | 410 | 600 |
- 누적 세로 막대형
표 선택 - 삽입 -차트 - 누적 세로 막대형
산점도
데이터 선택 - 삽입 -차트 - 분산형
산점도(범주형 추가)
데이터 선택 - 삽입 - 차트 - 분산형 - 데이터 선택 - 범례 항목 편집 - 데이터 나눠서 선택
결과해석 : 개발도상국은 선진국에 비해서 기대수명은 낮고, 출산율은 높다.
산점도(거품형)
데이터 선택 - 삽입 - 차트 - 분산형 - 데이터 선택 - 범례 항목 편집 - 계열 1 편집 - 이름 : GNI / X 값 : 기대수명 / Y 값 : 출산율 / 계열 거품 크기 : GNI - 완료 → X축 서식, 축 제목 등 설정
산점도(거품형 + 범주형)
데이터 선택 - 삽입 - 차트 - 분산형 - 데이터 선택 - 범례 항목 편집 - 계열 1 편집 - Developing과 Developed 나눠서 범위 지정 - 이름 : GNI / X 값 : 기대수명 / Y 값 : 출산율 / 계열 거품 크기 : GNI - 완료 → X축 서식, 축 제목 등 설정
선그래프
데이터 선택 - 삽입 -차트 - 꺾은선형
히트맵
피벗테이블 생성 - 데이터 선택 - 홈 - 조건부 서식 - 색조