hyunnn_00 2023. 5. 9. 16:44

<엑셀 실습>

💡 Excel 함수

  • 데이터 개수
    • COUNT : 숫자 데이터 개수
    • COUNTA : 비어있지 않은 행의 데이터 개수
  • 조건에 맞는 데이터 개수
    • COUNTIF(데이터 범위, 조건)
    • COUNTIFS(데이터 범위1, 조건1, 데이터 범위2, 조건2)
  • 결측치 개수
    • COUNTBLANK(범위) : 비어있는 셀의 개수
  • 나이 계산
    • YEARFRAC(시작 날짜, 끝 날짜) → INT 함수 적용
  • 백분위 수
    • PERCENTILE.INC(데이터, 백분위수) - 0~1 사이의 백분위수 </aside>

엑셀 단축 키

ctrl + shift + 방향키 ↓ : 처음부터 빈 셀의 마지막 데이터 전까지 모두 선택

ctrl + A : 데이터 전체 선택

결측치 확인

데이터 선택 - 홈 - 조건부 서식 - 새 서식 규칙 - 다음을 포함하는 셀만 서식 지정 - 빈 셀 - 서식 지정

부분집합화

데이터 선택 - 정렬 및 필터 - 조건에 맞게 필터 설정 - (시트 추가해서 붙여넣기)

열 삭제

삭제할 열 선택 - 홈 - 삭제 - 시트 열 삭제

데이터 분석 도구

파일 - 옵션 - 추가 기능 - 분석 도구 - 이동 ⇒ ‘데이터’ 칸에 데이터 분석 도구 생성됨

 


<개념 및 이론>

데이터 준비

  • 데이터 랭글링(data wrangling) 데이터 품질을 개선하고, 분석을 수행하는데 필요한 시간과 노력을 줄이며, 데이터의 진정한 정보를 드러내는 데 도움
  • 결측치(Missing Valuse)
  • 결측치를 처리하기 위한 두 가지 방법
  1. 제거 : 결측치의 양이 작거나 결측치가 소수의 관측치에 집중된 경우에 적합
  2. 대체 : 결측치를 합리적으로 대체되는 값으로 변경
  • 수치형 변수 : 평균값으로 대체
  • 범주형 변수 : 최빈값으로 대체 그외) 해당 변수 제거, 의사결정나무와 같은 일부 분석 기법 활용
  • 이상치(Outlier)
  • 평균 대신 중앙값 ****사용 선호
  • 부분집합화(Subsetting) : 분석과 관련된 데이터셋의 일부를 추출하는 프로세스
  • 시계열 데이터의 경우, 최근의 관측치와 먼 과거의 관측치를 분리하여 분석하기 위해 부분집합 생성
  • 원하지 않는 데이터를 제거하는 데 사용 ex) 문제와 관련이 없는 변수, 중복 정보가 포함된 변수, 결측치가 너무 많은 변수

범주형 데이터 변환

  • 범주형 변수
  • 범주형 데이터를 단순화하거나 숫자 형식으로 변환하는 단계를 분석 전 자주 수행
  • 명목 또는 서열 변수 : 너무 많은 범주가 있는 경우 여러가지 잠재적인 문제 발생
  • 범주 축소(일부 범주를 합침)
  • 관측치가 거의 없는 범주 결한하여 ‘기타 범주’ 생성
  • 회귀모형 등 많은 분석모형에서 범주형 변수는 먼저 수치형 변수로 변환되어야 함
  • 더미 변수(Dummy Variable) (지시변수 or 이항변수) : 범주 중 하나의 값에 1을 가정 → 나머지 범주는 0
  • 변수의 k개 범주가 주어지면, 보통 k-1개의 더미변수 생성
  • 범주점수(Category Scores)
  • 데이터가 서열형이고 본질적인 순서가 있는 범주를 갖는 경우에 가장 적절
  • 이 변환을 통해 특정 분석모형에서 범주형 변수를 수치형 변수로 처리 가능 → 여러 더미변수로 변환 or 범주 축소할 필요 없음

통계

  • 척도 유형
    • 명목척도 : 각각 숫자마다 범주의 고유한 의미가 있어 분류 가능
    • 서열척도 : 분류뿐만 아니라 크기에 따라 크고 작음 등 순서까지 부여 가능
    • 등간척도 : 숫자 사이의 간격이 일정하여 크기 / 간격의 구체적 정도 파악 가능
    • ex) IQ점수, 온도(절대영점이 없음) → 0이 없음을 말하는 것x
    • 비율척도 : 절대 0이라는 기준점이 존재하여 절대적 크기 측정 가능
    • ex) 소득, 무게, 거리, 출석 일수 등 (절대영점 있음) → 0은 없음을 말함

요약척도

  • 중심위치 척도로 중앙값을 계산하는 경우가 많음
    • 관측치 수가 홀수 → 중앙값
    • 관측치 수가 짝수 → 두 중간 값의 평균
    • 평균과 중앙값이 유의하게 다르면 변수에 이상치가 포함되어 있을 가능성이 높음