데이터 수집 및 전처리

빅데이터 분석 절차, 데이터 수집, package pandas

Featured image

데이터 분석 절차


  1. 데이터 수집 (Data Collection)
  2. 데이터 전처리 (Data Preprocessing)
  3. 모델 선택 (Model Selection)
  4. 평가 및 적용 (Evaluation & Application)


실습 예제



데이터 수집 기술이 발전하고 네트워킹 속도도 발전하다 보니 대기업 한 부서에서 관리하는 데이터가 약 몇십만개 행이 됨. 이렇게 많은 데이터들은 엑셀로 열리지 않아 파이썬을 가지고 활용하여 데이터를 불러옴 -> 나에게 필요한 몇 천개 정도만 뽑아서 사용 (대기업에서는 엑셀이 코딩으로 대체되고 있음)


라이브러리 pandas


학습 파일 불러오기

학습 파일 불러오기

학습 데이터 정보 출력

학습 데이터 정보

데이터 프레임 기타 정보 확인

데이터 프레임 기타 정보 확인

숫자데이터가 어떻게 분포되어 있는지 볼 수 있음

columns 12개 중에 7개만 나옴 -> 이유 ? 통계값이므로 값이 숫자인 값들만 나옴  
PCLASS 분포값 확인

PCLASS 분포값 확인