본문 바로가기

BIGDATA/빅데이터분석기사 실기대비

(7)
[빅데이터분석기사실기] 학습 데이터 세트 빅데이터분석기사 실기 교재 실습을 위한 데이터 세트입니다. 주로 기본 데이터분석 라이브러리에서 제공하는 데이터를 사용하지만 일부 데이터 세트가 따로 필요한 경우에만 외부 데이터를 사용하니 다운로드 받은 후 교재에 나온대로 학습하시면 될 것 같습니다. 기출문제를 풀기 위한 데이터 세트로 1회, 2회 구분하여 제공합니다. 문의사항 있으시면 댓글 또는 이메일로 문의주세요. (bigdataleader@naver.com)
[빅데이터분석기사_실기] 6. 조건문과 반복문 여러분, 안녕하세요. :-) 어느새 6번째 시간입니다. 오늘은 빅데이터 분석 뿐만 아니라 프로그래밍의 가장 기본이라고 할 수 있는 제어문에 대해서 학습을 해보겠습니다. 제어문은 필요한 조건과 반복을 설정하여 명령문을 제어하는 것입니다. 예시를 통해서 차근차근 보겠습니다. [빅데이터분석기사 실기 필수 암기] 조건문 if (조건문1) { 명령어1 } else if (조건문2 ){ 명령어2 } else { 명령어3 } 각 조건에 맞는 명령어를 실행하는 조건문입니다. 1) 조건이 2개 일 때 : if~ else 2) 조건이 3개 이상일 때 : if ~ else if ~ else ifelse (조건문, 명령어1, 명령어2) 조건식이 단순한 경우, 조건문이 참일 때 명령어1, 거짓일 때 명령어 2를 실행합니다. s..
[빅데이터분석기사_실기] 5. 이상치 기출문제풀이 안녕하세요, 여러분 :) 다들 열심히 공부하고 계신가요. 11/8일부터 빅데이터분석기사 실기 접수가 시작되었어요. 놓치시지 마시고 꼭 접수하시길 바라겠습니다. 오늘은 이상치 기출문제를 함께 풀어보도록 할게요. 2021년 2회 실기 기출문제 풀이 [2021년 2회 실기 작업형 제 1유형 문제 13] 다음은 Insurance 데이터 세트이다. Charges 항목에서 이상값의 합을 구하시오. (이상값은 평균에서 1.5 표준편차 이상인 값) 이 문제에서 주의해야할 점은 이상값의 기준을 딱 명시해주었기 때문에 그에 맞게 기준선을 정하고 이전까지는 이상치를 제거한 데이터의 범위를 출력해봤다면, 이 문제는 이상치들의 합을 구한다는거에요. 여기에 주의하시고, dplyr 패키지를 통해서 간단하게 문제를 풀어보겠습니다. ..
[빅데이터분석기사_실기] 4. 이상치 판별 -1 안녕하세요, 여러분 :-) 지난 시간에 배운 결측치는 모두 잘 이해하셨겠죠? 데이터 분석에 있어서 데이터 전처리는 핵심이고 데이터 전처리에서 결측치와 이상치 처리는 기본 중 기본이므로 열심히 학습하시길 바랄게요. 이번엔 이상치에 대해서 배워보도록 하겠습니다. 1) 이상치(Outlier)란? -이상치는 관측된 데이터의 범위에서 너무 크거나 작은 값을 의미합니다. -이상치 관측 원인은 입력 오류, 데이터 처리 오류, 샘플링 오류 등이 있습니다. 2) 이상치 판별 -이상치를 판별 할 수 있는 방법은 크게 2가지로 정리할 수 있습니다. R 함수 활용 -R의 outliers 패키지를 설치하여 outlier 함수로 이상치를 판별합니다. 사분위수 활용 -제 3사분위수에서 제 1사분위수의 값을 뺀(Q3-Q1)다음 1...
[빅데이터분석기사_실기] 3. 결측치 처리/기출문제 풀이 안녕하세요, 여러분 :) 이제 드디어 기출 문제를 함께 풀어보겠습니다. 단, 꼭 앞 2개의 실습을 진행해보시고 넘어오시길 바랍니다. 꼭이요! ! ! 2021년 2회 실기 기출문제 풀이 [2021년 2회 실기 작업형 제 1유형 문제 12] 주어진 데이터의 첫 번째 행부터 순서대로 80%까지의 데이터를 훈련데이터로 추출 후 'total_bedrooms'변수의 결측값(NA)을 'total_bedrooms' 변수의 중앙값으로 대체하고 대체 전의 'total_bedrooms'변수 표준편차 값과 대체 후의 'total_bedrooms'변수 표준편차 값의 차이의 절댓값을 구하시오. 여러분이 이 문제를 풀기 위해서는 3가지를 알고 계셔야 합니다. 1) 데이터 추출 방법 2) 기초 함수 (중앙값, 표준편차, 절댓값) 3..
[빅데이터분석기사_실기] 2. 결측치 대체 안녕하세요, 여러분. 지난 시간 다뤄본 결측치 확인과 삭제 방법은 잘 보고 오셨죠? 이번에는 결측치를 대치하는 방법에 대해서 학습하겠습니다. 다음 시간 기출문제를 풀어보기 위해서 반드시 알아두셔야 합니다. 만약 R 기초를 아예 모르시는 분들은 블로그에 온라인 강의가 있으니 듣고 오시면 좋을 것 같습니다. :-) 1) 결측값 처리 방법 - 평균 대치법(Mean Imputation) 평균 대치법이란 결측값을 데이터의 평균, 중위수 등으로 대체하는 방법입니다. 대체하는 방법 중 가장 많이 쓰이는 방법입니다. 두 가지 방식으로 대치하겠습니다. 사용된 데이터는 R 내장 데이터인 airquality입니다. Ozone 변수와 Solar.R 변수에 각각 결측치가 있는 것을 확인할 수 있습니다. ifelse 조건문을 활..
[빅데이터분석기사_실기] 1. 결측치 처리 데이터 전처리에서 결측치를 확인하고 처리하는 과정은 기본 중 기본입니다. 빅데이터분석기사 실기 시험에 실제 결측치 처리(단순 대치법)문제가 나왔습니다. 공부해봅시다 ! ! :-) 1) 결측치란? -결측치는 관측되지 않은 값으로서 NA(Not Available)로 표시됩니다. -데이터에 결측치가 포함되어 있으면 산술연산과 같은 데이터 분석을 제대로 할 수 없습니다. 2) 결측치 데이터 처리 순서 (***) -결측치 확인 -결측치 처리 방법 결정 (삭제 or 대치) -결측치 삭제 -결측치 대체 결측치 처리 순서 잘 보셨나요? 이 순서대로 R로 학습하도록 하겠습니다. -필요한 데이터 세트 : airquality(내장 데이터) , 생성 데이터 -필요한 패키지 : dplyr 1. 결측치 확인 is.na(x) 데이..