홍예한의 DATA 나라
DATA
데이터 분석
크롤링/TEXT마이닝
[ =============== TABLE 표시 =============== ]
TABLE 표시 안 함
TABLE HEAD 표시
TABLE 전체 표시
[ ================ DATA 구분 =============== ]
분석 DATA
비교 DATA
생성 DATA
[ FILE / DATA ]
[ - 그래프 & 결측치/이상치 - ]
[ DATA전처리 & DATA만들기 ]
[ ========= EXCEL / CSV 파일 불러오기 ========= ]
한글이 있는 CSV파일은 반드시 'CSV UTF-8'로 저장해야만 로딩이 가능합니다.
FILE
[ =============== Sample DATA =============== ]
불러오기
iris
mtcars
anscombe
[ =========== DATA 초기화/다운로드 ============ ]
모든 DATA초기화
DATA Download
'분석DATA'로 모든 분석이 진행됩니다. 아래 [### DATA전처리 ###]탭에서 '비교DATA'에 저장 후 새로운 DATA를 불러 올 수 있습니다.
'분석DATA'와 '비교DATA'의 공통DATA 또는 차이DATA를 만들어 '생성DATA'를 만들 수 있습니다.
[ =============== 기술통계 표시 ============= ]
정보 표시 안 함
Describe 보기
STR 보기
SUMMARY 보기
[ 변수(열) 선택 ]
[ 적용 할 DATA 구분 ]
선택한 변수
DATA 전체
[ 결측치 처리(선택한 변수) ]
다중대체
행삭제
* 다중대체 : Multiple Imputation *
MICE처리에 부적합한 DATA가 있어서는 안됩니다.
... MICE 실행 ...
*선택한 변수에 결측치가 있는 모든 행 삭제.
삭제
결측치(기본)
0과 음수
[ --- 이상치 확인 / 삭제 --- ]
이상치 확인
이상치 삭제
[ Box plot & 히스토그램 ]
Box plot
히스토그램
breaks
freq
TURE
FALSE
[ 그룹별 히스토그램 (범주형 변수 선택) ]
binwidth
그룹별 히스토그램
모든 변수 산점도
산점도
산점도PLUS
[ =========== 변수(열)선택 ========== ]
[ ========== 변수 1,2 선택 ========== ]
변수1 선택
변수2 선택
[ ============ 숫자입력 ============ ]
[ 전처리 1 ]
[ 전처리 2 ]
[ =============변수(열) 삭제/변환============ ]
변수(열) 삭제
Factor 변환
제곱 변환
로그 변환
제곱근 변환
숫자형 변환
문자형 변환
중복DATA 삭제
[ ============== 변수(열)SWITCH ============= ]
'변수 1,2 선택'에서 선택하기
SWITCH
[ =============== 소수점 정리 =============== ]
선택 변수
전체 DATA
[ ================ DATA표준화 =============== ]
Standardization
[ ============== 분석 DATA 만들기============ ]
변수(열) 추가
1개 삭제
DATA만들기
[ =============비교/분석 DATA 저장============ ]
현재(분석)DATA를 비교DATA에 저장
현재(분석)DATA를 생성DATA에 저장
[ ===== 분석DATA+비교DATA 행으로 합치기===== ]
행(row)으로 합치기
분석DATA와 비교DATA의 열구조가 동일해야 하며, 합쳐진 후 생성DATA에 저장됩니다.
[ === 선택한 변수(열)를 비교DATA에 합치기=== ]
선택변수 + 비교DATA
분석DATA와 비교DATA의 행길이가 동일해야 하며, 합쳐진 후 생성DATA에 저장됩니다.
[ =============== DATA SWITCH ============== ]
[분석DATA]<->[비교DATA]
[분석DATA]<->[생성DATA]
[ 분석/비교DATA의 교집합을 분석DATA에 표시 ]
행열 구조가 달라도 됨, 두 열은 같은 속성
분석데이터 변수:'변수(열)선택'에서 선택
비교데이터 변수:'숫자입력'에서 열번호 선택
교집합 DATA 행 표시
분석 DATA에 교집합을 표시하여 생성DATA에 저장합니다.
[ 1.분석DATA와 비교DATA의 교집합/여집합 ]
열 구조 및 열 순서가 같아야 됨
분석DATA에서 추출
비교DATA에서 추출
B.교집합 DATA 추출
B.두 DATA에서 현재 선택한 변수의 교집합DATA를 추출하여 생성DATA에 저장합니다.
C.여집합 DATA 추출
C.두 DATA의 교집합 DATA를 제외한 여집합DATA를 추출하여 생성DATA에 저장합니다.
[ 2.분석DATA와 비교DATA간의 차이 또는 합산한 DATA를 생성 ]
열 구조 및 열 순서가 같아야 됨
A.분석-비교 차이DATA
A.분석DATA에서 비교DATA를 뺀 차이DATA를 추출하여 생성DATA에 저장합니다.
B.분석+비교 합산 DATA
B.분석DATA와 비교DATA를 합산한 DATA를 추출하여 생성DATA에 저장합니다.
[ 3.'분석DATA'를 정수로 나눈 DATA를 생성 ]
분석DATA 나누기
분석DATA를 박스안의 숫자로 나눈 DATA를 생성DATA에 저장합니다.
데이터를 나누기 위해서는 '변수1'을 선택해야 합니다.
[ ======== 변수1 기준 데이터 나누기 ======= ]
1.데이터 나누기
[ ==== 구분된 데이터 선택 ==== ]
구분DATA 추가하기
구분DATA 1개빼기
[ =========== 분석 데이터에 저장 ========== ]
선택한 데이터는 분석데이터에 저장되고 현재 데이터는 비교데이터에 저장됩니다.
DATA사용하기
[ ========= 전체 데이터 CSV 저장 ========== ]
구분된 여러 데이터를 여러 csv에 저장
저장경로 - D:/Dropbox/B2C사업팀/데이터분석/data/
CSV 저장
[ ==== 구분어가 있는 데이터 추출 사용 ==== ]
구분어 입력
선택한 변수가 텍스트형이어야만 됩니다.
구분어 데이터는 분석데이터에 저장되고, 여집합 데이터는 비교데이터에 저장됩니다.
2.구분어 데이터 추출
[ ........ 통계분석 ........ ]
[ 데이터마이닝 ]
회귀분석
T-검정
분산분석
상관분석
교차분석
주성분분석
시계열분석
DATA탭의 [분석DATA]를 사용합니다.
선형 회귀분석
벌점화 전진 선택법
벌점화 후진 선택법
Stepwise
로지스틱 회귀
[ 변수 선택 ]
........반응변수 선택........
선택하기/초기화
........설명변수 추가........
추가하기
1개 삭제
전체선택/초기화
분석 실행
결과보기1
결과보기2
ANOVA분석
다중공선성:산점도
Odd ratio 1
Odd ratio 2
VIF >
다중공선성 확인
[ 회귀모델 테스트 ] 테스트 후 DATA탭의 '비교DATA'에서 확인하세요.
반응변수명은 Prediction로 표시됩니다.
샘플수
샘플링 추출
회귀모델 테스트
DATA탭의 [분석DATA]를 사용합니다.
[ T-검정 ] 변수(열) 두개 선택
변수1 선택
변수2 선택
[ 분석 설정 ]
독립표본
대응표본
양측검정
단측검정less
단측검정greater
분석 실행
그래프 보기
'그래프 보기'는 '분석 실행' 후에 가능합니다.
[ 등분산 확인 ]
[ T-TEST 결과 ]
[ 그래프 ]
DATA탭의 [분석DATA]를 사용합니다.
[ 분산 분석 ] 변수(열) 두개 선택
연속형 변수 선택
범주형 변수 선택
일원배치
일원배치 반복측정
이원배치
이원배치 반복측정
등분산이면 ANOVA분석으로 이분산이면 Welch's ANOVA TEST로 처리됩니다.
분석 실행
그래프 보기
[ 등분산 확인 ]
leveneTest
bartlett.test
[ 분산분석 결과 ]
[ 사후검정 ]
분석 실행
분산분석을 Welch's ANOVA TEST로 했을 경우에는 kruskal.test로 사후검정이 처리됩니다.
Bonferroni
Tukey HSD
Fisher LSD
[ 그래프 ]
업데이트 예정
업데이트 예정
업데이트 예정
DATA탭의 [분석DATA]를 사용합니다.
[ 상관관계 분석 ] 변수(열) 두개 선택
변수1 선택
변수2 선택
[ 분석 결과보기 ]
cor.test
결과 요약
선택한 변수에 부적합한 DATA가 있어서는 안됩니다.
결과 보기
업데이트 예정
업데이트 예정
업데이트 예정
분류분석
연관분석
군집분석
DATA탭의 [분석DATA]를 사용합니다.
[ 의사결정나무 ]
반응변수 선택 : 아래 선택한 변수외에 나머지 변수들이 설명변수가 됩니다
분석 실행
반응변수 열(Factor) 선택
결과 DATA
PLOT보기
아래 입력란에 CP값 입력/붙여넣기
가지치기
업데이트 예정
업데이트 예정
WEB크롤링
TEXT MINING
동시출현단어 분석
토픽 분석
연관분석
[ 검색어 ]
DATA Download
파일TEXT 불러오기
[ 파일TEXT 불러오기 ]는 먼저 상단메뉴 [DATA]탭에서 텍스트(EXCEL/CSV)파일을 불러온 후 실행해야 합니다.
검색어 구성
한 단어 검색어
두 단어 검색어
한 단어 : 여름방학, 두 단어 : 여름 방학
검색어1 입력
검색어2 입력
[ WEBPAGE API ]
카카오/네이버 선택
네이버api
카카오api
게시물 구분
게시물 수
크롤링
아래 WORD 포함 문서만 추출
조건 추출
삭제
크롤링 후 TEXT MINING탭으로 이동하세요.
[ MINING 제외 단어 ] 아래 마이닝 제외 WORD 추가
다른 탭의 분석과정에도 제외 단어가 적용됩니다.
[ 여러 단어 한번에(쉼표 구분) ]
여러 단어 추가
[ 한 단어씩 추가 ]
1개 추가
1개 삭제
전체 삭제
제외어 Download
FILE
특정 WORD를 포함하는 게시물 삭제는 [연관분석]탭에 기능이 있습니다.
[ 워드랭킹 & 워드클라우드 ]
워드 랭킹
워드클라우드
[ TDM 기준 워드랭킹 & 워드클라우드 ]
TDM 생성하기
TDM 워드랭킹
TF-IDF
TDM 워드클라우드
[ Word Co-occurrences ]
[TEXT MINING]탭에서 TDM DATA를 먼저 생성해야 합니다.
단어 수
분석 시각화
[TEXT MINING]탭에서 TDM DATA를 먼저 생성해야 합니다.
일정 조건을 만족해야 결과값이 나옵니다.
[ 토픽 수 선택 ]
주요 워드 수
문서 내에서 토픽들의 확률분포
한 토픽내에 단어들의 확률분포
토픽 분석
[ TEXT 연관 분석 ]
분석 설정값 입력
support
confidence
confidence는 0~1사이의 값
분석 실행
PLOT 1
PLOT 2
PLOT 3
분석 제외 WORD : 제외 후 [분석 실행]버튼
아래 두 WORD가 함께 있는 게시물이 삭제됩니다.
제외 WORD1
제외 WORD2
제외 완료