DATOR


빅데이터 분석의 이해

빅데이터의 이해를 학습하신후에는 RFP를 보고 분석 아키텍처를 작성하여 보세요.
자세한 사항은 강의시간과 데이터분석 분석도구 R Fundamental을 참고하세요.

빅데분석이해_heeseohan001.gif 빅데분석이해_heeseohan002.gif 빅데분석이해_heeseohan003.gif 빅데분석이해_heeseohan004.gif 빅데분석이해_heeseohan005.gif 빅데분석이해_heeseohan006.gif 빅데분석이해_heeseohan007.gif 빅데분석이해_heeseohan008.gif 빅데분석이해_heeseohan009.gif 빅데분석이해_heeseohan010.gif 빅데분석이해_heeseohan011.gif 빅데분석이해_heeseohan012.gif 빅데분석이해_heeseohan013.gif 빅데분석이해_heeseohan014.gif













































































dcast(melt(tips), 포물라, mean, subset = .(조건))의 형식을 사용하여팁을 가장 많이 지불한 그룹의 특성을 파악
  
  
tips 데이터 셋에 "total_bill" 계산금액으로 달러단위, "tip" 팁금액으로 달러단위, "sex" 팁을 지불한 고객의 성별, "smoker" 고객의 흡연여부, "day" 요일, "time" 은 "Dinner"와 "Lunch" 두 개 범주를 가지고 있고, "size" 는 파티의 규모


  
> str(tips)
'data.frame': 244 obs. of 7 variables:
$ total_bill: num 17 10.3 21 23.7 24.6 ...
$ tip : num 1.01 1.66 3.5 3.31 3.61 4.71 2 3.12 1.96 3.23 ...
$ sex : Factor w/ 2 levels "Female","Male": 1 2 2 2 1 2 2 2 2 2 ...
$ smoker : Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
$ day : Factor w/ 4 levels "Fri","Sat","Sun",..: 3 3 3 3 3 3 3 3 3 3 ...
$ time : Factor w/ 2 levels "Dinner","Lunch": 1 1 1 1 1 1 1 1 1 1 ...
$ size : int 2 3 3 2 4 4 2 4 2 2 ...
  
> summary(tips)
total_bill tip sex smoker day time 
Min. : 3.07 Min. : 1.000 Female: 87 No :151 Fri :19 Dinner:176 
1st Qu.:13.35 1st Qu.: 2.000 Male :157 Yes: 93 Sat :87 Lunch : 68 
Median :17.80 Median : 2.900 Sun :76 
Mean :19.79 Mean : 2.998 Thur:62 
3rd Qu.:24.13 3rd Qu.: 3.562 
Max. :50.81 Max. :10.000 
size 
Min. :1.00 
1st Qu.:2.00 
Median :2.00 
Mean :2.57 
3rd Qu.:3.00 
Max. :6.00 
  
> library(reshape2)
  
-“.“function 사용을 위해 plyr 로드
> library(plyr)
  
#Factor object인 colum은 id variables 로 인식
#melt()의 결과 id variables를 기준 컬럼으로 앞에 위치
> melt(tips)
Using sex, smoker, day, time as id variables
  
sex smoker day time variable value
1 Female No Sun Dinner total_bill 16.99
2 Male No Sun Dinner total_bill 10.34
3 Male No Sun Dinner total_bill 21.01
..................
  
  
dcast()사용해서 melt 된 것을 저장하기 않고 바로 melt() 사용해서 조건 추출
sex에 따라 즉 Female 와 Male를 기준
smoker 변수 값이 Yes와 No를 구분기준
variable == "total_bill" 로 되어 있는 데이터를 추출
Female 이면서 No인 sample의 value 값의 평균은 18.10519 
가장 적은 결재 금액을 지불한 그룹은 여성이면서 담배를 피는 고객으로 17.97달러가장 많은 결재 금액을 지불한 그룹은 남성이면서 흡연을 하는 그룹으로 평균 22.28달러를 지불
> dcast(melt(tips), sex ~ smoker, mean, subset = .(variable == "total_bill"))
sex No Yes
1 Female 18.10519 17.97788
2 Male 19.79124 22.28450
  
팁을 가장 많이 지불한 고객은 남성이면서 흡연을 하지 않는 고객그룹이 평균 3.11달러 지불햇고팁을 자장 적게 지불한 그룹은 여성이면서 흡연을 하지 않는 고객
> dcast(melt(tips), sex ~ smoker, mean, subset = .(variable == "tip"))
Using sex, smoker, day, time as id variables
sex No Yes
1 Female 2.773519 2.931515
2 Male 3.113402 3.051167

Tag

Leave Comments