dplyr 패키지로 데이터를 조작하는 방법을 숙지합니다.
가상의 데이터를 집계하는 다음의 Script를 보면 dplyr의 문법이 SQL 문번과 상당히 유사함을 발견할 수 있습니다.
다음은 데이터를 집계하는 가상의 SQL 구문입니다.
SELECT col1,
CASE col2
WHEN '1' THEN 'TRUE'
WHEN '0' THEN 'FALSE'
ELSE 'FALSE'
END AS col2,
SUM(col3) AS col3
FROM T_TABS
WHERE col3 > 34
AND col4 in ('a', 'b', 'c')
GROUP BY col1,
CASE col2
WHEN '1' THEN 'TRUE'
WHEN '0' THEN 'FALSE'
ELSE 'FALSE'
ORDER BY col3 DESC
데이터를 집계하는 가상의 SQL 구문을 dplyr로 변환하면 다음과 같습니다.
데이터를 조인하는 방법도 유사합니다.
다음은 두 개의 데이터를 조인하는 가상의 SQL 구문입니다.
SELECT a.empno
, a.ename
, a.job
, a.mgr
, a.deptno
, b.dname
FROM emp AS a
LEFT JOIN dept AS b
ON a.deptno = b.deptno
두 개의 데이터를 조인하는 가상의 SQL 구문을 dplyr로 변환하면 다음과 같습니다.
emp %>%
select(empno, ename, job, deptno) %>%
left_join(
dept %>%
select(deptno, dname),
by = c("deptno")
)
nycflights13 패키지는 2013년도의 NYC 공항 출발 항공편과 관련된 데이터를 담은, 유용한 데이터 패키지입니다.
flights 데이터 프레임에는 2013년에 뉴욕에서 출발한 모든 336,776개의 항공편이 포함되어 있습니다. 이 데이터는 미국 교통 통계국에서 가져왔습니다.
library(tidyverse)
library(nycflights13)
flights
# A tibble: 336,776 x 19
year month day dep_time sched_dep_time dep_delay arr_time
<int> <int> <int> <int> <int> <dbl> <int>
1 2013 1 1 517 515 2 830
2 2013 1 1 533 529 4 850
3 2013 1 1 542 540 2 923
4 2013 1 1 544 545 -1 1004
5 2013 1 1 554 600 -6 812
6 2013 1 1 554 558 -4 740
7 2013 1 1 555 600 -5 913
8 2013 1 1 557 600 -3 709
9 2013 1 1 557 600 -3 838
10 2013 1 1 558 600 -2 753
# … with 336,766 more rows, and 12 more variables:
# sched_arr_time <int>, arr_delay <dbl>, carrier <chr>,
# flight <int>, tailnum <chr>, origin <chr>, dest <chr>,
# air_time <dbl>, distance <dbl>, hour <dbl>, minute <dbl>,
# time_hour <dttm>
건수만 살펴볼 경우에는 tally()
함수가 유용합니다.
flights_1231_0101 <- flights %>%
filter((month == 12 & day == 31) |
(month == 1 & day == 1))
flights_1231_0101 %>%
group_by(month, day) %>%
summarise(cnt = n())
# A tibble: 2 x 3
# Groups: month [2]
month day cnt
<int> <int> <int>
1 1 1 842
2 12 31 776
flights_1231_0101 %>%
group_by(month, day) %>%
tally()
# A tibble: 2 x 3
# Groups: month [2]
month day n
<int> <int> <int>
1 1 1 842
2 12 31 776
ifelse()
함수 대신에 dplyr 패키지의 case_when()
함수를 사용해도 됩니다. 이 함수는 조건의 개수가 여러 개일 때 유용합니다.
flights %>%
mutate(class_date = ifelse((month == 12 & day == 31) |
(month == 1 & day == 1), "연말년초", "연말년초 아님")) %>%
group_by(class_date) %>%
summarise(dep_delay_avg = mean(dep_delay, na.rm = TRUE))
# A tibble: 2 x 2
class_date dep_delay_avg
<chr> <dbl>
1 연말년초 9.38
2 연말년초 아님 12.7
flights %>%
mutate(class_date = case_when(
(month == 12 & day == 31) | (month == 1 & day == 1) ~ "연말년초",
TRUE ~ "연말년초 아님")) %>%
group_by(class_date) %>%
summarise(dep_delay_avg = mean(dep_delay, na.rm = TRUE))
# A tibble: 2 x 2
class_date dep_delay_avg
<chr> <dbl>
1 연말년초 9.38
2 연말년초 아님 12.7
상위 n개의 관측치를 가져오기 위해서 filter()
함수와 row_number()
함수를 사용할 수 있으나, top_n()
함수를 사용하면 쉽게 계산할 수 있습니다.
flights %>%
group_by(month, day) %>%
summarise(dep_delay_avg = mean(dep_delay, na.rm = TRUE),
.groups = "drop") %>%
arrange(desc(dep_delay_avg)) %>%
filter(row_number() <= 5)
# A tibble: 5 x 3
month day dep_delay_avg
<int> <int> <dbl>
1 3 8 83.5
2 7 1 56.2
3 9 2 53.0
4 7 10 52.9
5 12 5 52.3
flights %>%
group_by(month, day) %>%
summarise(dep_delay_avg = mean(dep_delay, na.rm = TRUE),
.groups = "drop") %>%
arrange(desc(dep_delay_avg)) %>%
top_n(5)
# A tibble: 5 x 3
month day dep_delay_avg
<int> <int> <dbl>
1 3 8 83.5
2 7 1 56.2
3 9 2 53.0
4 7 10 52.9
5 12 5 52.3
dplyr 결과를 바로 ggplot2 시각화 함수인 ggplot() 함수
로 보낼 수 있습니다. dplyr 패키지
의 파이프인 “%>%”와 ggplot2의 파이프인 “+”를 혼동해서는 안됩니다.
flights %>%
group_by(dest) %>%
summarise(
cnt = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE)
) %>%
filter(cnt > 20) %>%
ggplot(mapping = aes(x = dist, y = delay)) +
geom_point(aes(size = cnt), alpha = 1/3) +
geom_smooth(se = FALSE)
summarise() 함수
에는 .groups = “drop”를 적용하지 않으면, 상위 n개가 아닌 전체 건이 추출됩니다. .groups = “drop”는 집계된 데이터에 그룹정보를 삭제하는 옵션입니다.
flights %>%
left_join(
planes,
by = "tailnum"
) %>%
group_by(manufacturer, model, engine) %>%
summarise(delay = mean(arr_delay, na.rm = TRUE),
.groups = "drop") %>%
arrange(desc(delay)) %>%
top_n(n = 10)
# A tibble: 10 x 4
manufacturer model engine delay
<chr> <chr> <chr> <dbl>
1 AIRBUS INDUSTRIE A330-223 Turbo-jet 219
2 BOEING 747-451 Turbo-jet 120
3 BOEING 757-351 Turbo-jet 72.5
4 GULFSTREAM AEROSPACE G-IV Turbo-fan 41.2
5 BOEING MD-90-30 Turbo-fan 40.9
6 BOEING 777-224 Turbo-fan 40.8
7 AIRBUS A319-115 Turbo-fan 33.5
8 AGUSTA SPA A109E Turbo-shaft 30.6
9 AIRBUS INDUSTRIE A340-313 Turbo-jet 29.8
10 BOEING 737-76N Turbo-fan 28.4
항공기가 아닌 공항의 이슈에 기인한 항공기의 출발 지연은 이후 다른 항공 스케줄에 영향을 줄 수 있습니다.
lag() 함수
는 이전 계열의 데이터를 참조할 수 있는 윈도우 함수입니다.hms 패키지
도 Tidiverse 패키지군에 포함된 패키지입니다. 이 패키지는 시간 데이터를 조작하는 패키지입니다. as.hms()
함수로 문자열을 시간:분:초 포맷의 hms 데이터로 변환합니다.
# 1.1
top_delay <- flights %>%
group_by(month, day) %>%
summarise(cnt = n(),
cnt_delay = sum(dep_delay > 0, na.rm = TRUE),
rate_delay = cnt_delay / cnt, .groups = "drop") %>%
arrange(desc(rate_delay)) %>%
top_n(10)
top_delay
# A tibble: 10 x 5
month day cnt cnt_delay rate_delay
<int> <int> <int> <int> <dbl>
1 12 23 985 674 0.684
2 7 1 966 652 0.675
3 3 8 979 653 0.667
4 6 25 993 649 0.654
5 12 22 895 583 0.651
6 7 23 997 645 0.647
7 12 17 949 608 0.641
8 5 24 978 621 0.635
9 12 9 962 606 0.630
10 2 27 945 584 0.618
# 1.2
flights %>%
arrange(time_hour, sched_dep_time) %>%
filter(month == top_delay$month[1] & day == top_delay$day[1]) %>%
mutate(sched_time = sprintf("%04d", sched_dep_time)) %>%
mutate(time_hour =
hms::as.hms(paste(substr(sched_time, 1, 2),
substr(sched_time, 3, 4), "00", sep = ":"))) %>%
select(time_hour, dep_delay) %>%
ggplot(aes(x = time_hour, y = dep_delay)) +
geom_bar(stat = "identity") +
geom_smooth()
sched_dep_time 변수는 출발 스케줄을 분 단위까지 포함하고 있기 때문에 윈도우 함수를 사용하기 전에 이 변수 기준으로 오름차순으로 정렬해야 합니다.
# 2.1
top_increase <- flights %>%
group_by(month, day) %>%
arrange(sched_dep_time) %>%
mutate(delta_delay = dep_delay - lag(dep_delay)) %>%
summarise(cnt = n(),
increase_delay = sum(delta_delay > 0 & dep_delay > 0, na.rm = TRUE),
rate_increase = increase_delay / cnt, .groups = "drop") %>%
arrange(desc(rate_increase)) %>%
top_n(10)
top_increase
# A tibble: 10 x 5
month day cnt increase_delay rate_increase
<int> <int> <int> <int> <dbl>
1 12 23 985 513 0.521
2 6 25 993 505 0.509
3 7 1 966 490 0.507
4 12 22 895 453 0.506
5 5 24 978 492 0.503
6 12 18 956 479 0.501
7 12 21 811 404 0.498
8 7 23 997 490 0.491
9 12 9 962 468 0.486
10 2 27 945 459 0.486
flights %>%
filter(month == top_increase$month[1] & day == top_increase$day[1]) %>%
mutate(sched_time = sprintf("%04d", sched_dep_time)) %>%
mutate(time_hour =
hms::as.hms(paste(substr(sched_time, 1, 2),
substr(sched_time, 3, 4), "00", sep = ":"))) %>%
arrange(time_hour) %>%
mutate(delta_delay = dep_delay - lag(dep_delay)) %>%
mutate(delta = ifelse(delta_delay > 0, "Increase", "Decrease") %>%
as.factor()) %>%
ggplot(aes(x = time_hour, y = delta_delay, fill = delta)) +
geom_bar(stat = "identity")
For attribution, please cite this work as
유충현 (2022, Feb. 24). Dataholic: Wrangle data with dplyr. Retrieved from https://choonghyunryu.github.io/2022-02-24-dplyr
BibTeX citation
@misc{유충현2022wrangle, author = {유충현, }, title = {Dataholic: Wrangle data with dplyr}, url = {https://choonghyunryu.github.io/2022-02-24-dplyr}, year = {2022} }