외부 데이터
를 읽어들여 데이터 프레임
을 만들고, 이를 조작하여 데이터 분석을 위한 데이터 셋을 생성하는 것은 데이터 분석 과정에서 대단히 중요한 과정이다.
외부 데이터
를 읽어들여데이터 프레임
을 만들고, 이를 조작하여 데이터 분석을 위한 데이터 셋을 생성하는 것은 데이터 분석 과정에서 대단히 중요한 과정이다. R에서 데이터를 조작하는 기술은 데이터 조작 함수를 구사하는 능력에 비례한다.base
,stats 패키지
에 포함된 전통적인 R(S-PLUS) 데이터 조작 함수의 대체제는sqldf 패키지
를 거쳐,dplyr 패키지
로 꽃을 피웠다 할 수 있다.
본 포스트는 데이터 조작의 전반적인 것을 다루는데 특히 Data Wrangling을 위한 dplyr 패키지 소객에 방점을 둔다.
또한 대용량의 데이터를 조작하는 방법으로서 멀티 코어를 사용하는 방법에 대해서도 소개한다.
다음에 링크를 걸어 둔 슬라이드 파일은 2017년도에 모 미트업에서 발표한 자료를 현행화 시킨 pdf 파일이다.
슬라이드 발췌 이미지를 예시해 본다.
Figure 1: 슬라이드 발췌 이미지
이 문서는 다음과 같은 아젠다를 이야기 한다.
For attribution, please cite this work as
유충현 (2019, Dec. 26). Dataholic: 데이터 조작하기. Retrieved from https://choonghyunryu.github.io/posts/2019-12-26-manipulation_data/
BibTeX citation
@misc{유충현2019데이터, author = {유충현, }, title = {Dataholic: 데이터 조작하기}, url = {https://choonghyunryu.github.io/posts/2019-12-26-manipulation_data/}, year = {2019} }