데이터 조작하기

Tidyverse

외부 데이터를 읽어들여 데이터 프레임을 만들고, 이를 조작하여 데이터 분석을 위한 데이터 셋을 생성하는 것은 데이터 분석 과정에서 대단히 중요한 과정이다.

유충현
2019-12-26

들어가기

외부 데이터를 읽어들여 데이터 프레임을 만들고, 이를 조작하여 데이터 분석을 위한 데이터 셋을 생성하는 것은 데이터 분석 과정에서 대단히 중요한 과정이다. R에서 데이터를 조작하는 기술은 데이터 조작 함수를 구사하는 능력에 비례한다. base, stats 패키지에 포함된 전통적인 R(S-PLUS) 데이터 조작 함수의 대체제는 sqldf 패키지를 거쳐, dplyr 패키지로 꽃을 피웠다 할 수 있다.

dplyr

본 포스트는 데이터 조작의 전반적인 것을 다루는데 특히 Data Wrangling을 위한 dplyr 패키지 소객에 방점을 둔다.

parallel processing

또한 대용량의 데이터를 조작하는 방법으로서 멀티 코어를 사용하는 방법에 대해서도 소개한다.

데이터 조작에 대한 슬라이드의 공유

다음에 링크를 걸어 둔 슬라이드 파일은 2017년도에 모 미트업에서 발표한 자료를 현행화 시킨 pdf 파일이다.

Manipulation_Data.pdf

슬라이드 발췌 이미지를 예시해 본다.

슬라이드 발췌 이미지

Figure 1: 슬라이드 발췌 이미지

차례

이 문서는 다음과 같은 아젠다를 이야기 한다.

  1. General Information
  2. Read Large Data
  3. Data Wrangling
  4. SQL Based Data Wrangling 5. dplyr Data Wrangling
  5. Parallel Processing

Citation

For attribution, please cite this work as

유충현 (2019, Dec. 26). Dataholic: 데이터 조작하기. Retrieved from https://choonghyunryu.github.io/posts/2019-12-26-manipulation_data/

BibTeX citation

@misc{유충현2019데이터,
  author = {유충현, },
  title = {Dataholic: 데이터 조작하기},
  url = {https://choonghyunryu.github.io/posts/2019-12-26-manipulation_data/},
  year = {2019}
}