Documents Taxonomy

R Analytics

Documents Taxonomy문서(텍스트)들을 분류체계 기준으로 분류하는 것으로, 대표적인 것에 콜센터의 상담 내용을 상담 분류 체계로 분류하는 것이 있다. 엄밀하게 구분하면 Taxonomy와 Classification은 다른 개념이지만, 여기서는 Classification Model로 Documents Taxonomy의 가능성을 진단해 본다.

유충현
2019-12-31

들어가기

Taxonomy는 사전적으로 “사물이나 생명체 등을 분류하기 위해서 사용되는 분류체계”로 해석되며, 분류체계트리형의 위계적 (Hirerachy) 구조로 표현한다. Documents Taxonomy문서(텍스트)들을 분류체계 기준으로 분류하는 것으로, 대표적인 것에 콜센터의 상담 내용을 상담 분류 체계로 분류하는 것이 있다. 엄밀하게 구분하면 Taxonomy와 Classification은 다른 개념이지만, 여기서는 Classification Model로 Documents Taxonomy의 가능성을 진단해 본다.

학습목표

다음을 네 가지 섹션의 이해를 목표로 학습을 수행한다.

학습방법

“사람들의 대화를 들어보면 개인별로 즐겨 사용하는 언어적 특징이 있는 것처럼, 대통령의 연설문에도 개인적 특징이 담겨있지 않을까?”

연설문만으로 어떤 대통령이 연설했는가를 분류

Documents Taxonomy에 대한 슬라이드의 공유

다음에 링크를 걸어 둔 슬라이드 파일은 2017년도에 모 미트업에서 발표한 슬라이드 pdf 파일이다. 그 이후에 많은 시간이 흘렀기 때문에 일부 개선된 것들이 있을 수 있다. 감안해서 참고하기 바란다.

Documents_Texonomy.pdf

슬라이드 발췌 이미지를 예시해 본다.

슬라이드 발췌 이미지

Figure 1: 슬라이드 발췌 이미지

차례

이 문서는 다음과 같은 아젠다를 이야기 한다.

  1. 들어가기
  2. 데이터 전처리
  3. 모델 생성
  4. 모델 성능 비교

Citation

For attribution, please cite this work as

유충현 (2019, Dec. 31). Dataholic: Documents Taxonomy. Retrieved from https://choonghyunryu.github.io/posts/2019-12-31-documents_taxonomy/

BibTeX citation

@misc{유충현2019documents,
  author = {유충현, },
  title = {Dataholic: Documents Taxonomy},
  url = {https://choonghyunryu.github.io/posts/2019-12-31-documents_taxonomy/},
  year = {2019}
}