Overview
자동분류솔루션
-
문서를 가장 적합한
카테고리로 분류해주는
자동분류 솔루션 ! -
WISE Classifier는 문서의 내용을 기반으로 중요 키워드의
구별/분석 과정을 통해 해당 문서를 가장 적합한 카테고리(Taxonomy)로
분류해 주는 “자동분류솔루션”입니다.
-
자동분류의 개념
- 내용 분석 후 최적의 적합한 카테고리로 자동 분류
-
구현방법에 따른 자동분류의 종류
- 1. 학습 기반 자동 분류
-
각 카테고리 별로 해당 카테고리를 가장 잘 설명할 수 있는 학습 데이터를
지정, 학습 결과를 획득하고 이를 활용하여 각 카테고리별로 문서를
할당하는 방식의 자동 분류
core technology
- 전처리 알고리즘
-
문서를 분류하기 위한 기계 학습을 적용하기 위하여 일반 텍스트로
구성된 문서들을 기계 학습에 적합한 형태로 변환해야 합니다. 이를
변환하는 작업을 단어 임베딩 (Word Embedding)이라고
지칭합니다. WISE Classifier에서는 Bag-of-words, TF-IDF,
Word2Vec을 사용합니다.
- 분류 알고리즘
-
WISE Classifier는 XGBoost (eXtreme Gradient Boosting) 알고리즘이
사용되었습니다. XGBoost는 결정 트리(decision tree)에 기반한 지도 학습
모델인 Gradient Tree Boosting을 최적화하여 구현한 라이브러리입니다.
Boosting이란 Weak Learner(50% 보다 조금 나은 모델) 여러 개를
결합하여 성능이 좋은 Strong Learner를 만드는 방법입니다. 또한, Weak
Learner를 만들 때, 이전에 만든 Weak Learner에서 발생한 오류를 다음
Weak Learner가 보완할 수 있도록 구현하였습니다.
system diagram
WISE Classifier v2.2는 학습문서를 카테고리 성격에 맞게 할당하고 일반화하는 학습기와 학습된
데이터를 바탕으로 해당문서를 카테고리에 분류시키는 분류기로 구분됩니다.
STRONG POINT
자동분류솔루션 WISE Classifier v2.2는 편리한 관리 기능, 정밀성을 극대화시킬 수 있는 구조,
유연하고 안정적인 아키텍처를 갖춘 최고의 솔루션입니다.
- 다양한 데이터 처리
-
정형 / 비정형의 다양한 데이터 처리
가능doc / hwp / ppt / pdf / xml 등
각종 문서 형태 지원
- 유연성 & 안정성
-
기존 솔루션(검색 관련 시스템)과의 연계
가능향후 고도의 의미 기반 시스템 구현 시
기반 솔루션 으로 활용 가능
- 정확한 분류
-
정확성 향상을 위해 학습문서 별
최적의 분류 알고리즘 사용
- 효율적 관리
-
웹 기반의 편리한 관리
관리 기능 편의성 제공
(ex.설치기능,
환경설정)운영의 편의성 증진 (ex.분류결과 보고 기능)
main function
-
-
자동분류엔진
기능 -
SCD 파일을 자동분류엔진의 input 데이터로 정의
분류결과를 파일로 출력
학습 / 분류 알고리즘 (XGBoost)
하나의 문서가 여러 카테고리에 분류되는 다중 분류 기능
관리자 지정 분류 기능
실시간 분류 기능
재학습 기능
분류 결과에 대한 score 부여
-
-
-
구현방법에 따른
자동분류의 종류 -
Taxonomy 관리기능 API : 생성, 삭제
분류 모델 생성(학습) API : 알고리즘 선택 및 파라미터 입력
분류를 위한 API : 분류요청, 모델관리
특정 Taxonomy 작업현황 조회 API
java wrapper : 특징 API를 위한 request, response 생성
-
REFERENCE
고객사 | 구축연도 | 프로젝트 내용 | ||
---|---|---|---|---|
2019 |
|
|||
2019 |
|
|||
2018 |
|