Overview
데이터 수집 솔루션
-
대규모 데이터를
정확하고 빠르게 수집해주는
WISE BICrawler ! -
수집엔진 마켓쉐어 1위
WISE BICrawler는 대규모 데이터를 정확하고 빠르게 수집할 뿐만 아니라 클렌징 기술로 수집 데이터의 스토리지 공간을 최소화하여, 불필요한 스토리지 운영으로 인해 발생하는 데이터저장 비용 및 관리 업무의 시간을 절감하며 신속한 전략수립 및 대응책을 마련하기 위한 솔루션 입니다.
사양 | 내용 |
---|---|
성능의 우수성 |
|
사용의 편의성 |
|
제품의 안정성 |
|
다양한 사업경험 |
|
collection process
-
WISE BICrawler는 언어분석 기술을
기반으로 빅데이터 수집과 소셜 데이터 분석에
최적화된 “빅데이터 정보수집 솔루션”입니다. - WISE BICrawler는 언어분석 기술을 기반으로 빅데이터 수집과 소셜 데이터 분석에 최적화된 “빅데이터 정보수집 솔루션”입니다. 방대한 정보 속에서 필요한 영역/형태에 관계없이 원하는 정보를 자동으로 추출하고, 불필요한 정보를 Cleansing(정제)하여 사용자에게 필요한 정보만을 빅 데이터 저장소에 저장합니다.
core technology
- 패턴기반 데이터 필터 기술
-
패턴기반 데이터 필터 기술은 전역 크롤링과 달리 수집 데이터 중
주제와 관련이 있는 데이터만을 추출하는 기술입니다. 패턴기반
데이터 필터 기술을 통해 수집 키워드, 포함어, 배제어의 조건에
부합하는 문서만을 수집할 수 있습니다.
- 대용량 분산 인프라
-
본 제품은 대용량 데이터를 처리할 수 있는 구조로 설계되어
부하분산과 고가용성을 확보하였습니다. 따라서 10억 건 이상의
대용량 데이터 또한 처리가 가능하도록 안정성을 갖추었습니다.
system diagram
WISE BICrawler는 사용자가 원하는 데이터를 추출하는 수집모듈, 수집된 데이터를 정제하는 클린징모듈,
수집된 데이터를 저장하는 저장모듈, 저장된 데이터를 관리하는 관리모듈로
구성되어 있습니다.
STRONG POINT
- 수집 기능
-
웹페이지 수집
검색페이지에 질의어 입력 수집
항목별 데이터 추출
첨부파일(내부망데이터) 및 다양한 수집옵션 제공
유의어 처리 (수집전 키워드 확장)
- 클렌징 기능
-
중복 문서 정책 강화 (중복문서 검출)
패턴기반 데이터 필터링 및 필터링
자동 추출
URL 중복 체크 필터링
- 분류 및 저장 기능
-
사용자 지정 이관 기능(Hadoop, File, RDBMS 지원)
수집기 자체 저장 기능
- 관리/기타 기능
-
수집오류/ 수집통계 조회 및 통계자료 제공
URL 중복 체크를 위한 단일 패턴 구조화
키워드 필터링을 위한 키워드 매칭 구조화
main function
-
-
수집/추출 기능
-
웹페이지 수집
첨부파일 수집 및 파일 이름 추출
검색페이지에 질의어 입력 수집
다국어 데이터 지원
지속적으로 안정적인 수집
-
-
-
관리/기타 기능
-
직관적인 UI 기반의 룰 관리
수집 상태/에러/결과에 대한 보고
웹관리 도구를 통한 통계 및 데이터 조회
-
-
-
클렌징 기능
-
중복 문서 정책 강화
패턴기반 데이터 필터링
URL 중복 체크 필터링
-
-
-
저장기능
-
사용자 지정 이관 기능 (Hadoop, NoSQL, File, RDBMS 지원)
ODBC 지원
-