반응형

(304100) 솔트룩스 - (2) 빅데이터 ( Bigdata Suite 기술소개 )

saltlux

  • 동사는 1981년 8월에 설립되었으며, B2B 및 B2G 인공지능·빅데이터 솔루션을 프로젝트 수주하여 구축 혹은 클라우드 기반으로 서비스 하는 사업을 영위.
  • 동사의 주요 제품으로는 지능형 빅데이터 분석 플랫폼인 Big Data Suite와 인공지능 플랫폼인 AI Suite가 있으며, 각각 2019년 전체 매출액의 41.2%, 37.75%를 차지.
  • 아웃바운드 컨택센터 자동화, 지능형 채용/HR 심사 등의 신규 사업 확장 계획.

 

빅데이터 Bigdata Suite

데이터 인식 및 기술 패러다임의 변화

2010년 전후로 시작된 데이터 급증은 대규모 데이터의 저장과 처리를 위한 새로운 기술을 요구하고 있으며, 이 가운데에서 빅데이터라는 용어가 등장했습니다. 빅데이터는 거대한 데이터의 집합 또는 이를 저장·전송·처리할 수 있는 기술을 의미합니다. 4차 산업혁명 시대에 접어들면서 데이터가 모든 산업의 발전과 새로운 가치 창출의 촉매 역할을 하는 ‘데이터 경제(Data Economy)’로 패러다임 전환 중이며, 선진국은 국가 경제의 지속성장 및 일자리 창출을 위해 AI와 빅데이터 접목을 통한 주력산업의 재도약과 혁신성장을 도모하고 있습니다.

최근 데이터 혁신을 주도하는 새로운 기술로 AI(인공지능) 기술이 주목을 받으면서, 스스로 데이터를 전처리하고 학습용 데이터로부터 문제해결 로직을 만들어내는 등 데이터사이언티스트의 역할을 대체하고 있습니다. AI 기술이 빠르게 진화함에 따라 데이터와 기술이 융합해 지능화를 촉진하며 새로운 패러다임 변곡점이 발생하고 경제시스템과 사회구조 변화 유발을 시킴으로써 새로운 지능정보사회의 뉴 패러다임 구축되고 있습니다.

< 지능정보사회의 패러다임 변화 >

시장 변화에 따른 제품 혁신의 통찰력

솔트룩스는 기술발전의 변화를 통찰력 있는 사전예측을 통하여 창립이래 체계적인 기술 개발 로드맵을 수립하여 자연언어처리와 시맨틱, 추론을 포함한 인공지능 원천기술을 확보해 왔으며 시맨틱 검색과 텍스트 마이닝을 넘어 빅데이터 기반의 기계학습, 심층학습과 지식그래프 기반의 추론을 융합한 탁월한 성능과 기능의 스마트 데이터 제품과 플랫폼을 만들어 왔습니다.

전통적 데이터 분석뿐만 아니라 지능정보사회 즉 데이터 경제를 이끌어 갈 데이터 생태계의 가치사슬(데이터의 수집·저장·유통·활용)을 기반으로 공급중개-수요 시장을 통해 경제적 가치(신제품·서비스, 일자리 등) 창출할 수 있는 데이터로부터 스스로 학습하고 지식을 축적하며 분석/추론 및 심층학습을 통하여 전문가 수준의 문제 해결 및 데이터 주도적 의사결정을 지원할 수 있는 Bigdata Suite을 출시하였습니다.

Bigdata Suite는 4차 산업혁명 시대의 데이터 경제 및 데이터 사이언스에 이바지할 수 있는 End-to-End One stop 지능형 실시간 빅데이터분석 통합 플랫폼으로 체계적인 개발 관리 프로세스를 통하여 끊임없는 제품 성장을 이루어 가고 있으며, 제품 품질 확보를 및 신뢰성 있는 검증을 통하여 국내 및 국외 다양한 공공기관, 기업 및 연구기관 등 구축 사업에 납품실적을 다수 보유 하고 있으며 제품에 대한 품질 검증 및 철저한 제품관리체계를 통하여 신뢰성을 확보하고 있습니다.

솔트룩스 Bigdata Suite은 다음과 같은 6개의 엔진을 제공합니다.

 

소개

Bigdata Suite는 정형 빅데이터와 비정형 빅데이터의 융합 분석에 탁월한 성능과 분석 품질을 제공합니다. 기업 및 공공 빅데이터에 대한 시맨틱 검색/분석, 지능화뿐 아니라 플랫폼을 통해 IoT 센서와 생산 및 운영시스템 로그와 같은 스트림 빅데이터에 대한 실시간 분석, 예측 기능을 제공하고 있습니다. Bigdata Suite은 미래 IoT서비스 지능화와 운영 인텔리전스 구축을 포함해 데이터 기반 스마트 데이터 및 차세대 IT 시스템 구현을 위한 최적의 플랫폼입니다.

< Bigdata Suite 개념도 >

아래 그림에서 보듯이 빅데이터의 수집, 변환, 분석, 시각화, 의사결정 지원에 이르는 빅데이터분석 가치사슬 전체를 커버하는 최고의 플랫폼으로 구성되어 있습니다. 자연언어처리(NLP)와 인공지능기술, 기계학습(machine learning), 심층학습(deep learning), 추론기술, 분산병렬 처리와 같은 핵심 기반기술 등이 통합되어진 제품으로 빅데이터 라이프사이클 전체를 아우르는 단계별 엔진과 다양한 분석 및 시각화 기능 등을 사용자에게 제공합니다. 더불어 기존 Hadoop Eco System으로 구성되어진 빅데이터 플랫폼과도 유연하게 결합하여 최적의 지능형 빅데이터분석 플랫폼을 구성할 수 있습니다. 인메모리 맵리듀스 엔진인 SPARK, 실시간 스트림 데이터 처리를 위한 STORM과 UIMA 프레임워크와 같은 Opensource HADOOP ECO System을 구성하는 다양한 엔진 모듈 통합 구성이 가능합니다. 또한, 초대용량 실시간 데이터의 수집, 저장, 검색과 병렬/분산 분석 및 시각화의 모든 기능을 단 하나의 통합형 플랫폼에서 구현이 가능하고 강력한 확장(Scale-out and Scale-up)성을 지원합니다.

< Bigdata Suite 구성도 >

 

주요 기능

Bigdata Suite은 자연언어처리와 기계학습, 심층학습을 포함한 다양한 인공지능 기술과 고능률 분산병렬 빅데이터 처리 기술을 결합하고 실시간 데이터 수집, 변환, 저장과 분석, 시각화, 운영관리에 이르는 빅데이터 생명주기에 해당하는 기능을 아래 [표 #] 와 같이 제공하며, 지능화된 빅데이터분석을 위한 탁월한 안정성과 가용성뿐 아니라 사용자를 위한 강력하고 차별화된 다양한 지능형 분석 기능과 고품질의 분석 결과를 제공합니다.

 

주요 특성

지능형 실시간 빅데이터분석 통합 플랫폼 Bigdata Suite 제품을 구성하고 있는 주요기술이 반영되어진 엔진들은 규모, 다양성, 속도, 가치 측면에서 전통적인 기술과 방법으로는 다루기 어려운 데이터를 효과적으로 처리할 수 있게 제품화 되어 있으며, 비용대비 효율적으로 데이터를 처리, 분석, 표현함으로써 사용자들에게는 데이터 생태계의 가치사슬(데이터의 수집·저장·유통·활용)을 기반으로 데이터기반 시장을 통해 경제적 가치(신제품·서비스, 일자리 등) 창출할 수 있습니다.

 

주요 경쟁력

지능형 실시간 빅데이터분석 통합 플랫폼 Bigdata Suite 제품은 인공지능 기술(심층학습: deep learning)과 빅데이터 기술(기계학습: machine learning) 등이 융합되어 생산되어진 국내 최초 제품입니다. Bigdata Suite은 하둡 생태계의 통합연계 없이 전 산업군에서 지능형 빅데이터분석을 수행할 수 있는 AI 기반 End-to-End One stop 실시간 빅데이터분석 통합 플랫폼입니다.

 

수집 엔진 Tornado

빅데이터 처리의 시작은 데이터 생성 또는 수집이라고 할 수 있습니다. 전통적인 데이터베이스(DB) 환경에서는 외부에서 데이터를 가져오기보다는 DB의 프론트엔드인 애플리케이션에서 데이터가 생성되면서 처리가 시작되어지고, 반면 빅데이터는 내부에서 데이터가 생성되기보다는 외부의 데이터를 가져오면서 처리가 시작되어집니다. 빅데이터 환경에서 데이터 처리는 데이터 수집에서 시작한다고 할 수 있습니다.

[솔트룩스] 지식 수집 엔진 토네이도 TORNADO

youtu.be/F_M_imK9R90

 

소개

빅데이터수집 엔진(Tornado)은 능동적인 방식과 수동적인 방식 둘 다 고려한 빅데이터수집 엔진으로 방대한 딥웹(Deep Web)과 SNS, 쇼핑 사이트, IoT, 스트리밍 데이터 등의 다양한 산업군에서 생성되는 빅데이터에서 사용자가 원하는 빅데이터를 실시간 자동, 병렬 수집이 가능한 강력한 빅데이터수집 처리 엔진입니다. 실시간 소셜 빅데이터분석, 경쟁자 분석, 시장 및 제품 분석, 위험 관리 및 고객 목소리 분석을 위한 최적의 빅데이터수집 환경을 제공하고 있습니다.

데이터의 유실과 중복 방지, 데이터 압축, 데이터 정형화, 저장된 데이터의 암호화, 무결성 검증, 사용자 편리성 등을 고려하여 보다 강력한 웹 수집 기능뿐 아니라 가려져 있는 웹 페이지로부터 빅데이터를 자동 추출하고 변환 저장합니다. 웹 데이터뿐 아니라 뉴스, RSS, 트위터, 페이스북 등의 소셜 빅데이터수집이 가능한 수집엔진으로 현존하는 가장 강력한 대용량 빅데이터수집 엔진입니다.

< 빅데이터수집 엔진 개념도 >

 

주요 특징

 

주요 기능 및 사양

정형 및 빅데이터의 지능형 융합 분석에 필요한 다양한 형태의 내•외부 데이터 수집 처리를 하기 위하여 Big Data Suite의 빅데이터수집 엔진(Tornado)은 사용자 시나리오 기반 수집, RSS 기반 수집, 심층 웹 수집, 메타 검색 수집, 소셜미디어 수집, OpenAPI 수집 기능을 제공합니다. 사용자가 정의한 수집 업무를 수집 엔진 내부 시뮬레이터를 통해 수집이 의도한대로 동작하는지 테스트해 수행할 수 있으며, 실제 운영 시 수집이 실행되는 동안 실시간으로 수집 결과를 모니터링 할 수 있는 스케줄링 기능, 상태 모니터링 기능, 운영관리자 기능을 제공하고 있습니다.

< 수집 엔진 동작 절차 >

 

주요 엔진 화면

 

시맨틱 검색엔진 Discovery

기계학습(Machine Learning)과 딥러닝(인공신경망)에 기반을 둔 인공지능기반 검색 엔진으로 단어와 문서의 의미를 기계가 스스로 이해할 수 있는 지능형 시맨틱 검색엔진(DISCOVERY)입니다. 특징학습(Feature Learning)이 가능한 기계학습 알고리즘을 적용하여 데이터 수집을 통해 특징을 학습함으로써 검색성능 향상과 사용자가 원하는 검색 결과를 제공합니다. 또한 단어와 문서의 의미를 기계가 스스로 이해할 수 있는 시맨틱 검색 솔루션으로, 입력한 키워드의 의미까지 스스로 판단해 검색 가능한 딥 서치(Deep Search) 기능을 내장하고 있습니다.

< 지능형 시맨틱 검색 엔진 개념도 >

Big Data Suite에서 기본적으로 활용하고 있는 저장소는 병렬/분산 저장이 가능한 빅데이터 저장소(GFS - GLORY-FS)를 적용하고 있습니다. 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터의 수용, 빈번하게 발생하는 장애에 대한 대처, 관리의 편리성, 신속한 입출력 성능, 데이터 최적 배치, 효과적인 캐시 사용, 부하 집중에 대한 유연한 대처, 데이터에 대한 보안 등과 같이 대용량 분산 파일 시스템이 갖추어야 할 사항들을 집약하고 있는 기본적으로 적용하여 구성되어져 있습니다.

 

주요 특징

지능형 시맨틱 검색 엔진 주요 특징

기업 내에 분산된 많은 양의 DB뿐 아니라 외부 소셜 빅데이터, 센서 및 로그 데이터, DOC, PPT, XLS, HWP 등의 오피스 문서를 포함한 초대용량 빅데이터를 특징학습을 통하여 검색 효율성 극대화 및 탁월한 검색 품질 성능을 갖춘 지능형 빅데이터 전용 시맨틱 기반 검색 엔진입니다.

 

빅데이터 저장소 주요 특징

수천에서 수만 대의 저비용 서버들을 이용하여 저장 공간 구축을 할 수 있는 분산파일시스템으로 장애에 대한 효율적인 통제 능력과 높은 입출력 처리 성능을 갖춘 대용량 데이터 처리를 위한 분산 파일 시스템입니다. GFS는 다음과 같은 주요 특징들을 가지고 있습니다.

 

주요 기능 및 사양

검색 서비스의 개발 편의성 및 표준화된 데이터 처리를 통해 검색 서비스 인터페이스 기능을 제공하여 효과적인 연계 서비스 구축으로 다양한 시스템의 사용자에게 다양한 검색 기능을 제공합니다.

 

주요 엔진 화면

 

텍스트마이닝 엔진 TMS

텍스트마이닝 엔진은 대용량의 내·외부 비정형 데이터에 대하여 데이터의 특성, 의미와 연관성을 파악하여 의미기반 검색, 정보 재조직화, 다차원 분석을 수행함으로, 숨은 지식을 발견하고 이를 통하여 높은 지식활용, 고객관리, 위험관리, 연구개발 등의 올바른 의사결정을 할 수 있도록 숨은 지식을 발굴하여 가치화 할 수 있는 다양한 비정형 데이터 분석 기능을 제공합니다. 방대한 문서 및 정보에서 고품질의 정보 추출, 관계 추출, 자동 정보(문서) 분류, 자동 정보(문서) 군집, 자동 정보(문서) 요약 및 지능형 비정형 데이터 분석 기능 등으로 구성되어 있으며 지식정보의 검색, 분석 및 활용에 소요되는 시간을 획기적으로 단축시키는 지능형 비정형 빅데이터분석 엔진입니다.

< 텍스트마이닝 엔진 구성도 >

 

주요 특징

 

주요 기능 및 사양

자연어 처리 기능

비정형 데이터 가공을 위한 모든 고정밀 언어분석기들은 기계학습과 인공신경망 기술이 적용되어 있으며, 사전과 규칙을 통해 각 도메인별로 품질을 최적화할 수 있는 기능입니다.

< 자연어처리 기능 >

정보(문서) 자동 분류 기능

방대한 양의 비정형 빅데이터(정보 및 문서)에 대하여 사전 정의한 분류체계(카테고리) 별로 자동으로 실시간 계층 분류하는 기능으로 문서 분류에 학습 및 규칙 기반을 동시에 사용할 수 있는 혼합형 분류 기능입니다.

 

주요 엔진 화면

 

스트림분석 엔진 BlueBolt

실시간 스트림 빅데이터분석 엔진(BlueBolt)은 다양한 장비와 생산라인의 로그, 센서 데이터와 같은 실시간 머신 데이터뿐 아니라 다양한 소스의 비정형 휴먼데이터를 융합 분석할 수 있는 실시간 스트리밍 데이터 분석 엔진입니다. 스트림 빅데이터의 실시간 인메모리 분석과 복잡한 이벤트 처리(CEP)를 통해 보안, 안보상의 이상 징후를 감지하거나 생산 라인의 문제 예측과 최적화 체계를 갖추는 것을 가능케 합니다. 특히 강력한 분산 인메모리 분석 기능은 대규모 서비스 시스템 운영/관리, 이상거래탐지(FDS; Fraud Detection System) 및 컴플라이언스와 eDiscovery를 포함한 운영 인텔리전스 (OI; Operational Intelligence) 구현을 위한 세계 최고의 성능을 제공하고 있습니다.

[솔트룩스] 스트림 빅데이터 분석 엔진 블루볼트 BLUEBOLT

youtu.be/zHC0JmXSCLY

< 스트림분석 엔진 개념도 >

 

주요특징

 

주요 기능 및 사양

다양한 형식의 스트림 데이터(비정형, 반정형)를 실시간으로 수집·정제를 통하여 실시간으로 복잡한 조건의 질의 및 분석을 수행합니다. 분석한 결과들을 대시보드로 구성하여 실시간 모니터링 및 공유를 할 수 있으며 특정 조건에 일치하는 패턴이 발생하면 외부에 알림 기능을 수행합니다.

 

주요 엔진 화면

 

인지분석 엔진 CAS

데이터 분석 관점에서 ‘인지’는 정형화된 규칙과 사물을 표현할 때 어떤 특징으로 표현할지 찾는 것을 말합니다. 솔트룩스의 인지분석 엔진(Cognitive Engine)은 컴퓨터가 사람처럼 학습을 통해 데이터에 대한 다양한 관점을 인지하거나 예측할 수 있는 인공지능 기술이 융합 적용된 기계학습(Machine Learning) 및 심층학습 (Deep Learning) 기반의 세계 최고의 인지분석 엔진입니다.

인지분석 엔진(Cognitive Engine)은 수집된 대용량의 내·외부 빅데이터를 기계학습 및 심층학습 기반으로 사람이 찾지 못하거나 사람이 분석하기에 어려운 데이터의 특성, 의미와 데이터 간의 연관성 분석 등을 빠른 속도로 찾아낼 수 있습니다. 더 나아가 초대용량 데이터에 대한 복잡계 분석, 음성과 텍스트 간의 융합분석, 이미지와 텍스트 간의 융합분석 기능을 제공합니다.

< 인지분석 엔진 - Cognitive Engine 구성도 >

 

주요 특징

 

주요 기능 및 사양

기계학습 및 심층학습을 통한 개체명 인지분석, 감성 인지분석, 지식/소셜 네트워크 분석, 음성인식 융합분석, 이미지 인식 융합분석 등 데이터 속의 의미관계망 분석을 통해 심층 분석 기능을 제공합니다.

개체명 인지분석 기능

기계학습 기반의 개체명 인지분석 기능은 데이터에서 개체(회사이름, 사람이름, 지역 명칭, 날짜, 시간, 금액)를 자동으로 추출(경계 구분)하고 추출된 개체의 종류를 분류를 통하여 개체들 간의 연관 관계를 실시간 자동 분석을 할 수 있는 기능입니다.

< 개체명 인지 분석 기능(실 구축 화면 - 언론진흥재단) >

감성 인지분석 기능

기계학습(Machine Learning)과 심층학습(Deep Learning) 기반 형태소, 문장구조, 개체명, 의미 등을 파악하여 토픽 별 감성 분석, 긍/부정 트렌드 분석을 처리하는 고품질, 고정밀 감성 분석(Sentiment Analysis) 기능입니다.

< 감성 인지 분석 기능 >

지식/소셜 네트워크 분석 기능

초대용량 웹, 소셜미디어, 이메일 및 방대한 기업이 보유하고 있는 데이터로부터 시맨틱 소셜 네트워크를 추출해 그 구조를 분석하고, 네트워크에 흐르는 지식과 상호 영향력을 기계학습 기반의 심층분석을 통하여 중심성분석, 군집분석, 최단경로 분석, 핵심 플레이어 분석, 주제별 핵심 노드 분석, 주제별 연관 노드 분석, 연관 주제별 핵심 노드 분석 등 지식네트워크 상에 유통되는 데이터에 대한 실시간 분석을 할 수 있는 기능입니다.

< 지식/소셜 네트워크 분석 기능 – 통계분석 & 중심성분석 >

음성인식+텍스트 융합 분석 기능

사용자의 실시간 음성데이터를 입력 받아 텍스트로 변환 후 비정형 빅데이터분석 기능과 연계하여 분석을 수행하는 기능과 사용자가 보유하고 있는 테스트 데이터와 음성인식을 통한 텍스트로 변환되어진 데이터 간의 융합 분석하는 기능입니다.

< 실시간 음성인식을 통한 텍스트 분석 – 이슈 분석 >

 

주요 엔진 화면

 

시각분석 엔진 Rainbow

시각분석 엔진(Rainbow)은 빅데이터와 그 분석 결과를 다양한 관점에서 시각화 함으로 숨겨져 있는 패턴을 발견하고, 미래를 예측, 이해할 수 있도록 지원합니다. 단순한 개별 데이터의 시각화뿐 아니라, 서로 다른 데이터를 융합, 재구성하고 동적 대시보드를 통해 시각적분석을 가능하게 합니다.

< 시각분석 엔진 개념도 >

워크벤치를 통해 다양한 시각화 라이브러리를 통해 표현되는 데이터들은 엔진 내부 임시저장소를 통해 관리되며 웹, 기업 포털 및 소셜미디어에 퍼블리싱이 가능합니다. 전통적인 BI(비즈니스 인텔리전스)와 시각화 도구의 한계를 넘어, 빅데이터로부터의 새로운 통찰력을 얻고, 데이터를 통해 문제 해결과 답을 얻도록 돕는 최고의 빅데이터 시각적분석 엔진입니다.

 

주요 특징

다양한 데이터 소스와 파일 포맷 지원

 

주요 기능 및 사양

다양한 형식의 데이터소스에 연결을 하여 선택된 데이터에 대하여 연산, 필터링 및 서로 다른 데이터 소스 간의 결합이 가능하며 최종 정제된 데이터를 가지고 인터렉티브 한 시각화 요소들을 쉽게 생성하는 것이 가능 합니다. 또한 웹 서버로의 퍼블리싱을 통하여 생성한 시각화 요소를 웹 상에서 확인하거나 다른 사람들과 공유를 할 수 있는 기능을 제공합니다.

< 시각분석 엔진 동작 프로세스 >

 

주요 엔진 화면

 

적용사례

국가단위의 빅데이터분석 플랫폼 구축

공간빅데이터 체계 구축 사업 - 국토교통부 - 국토교통부장관 표창 수상

행정정보와 민간정보 등 공간데이터 기반 정형·비정형 빅데이터 및 텍스트 데이터를 융합하여 생산성 있는 지능형 공간데이터를 구축하였으며, 이를 바탕으로 다양한 분석 모델과 템플릿을 제공하여 사용자가 웹 환경에서 쉽고 빠르게 분석모델을 활용 및 분석을 할 수 있는 워크플로우 기반 분석 도구를 제공하였습니다. 또한 공간빅데이터 기반 다목적 공간빅데이터분석 표준 플랫폼 구축 및 서비스 환경을 제공하여 국정현안에 선제적으로 대응하고 미래전략을 수립할 수 있도록 공간정보의 특성을 고려하여 지능형 공간빅데이터를 구축하고 스마트 행정을 실현할 수 있는 기틀을 마련하였습니다.

< 국토교통부 - 공간빅데이터 체계 포털 >

① 사업의 내용

  1. (융합 DB 구축) 융합데이터 서비스를 통해 다양한 융합DB의 결과를 Dash board형태로 제공하여 사용자가 공간 데이터를 보다 쉽게 이해하고 접근할 수 있도록 하였으며 다양한 유형의 결과값을 대시보드 형태로 제공
  2. (데이터서비스 개발) 융합자료와 기초자료로 데이터셋을 분류하여 제공하는 데이터 서비스로 조회를 통하여 관련 데이터를 다운로드 할 수 있고, 융합DB의 시계열 정보를 효과적으로 활용할 수 있는 화면 분할 방식의 시각화 서비스를 제공
  3. (분석 플랫폼 구축 및 시각화 서비스 개발) 공간정보 및 공간빅데이터에서 제공되는 데이터와 공간빅데이터분석도구에서 제공하는 공간라이브러리를 활용하여 분석을 지원하는 공간빅데이터분석 플랫폼 구축과, 공간하둡(Spatial Hadoop) 기반의 분석결과를 지도 위에 시각화하여 표출할 수 있는 시각화 서비스 제공
  4. (소셜 공간분석 서비스 개발) 비정형데이터를 문장단위로 감성분석하여 존재하는 위치정보와 결합하고 이슈와의 관계를 파악하고 지역에 따른 주요토픽, 어휘 트렌드를 분석하여 지도 위에 시각화하여 표출할 수 있는 서비스 제공

< 공간빅데이터분석 기능 >

② 적용 기술 및 솔루션

  1. Big Data Suite 제품 적용
    정형·비정형 공간빅데이터 기반의 스마트 데이터 및 차세대 빅데이터분석 플랫폼 구현을 위하여 One stop 실시간 공간 빅데이터분석이 가능한 Big Data Suite 제품 적용
  2. HDP 3.2 제품 적용
    호튼웍스에서 Package한 HDP 3.2를 적용하여 Big Data suite 제품과 Hadoop Eco System 연계를 통하여 최적의 공간 빅데이터분석 플랫폼 구성

③ 제품 선정 당위성

  1. Big Data Suite Pilot을 통한 제품 품질의 우수성 및 탁월한 성능 평가
    1차 구축 시스템과 Big Data Suite으로 구성한 Pilot시스템을 국토교통부 주관 외부전문가를 통하여 빅데이터 전주기에 해당하는 전 단계별 성능 및 품질 테스트 수행 후 Big Data Suite Pilot 시스템의 품질 및 성능 우수성 평가

④ 주요 성과

  1. 국토교통부 산하 구축 사업 중 국토교통부장관 표창 수상
  2. 과학행정 구현 및 맞춤형 서비스 제공을 위해 공간정보를 활용한 공간 빅데이터 체계를 구축하여 범정부적 활용을 지원
  3. 공간 빅데이터의 공통활용 기반을 조성하여 중앙행정기관, 지자체, 공사공단 등 공공부분에서 공간정보를 활용한 합리적이고 객관적인 정책수립을 지원하여 현안사항 해결 지원
    • 부동산, 교육, 복지, 범죄, 재난 등 복잡한 사회․경제적 현안에 선제적 대응
    • 과학적 공간분석기법을 활용한 미래국가 전략 수립 및 의사결정 지원
  4. 공간 빅데이터를 활용한 다양한 민간 활용서비스 모델 개발, 확산을 통해 신산업 및 일자리 창출 등 공간정보산업 진흥 도모
  5. 공간빅데이터 체계는 사용자 활용성을 고려하여 다양한 형태의 템플릿과 웹 환경에서 사용자가 보다 쉽고 빠르게 분석 모델을 개발할 수 있는 환경을 제공
  6. 이를 통해 사용자가 목적에 따라 데이터와 분석 기능을 조합하여 새로운 분석모델 개발 및 분석 결과 도출이 가능한 기능 제공
  7. 분석모델의 결과는 공간하둡 기반의 위치정보를 활용한 공간 시각화, 화면분할을 통한 시계열 정보화를 통하여 과거의 정보, 미래예측을 포함한 분석결과를 한눈에 파악할 수 있는 서비스 제공

 

신기술 센싱 및 예측 분석 플랫폼 구축

삼성전자 신기술 센싱 시스템 구축 – 삼성전자 & 삼성반도체

삼성전자 및 삼성반도체 내부 KMS에 축적되어 있는 지식정보들과 함께 외부 KISTI (한국과학기술정보연구원)와의 MOU 계약을 통해 공급받게 된 해외학술자료, 국내 학술회의 정보, 각종 연구보고서, 해외과학기술 동향분석 정보 등 대량의 기술문서, 국내외 IT 뉴스, IT전문리뷰/블로그, 기술잡지 등을 수집 및 내/외부 지식정보 통합을 통하여 미래 기술/사업 불확실성에 대한 리스크 조기 감지 체계를 구축하였습니다.

또한 신기술 정보 자동수집 및 분석 체계를 구축함으로써 신기술 및 응용분야에 대한 조기 신기술 센싱 능력 강화를 통해 연속 기술의 한계, 비연속 기술 등장에 따른 사업 리스크 대응, 사업 리스크 보완을 위한 벤처투자, M&A 전략 수립 등 신기술 센싱의 다양한 분석 및 예측 기능을 통하여 내부 데이터 기반의 의사결정 지원을 할 수 있는 기틀을 마련하였습니다.

< 삼성전자 - 신기술 센싱 시스템 >

① 사업의 내용

  1. (데이터 수집 체계 구축) 내외부 다양한 형태의 정형데이터, 비정형데이터에 대한 다양한 수집 기능이 적용되어진 수집 체계 구축을 통하여 신기술 센싱, 예측 분석을 위한 통합 DB 구축
  2. (데이터 모델링 및 지식베이스 구축) 신기술 센싱의 품질 확보를 위하여 내부에서 생성되는 지식뿐만 아니라 외부에서 생성되고 수집되는 기술문서 및 소셜 데이터(뉴스, 블로그 등)에서 다양한 연관성 정보를 추출하기 위하여 삼성전자 신기술 센싱을 위한 다양한 데이터 모델링 구축을 하였으며, 이를 통하여 기술 및 기업정보 지식베이스(인물/논문/특허 연관성, 기술/기업/인물 연관성, 기업/ 투자기관/인물 연관성 등)를 구축
  3. (신기술 센싱 플랫폼 구축 및 분석 서비스 개발) 삼성전자 내부 지식정보들과 외부에서 수집되어지는 데이터를 수집, 저장, 가공, 분석 및 시각화를 지원하는 신기술 센싱/예측/분석 플랫폼 구축을 통하여 다양한 대용량의 데이터에 대한 기업/인물/기술/논문/언론 등에 대한 상호연관성 분석, 지식 트렌드 분석, 지식정보 네트워크 분석, 실시간 신기술 센싱/예측 분석 등 다양한 분석 기능의 결과에 대한 시각화하여 표출할 수 있는 서비스 제공

② 적용 기술 및 솔루션

  1. Big Data Suite 제품 적용
    내부 지식정보 및 외부 기술데이터 기반의 지능형 신기술 센싱, 예측 분석 플랫폼 구현을 위하여 실시간/배치 분석이 가능한 Big Data Suite 제품 적용

③ 제품 선정 당위성

  1. PoC를 통한 제품 성능 및 품질 테스트 수행의 우수성 검증
    • 삼성전자 KMS를 위한 신기술 센싱 플랫폼 구축에 적용되어질 빅데이터분석 플랫폼 사전 검증을 위하여 POC를 3차에 걸쳐 수행 후 제품의 성능 및 품질의 우수성으로 인해 선정
    • 국문 및 영문 데이터 대상으로 데이터 수집, 저장단계, 분석단계, 시각화 단계에 각 단계별 시스템 성능 및 분석 성능 등 다양한 검증을 통하여 지능형 신기술 센싱, 예측 분석 플랫폼 구축을 위하여 Big Data Suite 선정

④ 주요 성과

  1. 단순 검색 기능으로는 개별 기술, 혹은 개별 키워드에 대한 단순 나열의 결과 밖에는 얻을 수 없었고 이 제한된 기능으로 전체 기술네트워크를 바라보거나 기술분석 트렌드를 알아내는 것은 불가능에 가까운 일이었으나, 구축한 신기술 센싱 시스템으로 인해 나무가 아닌 숲을 바라볼 수 있는 능력과 적용기술 혹은 관심기술의 트렌드 정보의 제공이 가능해 거대하고 개별적인 기술이슈를 가진 삼성전자 조직 구성원들의 기술 탐색 욕구를 충족시킬 수 있었습니다.
  2. 이는 기존 시스템 Open 이후 기존 KMS 접속 및 사용자를 3~5배 증가시켜 삼성전자 지식관리 활동을 비약적으로 증가 및 개선시킨 효과를 가져왔습니다.

 

미디어 컨텐츠 분석 플랫폼 구축

뉴스 빅데이터분석 시스템 구축 - 한국언론진흥재단

국내 각 언론 기관들이 수십 년에 걸쳐서 구축한 뉴스 미디어 콘텐츠에 대한 고부가가치화 및 지식화를 통한 저널리즘 서비스의 획기적 혁신을 통하여 차별화된 대정부/대국민 서비스로 발전시키기 위해서 방대한 양의 뉴스 데이터를 체계적으로 분석할 수 있는 플랫폼을 구축하였으며 지능형 분석을 위해 뉴스 빅데이터 관련 메타데이터 등 분석 데이터구축, 사용자를 위한 다양한 분석 서비스 및 관리 체계를 구축하여 미디어 기반의 지능형 분석, 융합, 예측 서비스 등 고품질의 저널리즘 정보 생산 주체인 언론 기관들이 향후에 보다 수준 높은 차세대 미디어 콘텐츠를 지속적으로 도출하고 자생적으로 유통 지원 혁신을 위한 기틀을 마련하였습니다.

< 한국언론진흥재단 - 뉴스빅데이터 분석 서비스(BIGKinds) >

① 사업의 내용

  1. (뉴스 빅데이터 DB 구축) 국내 종합일간지, 경제일간신문, TV방송뉴스, 인터넷신문, 영자일간지, 지역주간신문과 고신문 및 90년대 이전신문 등과 국외 해외뉴스를 포함한 최대 규모의 기사 DB 구축
  2. (뉴스 빅데이터분석 플랫폼 구축) 뉴스 빅데이터를 분석 위하여 한국어를 포함한 영어권 언어 분석이 가능한 지능형 자연어처리엔진, 기계학습기반 비정형 텍스트분석 엔진, 의미기반 검색엔진 등 뉴스 빅데이터 심층 분석 처리를 위한 플랫폼을 구축
  3. (뉴스 빅데이터분석 서비스 개발) 뉴스 빅데이터를 활용하여 의미기반 뉴스 검색 기능을 통하여 일반인을 위한 빅카인즈 검색 서비스와 전문가를 위한 빅카인즈 프로 서비스를 제공
  4. 뉴스 심층분석을 통하여 뉴스와 주가 지수 간의 연관 정보 및 예측 분석 기능, 뉴스기사를 분석하여 인용문을 추출하고 해당 인용문의 정보원을 분석하는 뉴스 정보원 분석(네트워크) 기능, 트렌드 리포트 기능, 각 국의 정치뉴스를 분석하여 특정 이슈에 대한 차이를 볼 수 있는 해외 뉴스 심층 분석 기능, 국가별 언론보도에 대한 트렌드 분석, 연관어 분석, 네트워크 분석 등 사용자에게 다양한 분석 기능 등 다양한 분석 기능을 제공

< 뉴스 빅데이터 분석 기능 >

② 적용 기술 및 솔루션

  1. Big Data Suite 제품 적용
    국내/해외 뉴스 콘텐츠 기반의 비정형 뉴스 빅데이터분석 플랫폼 구현을 위해 One stop 실시간 미디어 콘텐츠 빅데이터분석이 가능한 Big Data Suite 제품의 적용
  2. Apach SPARK, STORM, KAFKA 등 적용
    OpenSource Apach SPARK, STORM, KAFKA 등을 뉴스 빅데이터 플랫폼에 적재적소에 반영하여 Big Data Suite 제품과 연계를 통하여 최적의 품질을 보장하는 뉴스 빅데이터분석 플랫폼 구성

③ 주요 성과

  1. 대규모 뉴스 데이터구축 및 분석을 통하여 국가적으로는 중요한 역사적 자산 축적 및 사회변화 예측 및 정책 입안·사업 기회 포착에 기여
  2. 또한 경제적인 측면에서는 향후의 판세나 정황을 예측하고 대처할 수 있는 창조 경제 브레인 역할을 수행할 수 있는 기틀 마련
  3. 고품질의 저널리즘 정보 생산 주체인 언론 기관들이 향후에 보다 수준 높은 차세대 미디어 콘텐츠를 지속적으로 도출하고 자생적으로 유통할 수 있는 혁신적 시스템 기반 마련
  4. 뉴스빅데이터분석 체계를 활용한 글로벌 뉴스(영문, 일문) 분석 시스템 및 특정 이슈에 대한 국가별 언론보도의 차이 분석 서비스 제공을 통하여 글로벌 뉴스 분석 서비스 영역의 선두사례로 발전
  5. 뉴스 활용가치에 대한 사회적 인식 제고 및 이에 상응한 언론사 콘텐츠 기반 수익모델 창출에 기여
  6. 방대한 뉴스 데이터와 개별 사용자, 개별 기관의 특성과 성향을 분석하여 맞춤형 뉴스 및 관련 정보 제공

 

금융 데이터 & 실시간 VOC 분석 플랫폼 구축

지능형 실시간 VOC 분석 및 TA 분석 시스템 구축 – 농협은행

고객의 디지털 채널 활용 증가와 지능형 서비스 요구의 지속적 상승이 예상되어, AI기반 서비스 확대를 통한 고객 만족도 및 운영 효율성을 높일 수 있도록 기존 시스템을 고도화하고 개선하는 것을 목표를 두고 콜센터 AI 빅데이터 시스템을 구축하였습니다.

농협은행 고객행복센터에서 매일 발생되는 전화 상담 내용을 기록 저장하고 분석하는 상담 빅데이터분석 시스템을 실시간 음성처리, 언어분석 처리, 대용량 분산 환경을 적용하였으며, 실시간 TA(Text Analysis) 분석 서비스가 가능한 구조로 개발하여 적시, 적소에 상담 데이터 분석 결과를 제공하였으며, 다양한 목적과 관점에서 분석하고 통찰할 수 있는 지능형 VOC 분석 및 TA분석을 위한 기반을 마련하였습니다.

< 농협은행 - 지능형 금융 데이터 분석 >

 

① 사업의 내용

  1. (데이터 저장 및 운영 환경 개선) 수집되는 상담 빅데이터는 메시지 큐에 저장되고 분산 어플리케이션을 통해 색인 및 빅데이터 저장소에 저장되면 텍스트 분석을 통한 서비스로 구성
  2. (지능형 지식관리시스템 구성) 신규 KMS(지능형 지식관리 시스템)을 통해 구축/관리되는 지식정보가 지식베이스로 동시에 관리되고, 질의응답 시스템에 자동 배포 가능한 구조가 구성
  3. (TA 서비스 구성) 이슈 클라우드 및 이슈 트렌드 분석 기능 제공
    • 이슈 키워드에 대한 감성분석 기능을 제공
    • 연관 토픽 분석에 대한 네비게이션 기능 제공
    • 상담결과를 주제별로 자동 군집하는 기능 제공

< 지능형 VOC 분석 및 TA 분석 기능 >

② 적용 기술 및 솔루션

  1. Big Data Suite 제품 적용
    상담데이터 수집계층, 메시지계층, 빅데이터 저장계층, 빅데이터 색인계층, 활용서비스 계층 등으로 구성할 Big Data Suite 제품 적용
  2. Apach SPARK, STORM, KAFKA 등 적용
    OpenSource Apach SPARK, STORM, KAFKA 등을 뉴스 빅데이터 플랫폼에 적재적소에 반영하여 Big Data Suite 제품과 연계를 통하여 최적의 품질을 보장하는 지능형 금융 빅데이터분석 플랫폼 구성

③ 제품 선정 당위성

  1. Big Data Suite의 대용량 빅데이터수집에 대한 무결성을 보장하며, 실시간 데이터 송수신에서의 유실을 방지합니다. 또한 분산 처리 환경과 인메모리 분석을 통해 대용량 집계 및 분석 처리시에도 빅데이터 시스템의 성능을 보장하는 제품 선정
  2. 지속적으로 증가하는 상담 데이터의 실시간 분석과 배치 분석 모두 수용할 수 있는 분석 플랫폼 체계 필요성에 충족하는 제품 선정
  3. 인메모리(in-memory) 기반의 집계 및 통계 분석과 실시간 색인 및 분산 처리를 통해 고성능의 빅데이터분석이 가능한 제품 선정

③ 주요 성과

  1. 사용자 증가로 부하가 집중될 수 있는 고객 집중 상담 시간에도 원활한 서비스가 가능하고, 향후 지속적인 데이터 증가나 서비스 확대에도 시스템 인프라 확장이 유연한 구조로 구성
  2. TA 분석 기능 및 서비스 개선으로 실시간 이슈 분석 및 상담 품질 평가 기능 고도화
    • 상담 이슈에 대한 검색, 통계, 트렌드 분석, 연관성 분석 등이 연관성을 가지고 주제를 확장하여 심층 분석될 수 있도록 UI를 개선하고 분석 결과를 시각화서비스 제공
    • 상담사의 고객 상담을 실시간으로 모니터링 하거나, 상담 결과에 대한 품질 평가의 일부를 시스템으로 자동화함으로써, 오상담이나 부적절한 대응을 적시에 발견하고 개선하여 고객 상담의 만족도 향상
  3. 음성데이터를 텍스트로 변환하고, 비정형 텍스트를 분석하여 결과를 제시해야 하는데 이를 대량으로 실시간으로 처리할 수 있는 지능형 인지분석 기능 제공

 

지능형 통합 검색 시스템 구축

포스코 GIH(Global Information Hub) 구축 사업 – 포스코 경영연구소(POSRI)

GIH 프로세스를 효율적으로 지원하고 패밀리사의 전략적 의사결정 지원을 위해 IT 시스템 구축이 필요. 포스코 및 패밀리사에서 자체 관리하던 국내∙외 사외정보를 GIH에서 통합관리하고 분야별 전문가가 분석∙가공해 임직원에게 서비스하기 위한 포스코 패밀리 통합정보관리 네트워크를 구축하기 위함입니다.

GIH 내부정보와 외부 수집정보를 대상으로 정형/비정형 데이터에 대한 지능형 분석을 통해 관련 주제 및 이슈 키워드의 시맨틱 검색으로 보다 정확한 정보검색과 모니터링 능력을 극대화하고, 특정 주제에 대한 동향분석, 트렌드 분석, 연관주제 분석 등 축적된 비정형데이터를 대상으로 보다 입체적이고 의미 있는 분석 수행이 가능하게 하였습니다.

< 포스코 – 시맨틱 통합 검색 & 분석 >

① 사업의 내용

  1. (의미기반 지능형 통합 검색 체계 구축) 사용자가 질의하거나 선택한 키워드 (토픽)에 대하여 키워드를 포함한 문서 중 중요한 문서의 상위 100건의 문서를 실시간 분석하여, 검색어와 가장 밀접한 관계를 가지고 있는 연관정보를 추출하여 방사형 트리 형태로 조회할 수 있는 지능형 검색 체계를 구축
  2. (지능형 검색 기능 개발)
    • 검색결과 클러스터링: 사용자 질의어에 대한 검색 결과 문서를 실시간 분석하여 문서 클러스터링 결과를 제공
    • 인기검색어: 사용자가 검색한 검색어 이력을 통계적으로 추출하여 순위를 시각화하여 표출
    • 자동분류검색: 정보(문서) 자동분류를 통해 분류가 되어진 데이터에 대하여 분류체계를 통한 검색을 할 수 있는 기능 제공
    • 유사문서 검색: 특정문서와 유사한 문서를 다양한 출처에서 실시간으로 검색해서 제공
  3. (지능형 트렌드 분석 기능 및 서비스 개발) CEO메시지와 정보니즈 데이터를 분석하여, 주요키워드를 기간 단위로 추출하여, 해당 기간 동안에 이슈가 되는 키워드를 추출하여 사용자들에게 다양한 챠트 형식으로 시각적분석 서비스를 제공

< 의미기반 지능형 통합검색 및 트렌드 분석 >

② 적용 기술 및 솔루션

  1. Big Data Suite 제품 적용
    GIH 내부정보와 외부 수집정보를 대상으로 정형/비정형 데이터에 대한 지능형 검색 및 데이터 분석을 위하여 Big Data Suite 제품의 빅데이터 저장/검색 엔진(DISCOVERY), 비정형 빅데이터분석 엔진(TMS)를 적용하여 구축

③ 제품 선정 당위성

  1. GS인증, 행정업무용 SW인증, 신SW 상품대상, 대한민국SW대상 대통령상 수상을 국내 최고의 성능과 품질을 보장하는 빅데이터 저장/검색 엔진(DISCOVERY) 및 비정형 빅데이터분석 엔진(TMS) 선정

③ 주요 성과

  1. 포스코 패밀리 정보 경쟁력 강화
    유용한 정보를 신속하고 정확하게 제공
    분업 및 협업을 통해 패밀리간 정보 공유
    최신 정보기술 활용을 통한 효율적 정보활용 및 업무생산성 증가
  2. 포스코 패밀리 정보 마인드와 문화 정착
    정보 수집 및 활용을 통한 정보 마인드의 진화(형성→확산→정착) 기반 마련
    정보 활동 모니터링과 피드백을 통해 변화관리 유도
  3. 전략적 Insight 정보 발굴
    국내외 유의미한 정보의 체계적 축적
    전략적 Insight정보를 활용한 의사결정 지원
    신 사업 아이디어 발굴 및 경영 Risk 선제 대응
  4. 포스리 정보기반 분석역량 강화
    포스리와 패밀리사간 효과적 커뮤니케이션과 의사결정 지원 기반 구축
    국내외 현장의 Live한 정보취득으로 포스리 연구/과제 현장성 강화

 

빅데이터 기술소개

실시간 데이터 수집, 저장, 검색, 분석, 시각화에 이르는 빅데이터 라이프 사이클을 충족시키는 Big Data Suite 제품은 아래에서 제시하고 있는 주요 기술들이 반영되어 구성되어 있습니다.

 

반응형

+ Recent posts