반응형

데이터 기술

데이터 시대, NLP 기술 이해하기

데이터를 수집하고 활용한다는 것, 기업에 얼마나 중요할까요? 끊임없이 변화하는 업계와 치열한 경쟁 속에서 '데이터'가 솔루션으로 떠오르고 있습니다. 데이터를 활용한다면 보다 정확한 소비자 분석, 시장 분석이 가능해지죠. 따라서 이제는 기업에 '데이터는 필수'인 시대라고 말하기도 합니다.

왜 모두 '데이터'에 주목할까?

'빅데이터', 최근 몇 년간 많이 회자하는 단어입니다. 다양한 원천에서 얻어지는 방대한 양의 데이터를 의미하는데요. 디지털 세상에 새로운 채널과 기술이 확산함에 따라 엄청난 양의 정보가 쏟아지고 있습니다. 사람들은 스마트폰을 활용해 음성 인식 기능을 사용하거나 SNS에 콘텐츠를 업로드하고, 물건을 구매하거나 OTT(Over The Top Service)를 통해 영상 콘텐츠를 스트리밍합니다. 이러한 액션 하나하나가 '디지털 발자국'이 되고, 이것은 곧 데이터를 만드는 행위이죠. 기존 시스템으로는 처리하기 어려울 정도로 많은 양의 데이터가 지금, 이 순간에도 만들어지는 것입니다.

사실 이미 예전부터 많은 기업에서는 거래나 고객에 대한 데이터를 사용하여 비즈니스에 중요한 의사 결정을 내리곤 했습니다. 이때 활용한 데이터는 바로 구조화된 데이터, 정형 데이터에 한정되었는데요. 그러나, 전문가들은 데이터 중 90%가량은 구조화되지 않은 데이터, 비정형 데이터라고 말합니다. 이메일, 서류, 이미지, 동영상, 웹페이지, SNS상의 콘텐츠 등이 해당합니다. 

많은 기업은 원석과 같은 빅데이터를 사업에 활용하려고 했지만, 90% 비중에 해당하는 비정형 데이터를 가공할 적절한 기술이나 자원을 가지고 있지 않아 한계가 있었습니다. 하지만 지난 10년 동안 기술의 발전으로 컴퓨터의 성능과 저장 능력이 향상된 덕분에 이제는 다양한 형태의 방대한 데이터를 활용할 수 있게 되었습니다. 이렇게 데이터 기반의 비즈니스 의사 결정이 폭넓게 가능해지면서 '빅데이터'가 현시대를 대표하는 단어로 떠오르게 된 것이죠. 

데이터와 NLP 기술의 관계

우리가 끊임없이 생성하는 데이터를 수집, 저장, 처리 및 분석하기 위해서는 많은 기술이 필요합니다. 그중 NLP, 즉 자연어 처리(Natural Language Processing)는 컴퓨터가 인간의 언어를 이해하고 상호 작용하게 만드는 과정으로 인공지능의 핵심 기술 중 하나라고 할 수 있습니다.

여기서 '자연어'는 우리가 사용하는 언어를 말합니다. 우리는 지역에 따라 다른 표현을 사용하기도 하고, 사람마다 사용하는 언어 습관 또한 다양하죠. 문법에 맞지 않는 문장으로도 맥락을 고려해 이해할 수 있어 큰 어려움 없이 의사소통 할 수 있습니다. 하지만 사실상 무질서한 인간의 언어를 컴퓨터가 올바르게 이해하는 것은 굉장히 어렵다고 합니다. 이를 가능하게 하는 것이 바로 'NLP 기술'이죠. 컴퓨터가 비즈니스 인사이트를 제공하기 위해서는 우리의 말을 이해하는 NLP 기술이 매우 중요합니다.

사람과 기계의 언어를 연결하는 처리 과정은 '말 한 마디로 바뀌는 세상, 음성인식 기술' 콘텐츠에서 좀 더 자세히 살펴볼 수 있습니다. 

NLP 기술을 활용하는 우리의 일상

우리가 키보드에서 어떤 단어를 입력하다 보면 입력 중인 단어에 기반한 '자동 제안' 기능을 볼 수 있습니다. 이것이 바로 실시간 NLP 액션입니다. 또 주변을 보면 AI 스피커를 사용하는 사람들을 쉽게 볼 수 있습니다. AI 스피커 또한 NLP 기술에 기반을 두고 있는데요. 필요한 것을 질문하면 음성 인식 기술과 NLP 기술을 활용해 AI 스피커가 이해하고 올바른 데이터를 결과로 제시해주는 것입니다.

이 밖에도 산업이나 분야와 관계없이 NLP 기술은 유용하게 활용되고 있는데요. 우리 생활에서 밀접하게 이용되는 서비스를 더 살펴볼까요?

이메일 도우미

이메일 플랫폼에서 제공하는 '맞춤법 자동 수정 기능', 꽤 유용하지 않나요? 어떤 플랫폼에서는 '스마트 답장'과 같은 기능도 제공하여, 메일의 텍스트를 고려해 답장의 내용을 제안해주죠.

챗봇 또는 음성 인식 비서 

우리가 최근 많이 가까워진 고객 응대 서비스가 있습니다. 바로 '챗봇'입니다'. 사람이 직접 응대를 하는 때도 있지만, 대부분은 NLP 알고리즘으로 프로그래밍이 된 로봇이 대답을 합니다. 언어를 해석해 질문을 파악하고 가장 관련성이 높은 응답이라고 생각되는 것을 자동으로 제공해주죠.

이커머스 등 검색 엔진 

온라인 검색도 NLP 기술과 함께 더욱 똑똑하게 작동하고 있습니다. 검색 엔진의 알고리즘은 검색 중 사용자 의도를 이해하고 최선의 결과를 제공하기 위해 점점 더 똑똑해지고 있죠. 온라인 쇼핑몰 또한 이미 검색한 키워드를 기반으로 소비자가 필요로 하는 상품을 맞춤으로 추천해줍니다. 

마치며

이 콘텐츠에서는 데이터 비즈니스가 활성화되게 된 계기, NLP 기술과 그 사례를 소개했습니다. NLP를 비롯한 기술의 발전으로 데이터 활용의 범위가 넓어졌고 기업은 고객의 니즈를 더욱더 세밀하게 파악할 수 있게 되었죠. 일각에서는 인공지능이 전통적인 고객 서비스를 대체할 수 있다고 예측하기도 하였는데요. 인공지능 성능을 위해서는 정확한 데이터는 무엇보다 중요합니다.

플리토는 인공지능 학습용 언어 데이터 전문 기업입니다. 국내 유일의 언어 데이터 전문 기업인만큼 한국감리원 인증 정확도 99.8%를 자랑하는 양질의 데이터를 공급합니다. 한국어는 물론 영어, 중국어, 일본어 등 다국어 텍스트, 이미지, 음성 데이터를 제공하는 플리토의 데이터가 궁금하다면 자세한 내용은 이곳에서 확인 가능하며, 담당자와 채팅으로 상담도 가능합니다. 더 정확하고 효율적인 서비스 개발, 플리토 언어 데이터가 함께 합니다!

 

비대면 시대의 효율적인 커뮤니케이션 '챗봇'

오래전 유행했던 채팅 서비스 '심심이'를 기억하시나요? 내가 쓴 문장에 맞게 알고리즘이 적절한 답을 주는 서비스였습니다. 챗봇계 조상이라고 불리는 심심이에서 더욱 발전해, 최근 1~2년 사이에 챗봇 서비스를 비즈니스 커뮤니케이션용 툴로 이용하는 사례가 아주 많아졌습니다. 특히 비대면화가 가속되고 온라인 커뮤니케이션이 늘어나면서 유용한 솔루션으로 자리 잡았죠.

이번 콘텐츠에서는 '챗봇(Chatbot)' 이란 무엇인지, 종류와 구동 방법을 간단히 알아보고, 챗봇의 성능 향상을 위해 중요한 점을 짚어보도록 하겠습니다.

효과적인 고객 커뮤니케이션 툴

인공지능 서비스 중 우리가 유용하게 활용하는 기능, 챗봇이란 과연 무엇일까요? ChatBot, 대화하는 로봇이라는 말 그대로 대화 형태의 흐름을 통해 우리가 원하는 액션을 수행하도록 도와주는 대화형 인공지능 서비스입니다. 챗봇을 활용해 금융업계나 유통업계 등에서는 자체 앱 내에서 고객 지원 서비스를 제공하기도 하고, 소규모의 가게에서도 우리가 자주 사용하는 메신저의 특정 기능을 활용해 간단한 문의 사항을 처리하기도 합니다.

기본적으로 챗봇은 로우 데이터(Raw Data)를 실제 우리가 이해하는 대화로 구성하여 보여주는 기술입니다. 원활한 구동을 위해, 첫째로 챗봇은 사람이 요청하고 원하는 것을 이해해야 하고 둘째로 어떻게 답변을 할지 알아야 합니다. 텍스트 인식 → 자연어 처리 및 의도 이해 → 답변 생성의 과정을 거치게 되죠. 즉 텍스트 마이닝, 자연어 처리(Natural Language Processing), 기계 학습 등의 기술을 기반으로 챗봇은 사람의 언어를 이해하고 또 사람의 언어로 답을 하게 됩니다.

버튼/선택형으로 구조를 설계해 대화를 이어 나가는 닫힌 구조의 챗봇은 룰 베이스(Rule-base) 챗봇, 시나리오형 챗봇이라고도 하는데 예전부터 많이 사용되어 왔습니다. 쉽고 구현이 간단하긴 하지만 미리 정해놓은 질문에 따라 답을 내놓아 유저 입장에서는 자유도가 낮습니다. 여기서 발전해 실제로 대화를 하는듯한 대화 형태가 열린 구조의 챗봇이 바로 인공지능 기술이 활용된 지능형 챗봇입니다. 지능형 챗봇은 사람의 질문이나 말의 의도를 이해하고 그에 맞는 답변을 제공하여야 하므로 구현과 관리가 어렵지만, 유저가 더 자유롭게 이용할 수 있고 복잡한 질문에도 응답할 수 있다는 강점이 있습니다. 그리고 필요에 따라 룰 베이스와 지능형 방식이 혼합된 챗봇을 활용하기도 합니다.

만족도 높은 챗봇을 위해 중요한 것

현재 우리가 편하게 이용하지만, 아직 '실제 사람'처럼 대화하지는 못하는 챗봇의 한계점은 무엇일까요? 불충분한 데이터가 큰 장벽이라고 합니다. 스스로 사람처럼 자연스러운 말을 만들기 위해서는 엄청난 양의 대화 데이터를 인공지능 머신 알고리즘에 넣고 학습시켜야 합니다. 활용 가능한 학습용 데이터가 많지도 않을뿐더러, 데이터 수집 방법이나 공급처 등에 대한 정보도 불명확하죠.

인공지능형 챗봇을 만든다는 것이 아주 어렵지는 않습니다. 니즈에 맞게 API 등을 연동하고 흐름에 맞는 알고리즘을 짜는 일련의 과정을 거치면 구현할 수 있습니다. 하지만 챗봇에서 어렵고도 중요한 문제는 바로 머신러닝 기술을 구현한 후 이 챗봇을 학습시키는 것입니다.

챗봇에서 가장 중요한 '학습'을 위해서 필요한 것은 바로 양질의 데이터입니다. 챗봇을 위해 필요한 데이터, 어떤 것일까요? 사람의 말을 잘 이해하고 또 그에 맞는 결과를 사람의 말로 잘 전달하기 위해서는 다량의 언어 데이터를 학습시켜야 합니다. 챗봇 이용자에게 필요한 답변을 줄 수 있도록 해당 기업이나 산업에 맞는 데이터를 학습시킨다면 훨씬 더 정확하고 자연스러운 챗봇을 만들 수 있겠죠. 서비스의 특성이나 챗봇의 쓰임을 고려한다면 고객 지원형 또는 대화형 언어 데이터나 다국어 데이터 등이 필요할 수도 있습니다.

발전한 챗봇과 함께 하는 미래

다양한 커뮤니케이션 과정에서 소요 시간을 단축하고 만족감을 높이는 쉽고 간단한 솔루션으로 떠오른 '챗봇'. 특히 비대면 소비와 소통의 확산으로 챗봇 도입은 더욱 확대되고 있습니다. 미래에는 개인화된 챗봇을 이용할 수 있을 것이라는 예측도 있는데요. 이는 성별, 지역 등 고객의 특징에 따라 또는 시장에 따라 차별화된 챗봇 서비스가 제공될 것이라는 뜻입니다. 고객과의 인터랙션을 앞으로 어떻게 변화시키고 어떤 비즈니스 커뮤니케이션의 혁신을 이뤄낼 것인지 더욱 기대됩니다.

플리토는 똑똑한 챗봇을 위해 필요한 대화형 구어체 코퍼스, 다국어 코퍼스 등 다양한 텍스트 말뭉치 데이터를 수집하고 가공합니다. 한국어, 영어, 중국어, 일본어는 물론 아랍어, 스페인어, 프랑스어, 러시아어, 독일어, 이탈리아어, 베트남어, 인도네시아어 등 다양한 언어의 데이터를 공급합니다. 고객 맞춤형 데이터를 제공하는 플리토와 함께 챗봇의 정확도를 더욱 높여보시기 바랍니다.

 

정확도 높은 가상 비서·챗봇 만드는 비결

많은 기업에서는 디지털 혁신이라 할 수 있는 인공지능 가상 비서, 챗봇 등을 도입하고 있습니다. 고객 서비스 혁신을 위해 필수적인 기능이 되고 있죠.

가상 비서 서비스는 인공 지능(AI) 엔진과 음성 인식 기능을 바탕으로 맞춤 정보를 수집하여 고객에게 제공합니다. 챗봇은 메신저 등에서 일정 규칙 또는 인공지능 기술을 활용해 고객과 빠르게 커뮤니케이션하고 서비스를 제공하죠. 이들을 인력과 비교해보면, 기업 입장에서 투자 비용과 시간의 효율이 크게 높아집니다. 그리고 사용자 입장에서는 음성이나 메시지만으로 즉각적인 피드백을 받아 원하는 정보를 얻을 수 있기 때문에 훨씬 수월하고 편리해지겠죠?

가상 비서와 챗봇은 사람과 상호 작용하고 비즈니스에 필요한 것을 제공하고 관리하기 위해 더욱더 자율적이고 지능적으로 구동되도록 개발되었습니다. 비즈니스 인사이더(Business Insider)의 연구에 따르면 2022년까지 챗봇으로 고객과의 커뮤니케이션 대부분을 자동화하기 위해, 적어도 80%의 기업이 2020년까지 이 기술에 투자할 것으로 예측하기도 했습니다.

부메랑이 되어 돌아온 운영 효율화?!

가상 비서, 챗봇은 디지털 커뮤니케이션을 대표하는 뉴페이스입니다. 고객 서비스를 운영하는 필수 기술로 전 세계에서 도입하고 있는데요. 비즈니스를 운영하고 처리하는 솔루션의 일종인 가상 비서, 챗봇에 핵심적인 요소는 바로 데이터입니다. 데이터 품질에 따라 성능이 달라지기 때문인데요. 낮은 품질의 데이터를 활용하게 된다면 어떻게 될까요? 가상 비서가 잘못된 의사 결정을 하거나 챗봇이 고객의 요청사항과 무관한 정보를 제공할 수도 있겠죠. 이는 결과적으로 고객 관계 손상, 브랜드 충성도 저하, 기업 평판 악화 등으로도 이어질 수 있습니다.

고객 서비스를 효율적으로 제공하고 고객 만족을 높이기 위해 활용한 디지털 커뮤니케이션 툴, 오히려 이렇게 고객에게 불만족스러운 경험을 줄 수도 있겠죠.

말 잘 듣는 가상 비서를 만드는 방법

가상 비서, 챗봇 등은 언어 데이터를 이해하고 처리함으로써 사람과 상호 작용합니다. 최근 자연어 처리(Natural Language Processing, NLP)의 발전은 대화형 챗봇이나 가상 비서의 품질을 높이고 있죠.

가상 비서, 챗봇이 목적에 맞게 원활히 구동되며 운영 효율화를 이루기 위해 가장 중요한 것은 결국 좋은 품질의 데이터입니다. 정확하고 다양한 언어 데이터 학습을 통해 주요 의미가 있는 단어나 문장을 인식하여야, 사용자 의도를 잘 이해해서 적절한 응답이 가능합니다. 가상 비서, 챗봇 등 인공지능의 품질을 높이고 더 나아가 인공지능 전체 산업을 발전시키는 데에 언어 데이터가 필수적이라고 할 수 있습니다.

플리토에서는 번역 통합 서비스를 제공하는 플랫폼을 통해 인공지능 학습용 데이터를 제공합니다. 1천만 이용자, 300만 집단지성 번역가 등 전 세계 수많은 유저가 실시간으로 만드는 데이터는 현재 실제로 사용하고 자연스러운 언어이기 때문에, 높은 정확성을 자랑합니다.

플리토는 다양한 산업군에서 많은 파트너사와 협력하고 있습니다. 집단지성을 활용해 다국어 언어 데이터를 수집하고, 기업별 요구 사항에 맞게 가공해 맞춤형 데이터로 제공하죠. 이러한 데이터는 가상 비서나, 챗봇이 최고 수준의 성능으로 구동될 수 있도록 도와줍니다.

챗봇과 가상 비서의 성장은 특히 행정, 웹사이트 콘텐츠 제작, 디지털 마케팅, 금융 관리, 소셜 미디어 관리, 고객 서비스 등의 분야에서 업무를 최적화하고 운영을 간소화하는 데 큰 도움을 줄 것으로 예상합니다. 플리토의 언어 데이터로 정확하고 효율적인 비즈니스 툴을 만들어갈 수 있습니다. 텍스트 데이터, 음성 데이터, 이미지 데이터 등 언어 데이터 전문 기업 플리토에서 확인할 수 있습니다.

 

음성 인식 기술의 정확도를 향상시키는 법

비대면과 디지털로 생활 환경이 변화하면서 우리는 '음성 인식' 기반의 기술에 더욱더 익숙해지고 있습니다. 손끝에서 시작했던 인터넷 세상도 이제는 입술 끝에서 시작하죠. 뉴스나 날씨 등 원하는 정보를 실시간 검색을 통해 알려주기도 하고, 차 안에서는 내가 원하는 목적지를 말하기만 하면 내비게이션이 최적의 경로를 안내해줍니다. 그뿐만이 아니라 스마트 홈 기기를 제어해 전등을 켜거나 음식을 주문하거나 쇼핑을 하는 것까지 모두 우리의 목소리, 말로 가능합니다.

음성인식 기술 기반의 AI 스피커 또는 스마트 스피커의 보급량 또한 가파른 성장을 보입니다. 이동통신 3사를 통해 판매된 스피커만 해도 2020년 3월 기준 861만 대(누적)로 전년 대비 45.7% 증가했다고 하니, 전체 보급량은 이보다 높은 수치를 예상할 수 있겠죠.

음성 인식 기술은 어떻게 작동할까?

음성 인식 기술로 작동되는 기계들은 사람처럼 우리의 말을 듣고 이해해 대답하는 것 같지만 사실은 완전 다른 과정으로 진행되죠. 시리나 빅스비와 같은 가상 비서들은 딥러닝 기반의 자연어 처리(NLP) 기술을 통해 사람의 언어를 이해합니다. 수많은 자연어 데이터를 처리하고 분석하기 위해 다음과 같은 과정을 거치게 되죠.

  1. 사용자가 호출어와 함께 스마트폰의 가상 비서나 AI 스피커에 말을 합니다.
  2. 기계는 STT (speech-to-text) 기술을 통해 사용자의 음성을 텍스트로 변환합니다.
  3. 기계는 NLP 기술을 통해 데이터를 처리합니다.
  4. 기계는 TTS (text-to-speech) 기술을 통해 처리한 텍스트를 오디오로 변환합니다.
  5. 변환된 오디오를 송출해 사용자에 응답합니다.

이 과정은 굉장히 간단해 보일 수 있지만 기계의 입장에서 인간의 언어는 이해하기 매우 어려운 영역입니다. 문장의 형태소(morphological) 분석, 구문(syntactic) 분석, 의미(semantic) 분석, 화용(pragmatic) 분석 등을 통해 문장의 의미를 파악하죠. 기계가 인간의 언어를 이해하기 위해서는 컴퓨터 공학, 인공지능, 언어학 등이 복합적으로 영향을 주기 때문에 NLP 기술은 매우 복잡하고 정교합니다.

자연어 처리 과정에서의 어려움은?

음성 인식 기술은 최근 몇 년간 빠르게 발전해왔습니다. 하지만 완벽하지는 않죠. 90% 이상의 정확도를 자랑하는 음성 인식 기기도 신조어나 줄임말, 비슷한 발음의 단어 등은 여전히 구별하지 못하는 경우가 많습니다. 기술의 정확도를 높이고 사용자 편의성까지 제고하기 위해서는 아직 넘어야 할 산이 많습니다. 

우리에겐 자연스럽고 당연하게 느껴지는 언어의 특징인 '역사성'은 인공지능이 언어를 배우기 더 어렵게 만드는 점이죠. 특정 단어나 표현은 문맥에 따라 의미가 다르게 쓰이기도 하고 시대에 따라 새로운 의미를 얻기도 하기 때문입니다. 

여기에 더해 자연어 처리와 음성 인식 기술에 있어서 가장 어려운 점 중 하나는 개인의 독특한 언어 습관을 이해하는 것입니다. 한국어는 발음 법칙이 복잡하고 변화나 예외가 많아 더욱 인식하기 어렵다고도 하죠. 한국어의 4대 문장 시작요소가 '아니, 근데, 솔직히, 진짜'라는 유머 글이 큰 공감을 얻었는데요. 이렇게 부정의 의미를 지닌 '아니'라는 말은 문장에 전혀 영향을 주지 않는 추임새로 쓰이기도 합니다. 하지만 음성 인식기가 이해를 잘못해 '부정문'으로 받아들인다면 전체 문장의 의미가 달라지겠죠. 음성 인식은 많은 사람들이 사용하는 기능이므로 지역적, 사회적으로 다르게 쓰는 말투나 억양, 언어적 습관까지 어느 정도 수용할 수 있어야 합니다. 

이러한 점들을 고려할 때, NLP 알고리즘에서 정확도를 높이려면 실제 언어 패턴을 분석해 이해할 수 있도록 데이터를 모으고 처리해 학습하도록 만들어야 합니다. 결국 이 기술에서 가장 필수적인 것은 방대한 언어 데이터라는 뜻이 되겠죠. 지역적, 사회적인 방언이나 주변 소리가 섞인 음성, 자주 틀리는 문법이나 뒤바뀐 구조로 말하는 문장 등을 포함한 AI 학습용 데이터는 음성 인식기의 성능을 개선합니다. 학습용 데이터를 많이, 다양하게 확보할수록 비즈니스에 활용하는 음성 인식 기술의 정확도 또한 더 높일 수 있다는 뜻이 됩니다.

음성 인식 솔루션을 위한 필수적인 데이터, 어디에서 찾을 수 있을까?

많은 기업이 서비스에 음성 인식 기술을 도입하고 있습니다. 더불어 고품질의 음성 데이터에 대한 수요도 자연스럽게 증가하고 있죠. 플리토는 데이터 수집을 위한 세계 최대 규모의 크라우드 소싱 플랫폼을 운영하고 있습니다. 인공지능 엔진을 학습시키기 위해 코퍼스, 음성, 이미지 등 언어와 관련된 다양한 형태의 데이터를 25개 이상의 언어로 수집하고 데이터의 도메인 또한 회화, 구어체, 의료, 법률 등 많은 종류를 다룹니다.

플리토는 1천만 이상의 플랫폼 사용자와 함께 일일 평균 3,500분가량의 음성 데이터를 구축할 수 있습니다. 원어민이 말하는 영어 음성 데이터, 전라도 사투리 구사자의 음성 데이터 등 기업의 구체적인 니즈에 맞게 데이터를 구축합니다. 또한 플리토는 데이터 라이선스 계약을 통해 사용권을 부여받은 저작권 침해의 우려가 없는 데이터만을 공급합니다.

우리의 삶을 편리하게 하는 인공지능, 하지만 데이터 없이는 인공지능, 머신러닝의 미래를 기대하긴 어렵습니다. 수많은 데이터를 활용해 NLP 모델을 교육하는 것만이 정확한 인공지능을 만들기 위한 1차적인 솔루션이라고 할 수 있죠. 플리토의 언어 데이터를 학습시킨 정확한 음성 인식 솔루션으로 여러분의 서비스의 사용자 경험을 한층 더 높여보시기 바랍니다.

반응형

+ Recent posts