Normal이 된 Bigdata

빅데이터
하버드대학 교수 쇼샤나 주보프Shoshana Zuboffsms 1988년에 출간한 획기적 저서 ‘스마트 기계의 시대 in the Age of the Smart Machine’에서 현재 ‘빅데이터’라고 불리는 분야가 등장하리라고 예측하면서 이렇게 주장했다. “정보기술은 행동을 만들어낼 뿐 아니라 사건, 사물, 절차를 상징화해 새로운 방식으로 보고 알며 공유할 수 있도록 하는 목소리도 만들어낼 것이다.” 주보프의 주장을 달리보면, 전산화의 부산물로 생성되는 엄청난 양의 정보 흐름에 가치가 있다는 뜻이다. 예컨대, 초창기 재고 관리 시스템은 고객의 구매 습관에 관한 유용한 정보를 제공했다. 주보프는 여기에 “지능기술에 따른 정보제공력 informating power of intelligent technology”이라는 이름을 붙였다. 비록 주보프가 말한 “정보제공informating”이라는 용어는 유행하지 않았지만, 기술이 만들어낸 엄청난 자료를 분석하면 값진 통찰을 얻을 수 있으며 여러 분야에서 더욱 신뢰성 있는 예측을 하는 데 도움이 된다고 통찰한 결론은 이제 그 타당성을 인정받고 있다.
이처럼 정보를 포착하고 분석하는 데 특화하면서 출현한 분야는 현재’빅데이터’라는 명칭으로 널리 불리고 있다. 빅데이터라는 용어는 처음에 강입자충돌기(입자를 광속에 가깝게 충돌시키는 물리학 실험장치)가 기록한 엄청난 자료처럼 방대한 자료를 다루는 기술 분야에만 적용됐다.이제는 그보다 훨씬 규모가 작은 정보를 분석하는 기술 활용 사례를 가리킬 때도 쓰인다. 
자료분석data analytics, 데이터과학 data science, 예측 분석 predictive analytics 등의 용어가 가리키는 대상도 이와 대략 비슷하다. 어떤 이름을 선호하든 이 분야의 전문가는 보통 ‘데이터과학자’라고 불린다.
빅데이터의 능력을 과장하는 목소리는 끝없이 이어진다. 어떤 평론가는 상당한 근거를 들어 빅데이터 관련 주장이 지나치게 과장되어 있고, 방법론 면에서 개선의 여지가 많다고 목소리를 높인다. 그렇다 해도 우리 주변에 돌아다니는 자료의 규모가 엄청나다는 사실까지 부정하기는 힘들다. 2010년, 당시 구글 회장이었던 에릭 슈미트Eric Schmidt가 주장한 바에 따르면, 인류 문명이 시작됐을 때부터 2003년까지 창출된 정보의 총량이 이제는 이틀마다 창출되고 있다. 관련 수치에 따르면 2020년에는 같은 양의 정보가 두 시간마다 창출될 것이다. 자료량이 이렇게 급증하는 현상은 웹에 동영상, 사진, 음성 콘텐트가 쏟아지는 데다 저렴한 비용의 센서 산업이 빠르게 성장하고 있기 때문이다. “이런 센서에서 나오는 자료가 전 세계 자료에서 차지하는 비중은 2005년 11%에서 2020년 42%로 상승할 것이다.”라고 예측하는 견해도 있다.
결과적으로 현재 포착되지 않은 자료의 양은 엄청나게 늘어났다.데이터과학자는 이런 자료를 모으고 분석하며 활용하는 수단을 개발하는 데 대략적 목표를 둔다. 빅데이터의 성공 사례는 매우 다양하다. 논쟁의 여지가 있지만 예를 들면, 사용자들이 비슷한 증상을 검색하는 지역을 확인해 과거보다 빨리 독감 발생 여부를 알아내는 시스템인 구글 플루 트렌즈 Google Flu Trends가 있다. 또 다른 예로, 월마트는 태풍이 오기 전에 고객이 구매한 품목을 분석해 손전등뿐만 아니라 팝타르트(토스터나 전자레인지에 데워 먹는 냉동 페이스트리)의 수요가 엄청나게 늘어난다는 사실을 발견했다. 이런 통찰 덕분에 월마트는 다음번 태풍이 근처까지 왔을 때 재고를 적절하게 채울 수 있었다. 자연언어 번역 시스템과 자유 주행 자동차 역시 빅데이터 기술을 활용해 작동된다.
빅데이터를 가치 있게 사용하는 방법은 다양하지만, 해당 분야의 전문가들은 대부분 마이어쇤베르커와 쿠키어의 주장대로 “빅데이터의 핵심은 예측에 있다. (중략) 빅데이터는 엄청난 양의 자료에 수학을 적용해 확률을 추론하는 것이다.( 중략) 이런 시스템이 잘 작동하는 것은 예측에 필요한 자료를 대량 공급받기 때문이다. 라는 데 동의한다. 컴퓨터과학자 에릭 시겔 Eric Siegel은 한 걸은 더 나아가 “컴퓨터는 현대 사회에서 가장 크고 가장 잠재력 있는 비자연적 자원인 자료를 맹렬한 기세로 먹어치우며 새로운 지식과 능력을 스스로 발전시키고 있다.”라고 과장스러운 말투로 말했다.
이런 시각을 종합해보면 빅데이터가 예측 도구로서, 그리고 지식을 새로 창출하는 도구로서 전문직에게 어떤 전망을 주는지 알 수 있다. 이때 사용되는 자료의 원천을 식별해내면 더 확실하게 전망할 수 있다. 우리가 염두에 두는 자료는 바로 전문가가 업무 주에 만들어낸 자료다. 여기에는 진료 기록, 법률서류, 금융계정, 세무신고서, 건축도면, 컨설팅 보고서 등 전문가가 모은 자료와 제공한 안내사항이 포함된다.
인터넷이 널리 사용되기 전이나 보급 초창기에는 이런 자료를 체계적으로 저장하고 분석하는 데 관심을 보이는 전문가가 드물었다. 전문가들은 대부분 당면한 작업에만 초점을 맞췄다. 소위 ‘자료 배기관 Data exhaust’에서 생성된 데이터는 일이 마무리되면 버려도 되는 물건으로 취급받았다. 전통적 방식에 따른 전문가 업무의 부산물로 생성된 자료를 한데 모아 연구하는 일은(누군가 한다면 말이지만) 대부분 학자들의 몫이었다. 그러다 마침내 빅데이터 분야의 작업 결과물이 모이면 전문가도 미처 인식하지 못한 패턴, 상관관계, 통찰이 드러난다는 사실이 확인됐다. 따라서 작업 자료는 일종의 새로운 실용적 전문성이 되어, 값진 예측의 기반을 형성하기 시작했다.
이런 자료는 “이런 상황은 예전에도 있었는데, 앞으로 어떻게 될 것이냐면…..”이라고 비공식적으로 말하는 전문가와 동급으로 취급될 순 없지만, 자료의 형태를 잘 다듬으면 유용하게 쓰이기도 한다. 빅데이터를 사용하면 전문가가 과거에 인식하지 못했던 추세를 인식하고, 몰랐던 지식을 알아낼 수 있다. 그렇다면 자료는 ‘교훈이 될 경험을 모은 값진 집합’으로 취급될 만하다.
의학분야에서는 증상과 진단을, 법률 분야에서는 사실과 판결을, 교육 분야에서는 성과와 교육 방법을 연결하는 대규모 자료집합을 분석했다.기술이 점점 정교해지면 인간 전문가가 도출할 수 없었던 의료 진단, 판결 예측, 교육적 통찰을 이런 자료에서 얻을 수 있을 것이다.
빅데이터 기술에서 흘러나오는 새로운 지식은 우리가 말한 ‘실용적 전문성’에 속한다. 실용적 전문성의 개념을 폭넓게 확장해 전문가 자신이 만들고 적용하는 지식뿐만 아니라 시스템과 기계가 생성하는 지식까지 포함시켜 어떤 것이 실용적 전문성인지 여부는 그것의 유래(인간의 정신에서 왔는지,아니면 자료와 소프트웨어에서 왔는지)에 달린 게 아니고,특정한 문제 집합을 해결하는 데 사용 가능한지 여부에 달려 있다.

우리는 빅데이터 기술에 기반을 둔 시스템이 인간 전문가와 유사하거나 그보다 더 수준 높은 결론을 이끌어내고, 조언을 제공하며, 지침을 줄것이라고 예상한다.
한 가지 강조하면, 이런 고성능 시스템은 인간의 업무 방식을 모방하거나 참고하지 않을 것이다. 특정 환자가 보이는 증상과 과거 환자 100만명의 데이터베이스를 비교해 진단을 내리는 시스템이 쓰는 방식은 보통 인간 의사가 감별진단을 내릴 때와는 다르다. 한 사건의 관련 사실을 과거에 발새안 수십만 건의 사건과 비교해 판결 결과를 예측하는 시스템 역시 보통 변호사와는 다른 방식으로 작동한다.

빅데이터 기술은 전문가의 업무 방식을 지금은 물론이고 앞으로도 자동화하지 않을 것이다. 빅데이터는 방대한 양의 과거 경험을 끌어내고 재사용함으로써 과거에는 불가능했던 전문가 업무 방식을 제공한다. 수십 년간 인공지능 분야를 이끌어온 패트릭 윈스턴Patrick Winston의 말을 빌리면 “똑똑해지는 법은 사람처럼 똑똑해지는 것 말고도 매우 많다.”
감성 컴퓨팅

로절린드 피카드 Rosalind Picard는 1997년에 출간한 선구적 저서 ‘감성 컴퓨팅 Affective Computing’에서 “이제까지 컴퓨터의 지성을 측정하던 등식에는 감정을 인식하고 표현하는 컴퓨터라는 핵심 개념이 빠져 있었다고 선언하고, 컴퓨팅의 변화를 요청했다. 피카드의 말을 대략 옮기면, 시스템과 기계는 감정을 다룰 수 있어야 지성을 갖춘 인간과 같은 수준으로 활동에 참여하고 작업을 수행할 수 있다.

그 후 약 20년간 기계에 감정을 부여하자는 발상은 계혹 힘을 얻었다.

라피 카치두리안 Raffi Khatchadourian은 ‘뉴요커’에서 “이제 컴퓨터는 사회생활을 위한 미소와 즐거움에서 우러난 웃음을 구분하고, 엄살과 진짜 고통의 표현을 구분하는 데 대부분의 사람보다 낫고”, 음성 전문가들이”여성과 어린이가 나누는 대화를 들은 후 그 여성이 어린이의 어머니인지 아닌지 판단하는” 소프트웨어를 개발했다고 썼다. 또한 그는 “압박감,외로움, 우울함, 생산성을 탐지하도록 설정할 수 있는” 스마트폰과 “감정 감지 자판기”에 대해 이야기 하기도 했다.
이런 상황을 살펴보다가도 “나는 평생 기계하고 사이가 좋았던 적이 없다.”던 우디 앨런 Woody Allen의 대사가 떠오를 때가 있기는 하지만,감성 컴퓨터 분야는 이제 확실하게 자리 잡았다. 감성 컴퓨팅은 컴퓨터와 심리학의 접점 역할을 한다. 이 분야의 관련 영역은 인간의 감정을 인식, 해석, 반응, 생성하는 시스템의 탐색, 연구, 설계, 발전, 진화에 걸쳐 있다.감성 컴퓨팅 분야는 그다지 잘 알려지지 않았고, 기술 전무가의 관심에서도 벗어나 있다. 그럼에도 불구하고 최근 출간된 ‘옥스퍼드 감성 컴퓨팅 해드북Oxford Handbook of Affective Couputing’은 그 분량이 500페이지가 넘는다. 당연한 얘기지만 이 책의 첫 장에서는 감성 컴퓨팅 분야가’급성장’중이라고 기술되어 있다.
감성 컴퓨팅이 초점을 맞추는 핵심 대상은 감정을 감지하고 표현하는 시스템이다. 이 둘은 독립된 분야가 아니다. 특히 특정 로봇 분야와는 영역이 겹친다. 인간의 감정을 감지하는 센서는 보통 로봇 기기에 내장된다. 감정을 표현하는 시스템은 일종의 로봇이다.
대부분의 전문가는 자신이 수행하는 일상적인 업무의 핵심이 자기 환자,고객, 학생을 ‘읽어내고’ 대응하는 능력이라고 말한다. 컴퓨터 시스템이 인간의 감정을 감지ㅐ낼 수 있다면 대체 어떤 일이 일어날까? 이는 다양한 센서로 사용자의 생리 지표와 변화를 포착하고 분석해 감정 상태를 자동으로 인식하는 것이 가능해지면서 현실에서도 어느 정도 달성된 일이다. 표정은 컴퓨터의 안면 분석으로 몸짓은 자이로스코프 등으로 측정하며, 자세는 압력 감지 의자로 감지하고, 피부 전기전도도는 전극으로 땀이나 전기저항의 변화를 감지하는 등의 방식으로 감정을 소통할 수 있다. 눈을 깜빡이는 패턴, 머리를 기울이는 각도와 속도, 끄덕임, 심장박동, 근육 긴장도, 호흡수, 그리고 뇌의 전기활동에서 감정 상태를 유추할 수도 있다. 하위 전문 분야도 여럿 등장했다.

음성학 Vocalics(목소리 분석 기술), 응시학 Oculestics(안구 움직임 연구), 자연언어 자동음성학적 분석, 음성 기반 감정 인식, 그리고 아마 가장 난이도가 높을 유머 인식 등이 있다. 이 모든 혁시는 전문가에게 엄청난 영향을 미친다. 학생들이 지루함, 혼란, 좌절을 느끼면 감지하는 시스템이 나온다고 상상해보라
감정을 표현하는 시스템이 활용하는 도구는 다르다. 예컨대, 이 분야에는 다양한 감정을 담아 소리를 내는 ‘음성 생성 시스템 Speech production system(음성 합성기 Speech Synthesizer 또는 ‘인공 화자 artificial talker’라고도 한다)’을 개발하는 과제가 있다. 소통 상대인 인간을 따라하거나 인간에게 공감하거나 적응하는 기계를 설계하는 것도 하나의 과제다. 이를 위해 신체언어 또는 표정을 컴퓨터로 모형화하는 등 다양한 기술이 사용된다. 더 원대한 목표로는 ‘체화된 대화 중개자 embodied conversational agents, ECA’가 있다. 이는 인간과 같은 의사소통 능력을 부여받아 인간 사용자의 대화 상대를 하는 것으로, 대화 및 비언어 행동을 적절한 목소리, 억양, 표정, 자세 변화, 몸짓 등으로 보충해 인간과 사회적 소통을 하는 로봇 또는 동영상으로 구현된 가상의 인간 등을 포함한다. 이처럼 의인화된 중개자 및 로봇에 문화적 가치와 규범을 구축해 문화 특성에 맞춰 감정 행동을 바꾸도록 만드는 작업이 진행되고 있다.
시스템이 감정을 감지하고 표현할 수 있으려면 감성 데이터베이스를 대규모로 확보해 활용해야 한다. 이를 위해 감성 컴퓨팅과 빅데이터가 힘을 합치고 있다. 다시 말해, 매우 규모가 큰 ‘감성 자료’ 데이터베이스가 힘을 합치고 있다. 여기에 쓰이는 자료가 기존 자료집합에서 얻거나 크라우드소싱 기법을 이용해 수집하기도 한다. 자료의 형태는 다양하다. 글만 있는 경우도 있지만 대부분 시청각 자료다. 자료는 특성 사회 집단에 국한되지 않고, 다양한 문화 및 언어를 반영해야 바람직하다. 생리적 자료 역시 포착된다. 감성 자료를 표현하는 표준 방식으로 삼기 위해 ‘감정표시 언어 emotion mark-up language’를 개발하려는 흥미로운 프로젝트도 진행되고 있다. 간단히 말해, 엄청난 양의 자료가 수집되고 저장되고 있다. 기계가 이런 자료를 많이 이용할수록 인간의 감정을 더욱 잘 인식하고 표현하게 될 것이다.
감성 컴퓨팅 관련 작업의 발전은 아직 정체될 기미를 보이지 않고 있다.감성 컴퓨팅은 규모와 범위가 확장되어가고 있으며, 이와 관련된 사람들은 더욱 사용하기 편한 시스템을 갈망하고 있다. 이에 따라 인간 감정을 인식하고, 반응을 표현하는 시스템에도 투자가 몰리고 있다. 이 현상 역시 빅데이터, 인공지능, 로봇공학과 함께 기계가 점점 유능해질 것이라는 우리의 예측에 힘을 실어준다.

Leave a Comment

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다