작성일 : 15-07-20 11:36
빅데이터 시대, 개인보호정책과 교통부문의 기회 (제93호)
조회 : 3,785  
Cap 2015-07-20 10-13-01-791.jpg

 
 
◈ 빅데이터 시대
 
널리 통용되는 정의는 없지만, 특정 PC에서 가공·관리하기에는 크거나 일반 스프레드시트 툴의 분석용량을 넘어서는 데이터 셋을 보통 빅데이터로 정의한다. 최근 발생, 가공, 저장되는 데이터의 양과 속도는 전례없는 규모로 지속적인 증가추세를 보이고 있다. 2013년 기준 디지털 유니버스(digital universe1))의 크기는 4.4ZB(Zettabytes)로 두달마다 배로 성장해, 2020년에는 44ZB 규모까지 성장할 것으로 추정된다.
 
그러나 데이터 검지 및 수집기술에 발맞춘 적절한 데이터 수집활동 관리가 수행되지 않는 경우, 의도치 않은 개인정보보호권 침해와 이로 인한 정보제공자들의 반발에 맞닥뜨릴 수 있다. 이는 위치정보와 같은 중요 교통정보의 활용에 장기적 제약요인이 될 수 있다.
 
본고는 ITF2)에서 소개한 빅데이터 수집·분석 사이클에 대한 이해와 해외 개인정보보호 가이드라인 사례 및 위치정보 기술현황을 소개하고 관련 시사점을 살펴본다.
 
 
◈ 빅데이터 Life Cycle
 
■ 데이터의 수집 및 기록
 
빅데이터의 출현과 대두는 데이터관리 기술의 발전으로 데이터의 저장비용이 폐기비용보다 저렴해지면서 집적된 데이터셋의 결과3)로 해석된다. 전화, 문자, 검색, 신용카드구매 등 수많은 전자전송 보고를 통해 개별사용자의 정보가 서비스 제공자의 서버로 중계·저장되기 때문에 개인은 자발적이든 비자발적이든 이동시 디지털 흔적을 남기게 된다.
 
 
Cap 2015-07-20 10-14-59-946.jpg
 

유비쿼터스 센싱에 기초한 실시간에 가까운 대량의 데이터는 현실을 실시간으로 정확히 표현하는 것으로 생각되어 고전적 통계분석 상의 유효성 검증의 필요성이 없어질 것이라 기대된다. 그러나, 이는 환원주의적 시각으로 발생데이터의 규모와는 별개로 데이터 특성에 따라 편향된 분석결과가 나타날 수 있다. 따라서 데이터 특성파악과 수집조건 투명성은 데이터 중심의 정책결정을 위해 중요하고, 초기기록 및 후속 메타데이터4)의 보존을 통해 데이터 해석결과를 뒷받침한다.
 
 
Cap 2015-07-20 10-15-08-054.jpg
 

■ 데이터의 추출, 정제, 주석, 집적 및 융합
 
데이터 수집비용과 가용성 외에도 데이터소스의 중요선택요인에는 분석적합성이 있다. 이를 확보하기 위해서는 데이터가 관련필드(출발도착시간, 위경도 등)로 파싱5)됐을 때, 데이터를 정제·변환하여 의미있는 결과를 도출하는 작업이 필요하다.
 
교통분야에서는 이동성 관련 데이터 분석을 위해 다음과 같은 데이터 분석방법론을 사용하고 있다. 빅데이터를 통해 새로운 통찰을 이끌어 내는 것은 상이한 용도로 생성된 데이터 셋들로부터 두드러진 데이터 특성을 도출하는 것에 달려있다. 이를 위해 장치 및 작동 위치, 데이터 송신·작동 시간, 데이터 카테고리, 데이터 포맷 등과 같은 온톨로지6)가 개발되었다.
 
 
Cap 2015-07-20 10-15-19-016.jpg
 

■ 데이터의 분석, 모델링 및 시각화
데이터 마이닝을 통한 데이터 분석과 모델링, 시각화 작업 등을 통해 해당 데이터의 해석과 재해석 과정을 거치고 이를 통한 결과를 제시한다.
 
 
◈ 국제기구 및 해외국가의 개인정보보호정책
 
OECD는 1980년 “개인정보보호와 국제 개인데이터 유통 운영을 위한 가이드라인7)”을 채택하고 국제적 정보흐름에서 발생하는 파생가치와 개인정보 보호문제의 균형을 제공하는 것을 목적으로 8개의 원칙을 제시했다.
 
 
Cap 2015-07-20 10-15-29-742.jpg
 

EU는 1995년 “데이터보호지침8)”을 소개하고 2012년 이를 갈음한 “일반데이터보호지침9)”을 발표하였다. 새 지침은 이전 지침을 기반으로 개인정보 유지를 위한 합법적 근거가 없는 경우 데이터 삭제요청이 가능한 ‘잊혀질 권리’, 각 개인의 본인데이터에 대한 접근성 향상과 서비스업체간 개인데이터 전송권한, 정보사용 및 수집에 대한 명시적인 동의요구, 데이터보호권침해에 대한 향상된 행정적·법적 구제 등에 대한 내용이 추가됐다.
 
미연방통상위원회(FTC)는 1998년과 2000년에 정보 수집·사용과 관련된 시민대상 공지, 개인데이터 수집 및 사용동의 제공선택체계, 시민 스스로에 관한 정보접근가능과 부정확하고 불완전한 데이터에 대한 이의제기, 정보안정 및 정확성유지를 위한 정보관리자책임 등을 내용으로 한 데이터보호정책을 제출하였다.
 
 
◈ 위치기반 데이터의 교통부문 활용가능성과 시사점
 
개인의 위치정보의 정확도 수준은 1m 이내 오차수준까지 그 정밀도가 높아지고 있고, Wi-Fi 지원장비 데이터를 이용한 실내 위치정보 확보, 스마트폰의 3축 가속계 프로파일을 통한 이동시 교통수단 감지도 가능해지고 있다. 또한 대부분의 위치정보 발생과 관련되는 모바일기기의 전세계 가입수가 2013년 기준 22억개에서 2019년까지 63억개로 증가할 것으로 추정되고 있어 위치기반 데이터의 교통부문 활용가능성은 매우 고무적이다.
 
국제기구 및 주요국가의 개인정보보호정책은 강화추세이며, 그 중 정보제공자의 활동, 소비행태, 생활패턴 등을 파악할 수 있는 특성을 가진 위치정보의 경우 우선적인 보호정책대상이 될 가능성이 크다. 그러나 해당 정보는 교통분야에서 활용가능한 높은 잠재력을 가지고 있는 정보로 이를 적극 활용하기 위해서는 선제적으로 위치정보보호에 앞장서 위치정보 익명화, 암호화의 설계 및 제도적 지원을 통해 정보제공자의 범용적 정보사용동의를 유도해야 한다. ▣
 
 
 

1) Digital Universe : 사진, 영화, 감시카메라 영상, 센서 및 연계장치로부터 생산 및 전송된 데이터, 인터넷 컨텐츠, 이메일, 문자 및 영상 메시지부터 전화통화 메타데이터(Database 관리를 위한 작성자, 목적, 저장장소 등에 관한 속성데이터)등을 아우르는 디지털 컨텐츠 전체영역
2) International Transport Forum
3) “Big Data is what happened when the cost of storing information became less than the cost of making the decision to throw it away.”(George Dyson, Sience Historian, 2013)
4) 모바일 장치와 다양한 네트워크(GSM, Wi-Fi 등) 사이의 지속연결을 위한 모바일 장치 식별, 상태 및 위치정보 데이터
5) 일련의 문자열을 의미있는 어휘분석단위(token, lexical analysis unit)로 분해하고 이들로 이루어진 파스 트리(parse tree)로 만드는 과정
6) 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술
7) “Guidelines Governing the Protection of Privacy and Transborder Flows of Personal Data”(1980)
8) “Data Protection Directive” (Directive 95/46/EC), EU, 1995
9) “General Data Protection Directive”
 
 
참고문헌
1. Big Data and Tranport–Understanding and assessing options, ITF/OECD, 2015.
2. Mobility Data : Change and Opportunity, OECD, 2014.
3. Big Data City, Kyoto Smart City, SENSEable City Lab, 2014.

 
   
 

개인정보처리방침 | 서비스 이용약관 | 서비스 해지 | 이메일 무단 수집 거부