3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
1절. 빅데이터 분석과 전략 인사이트
이번 절에서는 빅데이터가 계속 대두되고 있고 많은 투자가 이루어지지만 실제 기업에서 효과를 거두지 못하고 있고 빅데이터 회의론이 나오고 있는 원인과 진단에 대해 설명하고 전략 인사이트를 얻기 위한 분석의 중요함을 설명하고 있습니다. 즉, 제목에서 나와 있듯 전략적 통찰이 없는 분석이 회의론의 가장 큰 원인이며, 단순히 빅데이터에 포커스를 두고 분석 결과들만 잔뜩 쏟아내는 것이 중요한 것이 아니라 분석을 통해 가치를 만드는 것에 집중해야 한다는 점을 설명하고 있습니다.
1절의 예상 문제 주요 출제 포인트는 일차적인 분석과 전략도출 가치기반과 관련하여 잘못된 설명을 묻는 문항이 자주 출제되고 있으며 이를 구분할 수 있도록 이해하는 것이 중요합니다.
2절. 전략 인사이트 도출을 위한 필요 역량
2절에서는 1절에서 언급한 전략적 통찰이 있는 분석을 위한 필요 역량에 대해 설명하고 있습니다.
1. 데이터 사이언스의 의미와 역할
1) 데이터 사이언스의 의미
데이터 사이언스는 데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야입니다. 데이터 사이언스는 데이터를 통해 실제 현상을 이해하고 분석하며, 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 합니다. 또한 데이터의 구체적인 내용이 아닌 서로 다른 성질의 내용이나 형식의 데이터에 공통으로 존재하는 성질, 또는 그것들을 다루기 위한 기술의 개발에 착안점을 둔다는 특징을 가집니다. 사용되는 기술은 여러 분야에 걸쳐 있으며 수학, 통계학, 컴퓨터 과학, 정보공학, 패턴인식, 기계학습, 데이터마이닝, 데이터베이스 등과 관련이 있습니다. (위키백과 데이터 사이언스 정의 발췌)
2) 데이터 사이언티스트의 역할
데이터 사이언티스트는 방대한 양의 데이터에 다양한 분석 기법을 적용함으로써 가치 있는 인사이트를 찾아내고 제공합니다. 회사의 현재 상황을 정략적이고 과학적인 방법으로 분석할 뿐 아니라 머신러닝 등의 기법으로 미래의 상황을 예측하기도 합니다. 이를 통해 비즈니스의 성과를 좌우하는 핵심 이슈에 답을 하고, 사업의 성과를 견인해 나갈 수 있어야 합니다. 이는 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유이기도 합니다.
2. 데이터 사이언스의 구성요소
1) 데이터 사이언스의 영역
데이터 사이언스는 3가지 영역으로 나뉩니다.
A. 분석적 영역 : 수학, 확률모델, 머신러닝, 분석학, 패턴인식과 학습, 불확실성 모델링 등
B. 데이터 처리와 관련된 IT영역 : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
C. 비즈니스 컨설팅 영역 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
2) 데이터 사이언티스트의 역량
A. Hard Skill
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
B. Soft Skill
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
- 다분야간 협력 : 커뮤니케이션
3절. 빅데이터 그리고 데이터 사이언스의 미래
3절에서는 인문학과 데이터 사이언스에 대해 간략히 설명하고 있으며, 크게 출제되는 문제 유형이 없습니다. 마지막으로 빅데이터 상식에 대해 정리된 내용을 적으면서 마무리하겠습니다.
기타. 빅데이터 상식
1.DBMS란 무엇인가?
DBMS는 Data Base Management System의 약자로서 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어입니다.
데이터베이스를 구축하는 틀을 제공하며, 효율적인 데이터 검색, 저장, 기능 등을 제공합니다.
DBMS 예시)
1) MySQL - 오픈 소스 RDBMS였으며,년 이후 오라클에 인수되었습니다.
2) MariaDB - MySQL이 오라클에 인수 후 불확실한 라이선스 문제를 해결하려고 나온 오픈 소스 RDBMS
3) PostgreSQL - The PostgreSQL Global Development Group에서 개발하는 오픈 소스 ORDBMS.
4) Oracle - 미국 오라클(Oracle)사에서 판매하는 관계형 데이터베이스 관리 시스템이다.
은행 등 대다수의 대기업체에서 많이 사용된다
5) SQL Server - 마이크로소프트가 사이베이스(Sybase)를 기반으로 개발한 관계형 데이터베이스이다.
6) DB2 - IBM에서 만든 DBMS.
7) Access - 마이크로소프트 오피스에 포함된 데이터베이스 프로그램
8) SQLite - 클라이언트 응용 프로그램에 임베디드 되어 동작하는 DBMS 소프트웨어로서
퍼블릭 도메인 오픈 소스 소프트웨어이다.
2. 데이터베이스 관리시스템 종류
1) 관계형 DBMS : 데이터를 칼럼과 로우를 이루는 하나 이상의 테이블로 정리하며, 고유키가 각 로우를 식별합니다. 로우는 레코드나 튜플로 부르며, 일반적으로 각 테이블/관계는 하나의 엔티티타입을 대표합니다. 로우는 그 엔티티 종류의 인스턴스를 대표하며 칼럼은 그 인스턴스의 속성이 되는 값들을 대표합니다.
2) 객체지향 DBMS : 객체지향DB는 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게 정보를 “객체” 형태로 표현하는 데이터베이스 모델입니다.
3) 네트워크 DBMS : 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델입니다.
4) 계층형 DBMS : 트리 구조를 기반으로 하는 계층 데이터베이스 모델입니다.
3.SQL이란 무엇인가?
SQL은 Structured Query Language의 약자로, 데이터베이스를 사용할 때 데이터베이스에 접근할 수 있는 데이터 베이스의 하부 언어로, 단순한 질의 기능뿐만 아니라 완전한 데이터의 정의와 조작 기능을 갖추고 있습니다.
테이블 단위로 연산을 수행하며, 영어문장과 비슷한 구문으로 초보자들도 비교적 쉽게 사용할 수 있습니다.