1. 빅데이터와 비즈니스 인텔리전스 기반구조
가. 빅데이터(big data)
1) 빅데이터의 특성
- Volume: 초대용량의 데이터, Exponential Increasing
- Variety: 다양한 형태, Structured data와 비정형 data
- Velocity: Near real time
- Value: Predict와 Optimize
2) 빅데이터의 등장배경
데이터 규모 | EB(Exa Byte) : 90년대 말 = 100EB |
ZB(Zetta Byte) 진입 : 2011년 = 1.8ZB |
ZB 본격화 시대 : 2020년 – 2011년 대비 50배 증가 |
데이터 유형 | 정형 데이터 : 데이터베이스, 사무정보 |
비정형 데이터 : 이메일, 멀티미디어, SNS |
사물정보, 인지정보 : RFID, Sensor, 사물통신 |
데이터 특성 | 구조화 | 다양성, 복합성, 소셜 | 현실성, 실시간성 |
전세계 정보량 증가 추이
[2011년]
전세계 디지털 정보량은 약 1.8ZB
※1.8ZB = 1.8조 GB
- 2000억 개 이상의 고화질(HD)영화를 4700만년 동안 시청할 수 있는 정보의 정보량
[2020년]
2020년에 관리해야 할 정보의 양은 50배 이상 증가(DC & EMC, ‘Digital Universe Study 2011’)
3) 빅데이터에 대한 5가지 미신
(1) 빅데이터 분석에서 가장 중요한 것은 데이터 규모이다.
→ 다양성과 속도가 더 중요
(2) 빅데이터는 SNS 데이터이고, 기업전략과 의사결정에 중요한 분석기회를 제공한다.
→ 기업 내부데이터가 더 많고 더 중요하다.
(3) 빅데이터 분석기법을 적용하면 획기적인 성과를 거둘 수 있다.
→ 분석 자체만으로는 성과를 낼 수 없고, 데이터에 근거한 의사결정 문화와 분석이 내재된 프로세스가 있어야 성과를 낼 수 있다.
(4) 빅데이터 분석은 데이터과학자 같은 전문가들의 업무이다.
→ 데이터 분석은 모든 임직원들의 기본 업무이다.
- 분석요건이 정해지지 않으면, 분석을 수행할 수 없다.
→ 분석을 하면서, 결과를 보고 새로운 질문들이 만들어 간다.
나. 비즈니스 인텔리전스란?
- 비즈니스 인텔리젼스란 결정을 내리고 행동에 옮기기 위해 데이터, 통계분석과 계량분석, 설명 모델과 예측모델, 사실에 바탕을 둔 경영관리 등을 폭넓게 활용하는 것
다. 비즈니스 인텔리전스 기반구조
= 오늘날의 기반구조에는 각각의 시스템들을 위한 다수의 도구들과 빅데이터가 포함됨
1) 데이터웨어하우스(data warehouse)
(1) 다수의 핵심적인 거래처리시스템들로부터 현재 및 과거 데이터들을 저장함
(2) 전사적인 사용을 위해 정보를 통합하고 표준화하지만, 변경은 할 수 없음
(3) 분석 및 리포팅 도구들을 제공함
2) 데이터마트(data mart)
(1) 데이터웨어하우스의 일부분
(2) 특정 사용자 집단이 사용할 수 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분
(3) 초점은 일반적으로 단일 주제 영역이나 업무 영역에 맞춤
3) 하둡(Hadoop)
(1) 저렴한 컴퓨터들에 걸쳐 있는 방대한 양의 데이터들을 분산병행처리 방식으로 다룰 수 있게 해줌
(2) 핵심 서비스
(3) 하둡 분산 파일 시스템(Hadoop Distributed File System: HDFS): 데이터 저장소
(4) 맵리듀스(MapReduce): 데이터들을 처리 작업 그룹들로 분할함
(5) Hbase: NoSQL 데이터베이스
(6) Facebook, Yahoo, NextBio 등이 사용하고 있음
4) 인메모리 컴퓨팅(in-memory computing)
(1) 빅데이터 분석에 사용됨
(2) 컴퓨터의 주기억장치(RAM)를 데이터 저장소로 사용함으로써 디스크로부터 데이터를 불러오는 데 걸리는 시간소모를 없앰
(3) 시간/날 수준의 처리 시간을 초 수준으로 줄일 수 있음
(4) 최적화된 하드웨어 필요
5) 애널리틱 플랫폼(analytic platform)
대용량 데이터세트에 최적화된 관계형 및 비관계형 도구들을 사용하는 초고속 플랫폼
2. 데이터 분석 도구
= 비즈니스 의사결정을 더 잘 할 수 있도록 대용량의 데이터를 통합하고 분석하는 도구
가. 온라인분석처리(OnLine Analytical Processing: OLAP)
- 다차원(multidimensional) 데이터 분석 지원
- 여러 개의 기준을 이용하여 데이터를 다차원 데이터를 보여줌
- 각각의 차원은 정보에 대한 각 측면(제품, 가격, 비용, 지역, 또는 기간)을 의미함
예: 6월에 동부 지역에서 다른 지역에 비해 얼마나 많은 고리쇠들이 팔렸는가?
- OLAP은 특별한 질문들에 대해 온라인 상에서 빠른 답변을 얻을 수 있도록 해줌
나. 데이터마이닝(data mining)
- 데이터세트에서 숨겨진 패턴과 관계들을 찾아냄
예: 고객들의 구매 패턴
- 미래의 행위를 예측하기 위한 규칙들을 추론함
- 데이터마이닝으로부터 얻을 수 있는 정보들의 유형: 연관(association), 순차(sequence), 분류(classification), 군집화(clustering), 예측(forecasting)
다. 텍스트마이닝(text mining)
= 대용량의 비구조적 데이터세트로부터 중요한 요소들을 추출함
- 이메일에 저장된 내용
- 콜센터 상담 녹취록
- 고소장
- 특허 기술(descriptions)
- 서비스 리포트 등등
- 감정 분석(sentiment analysis) 소프트웨어
- 이메일, 블로그, 소셜 미디어를 분석하여 의견들을 파악함
라. 웹마이닝(web mining)
- 웹으로부터 유용한 패턴과 정보들을 발견해내고 분석하는 것
- 고객 행위 이해
- 웹사이트의 성과 평가 등등
- 웹콘텐츠마이닝(web content mining)
- 웹 페이지들의 콘텐츠들을 분석함
- 웹구조마이닝(web structure mining)
- 웹 페이지와 관련된 도착 및 출발 링크들을 분석함
- 웹사용마이닝(web usage mining)
- 웹 서버에 기록된 사용자 상호작용 데이터들을 분석함
3. 데이터 자원관리
가. 정보 정책 수립
- 데이터의 공유, 관리, 표준화를 위한 기업의 규칙, 절차, 역할
- 데이터관리(data administration) : 데이터 관리를 위한 정책 및 절차들을 수립함
- 데이터 거버넌스(data governance) : 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책 및 프로세스들을 특히 정부 법규와 관련하여 다룸
- 데이터베이스 관리(database administration) : 데이터베이스를 생성하고 유지관리함
나. 데이터 품질 보증
= 포춘 1,000대 기업의 데이터베이스의 중요 데이터 중 25% 이상이 부정확하거나 불완전함
- 중복 데이터
- 불일치 데이터
- 입력오류 데이터
= 새로운 데이터베이스를 구축하기 전에 다음과 같은 것들을 수행해야 함
- 잘못된 데이터를 식별하고 수정함
- 데이터베이스가 운영된 후에는 더 나은 데이터 수정 절차를 구축함
다. 데이터 품질 감사(data quality audit)
- 정보시스템의 데이터에 대한 정확성과 완전성 수준에 대한 구조화된 조사
- 데이터 파일에 대한 조사
- 데이터 품질에 대한 최종사용자 조사
라. 데이터 정제(data cleansing)
- 부정확하거나 불완전하거나 중복되었거나 포맷이 부적절한 데이터들을 조사하고 수정
- 여러 정보시스템들 간의 불일치 데이터들에 대한 일치성 강화
'경영학 > 경영정보시스템' 카테고리의 다른 글
[경영정보시스템] 14. 전사적 애플리케이션 (0) | 2021.09.19 |
---|---|
[경영정보시스템] 13. 정보시스템 보안 (0) | 2021.09.19 |
[경영정보시스템] 11. 데이터베이스 관리시스 (0) | 2021.09.19 |
[경영정보시스템] 10. 하드웨어 및 소프트웨어 플랫폼 (0) | 2021.09.19 |
[경영정보시스템] 9. IT 기반구조 (0) | 2021.09.19 |