빅데이터 분석 모델 종류 - bigdeiteo bunseog model jonglyu

728x90

/*
-- Title : 빅데이터 분석 유형 및 알고리즘 맵
-- Reference : BDMBA
*/


■ 빅데이터 분석 유형

빅데이터 분석 모델 종류 - bigdeiteo bunseog model jonglyu

ㅁ 묘사 분석(Descriptive Analytics)

  • 과거나 현재 어떤 일이 발생했는지 분석
  • 과거 비즈니스 활용하여 수행 결과이해, 추세발견, 성과 모니커링

ㅁ 진단 분석(Diagnosis Analytics)

  • 과거나 현재 발생한 사건의 원인 분석
  • 데이터간 관계 발견, 왜 특정 결과가 발생하는지 설명

ㅁ 예측 분석(Predictive analytics)

  • 미래 어떤 일이 발생할 것인지 분석
  • 미래 상황에 대해 예측, 알려지지 안은 결과 가능성 파악

ㅁ 처방 분석(Prescriptive Analytics)

  • 앞으로 무엇을 해야 비즈니스에 도움이 되는지 분석
  • 제한된 자원을 효율적으로 할당하여 최상의 대안 찾기


 빅데이터 분석 Layer

빅데이터 분석 모델 종류 - bigdeiteo bunseog model jonglyu


Application Layer
고객 이탈 위험요인 증가 → 고객 이탈예측

Tasks  Layer
테이터 및 변수 특성 파악 → 분류분석으로 이탈 판별

Models Layer
의사결정나무, 랜덤 포레스트, Neural Network 등
모델 검토 → 최종 모형 검토

Algorithms Layer
최종 모델에 맞는 알고리즘 결정

 


 빅데이터 분석 기법

빅데이터 분석 모델 종류 - bigdeiteo bunseog model jonglyu


#알고리즘 #알고리즘 선택 #알고리즘맵 #알고리즘 맵 #알고리즘 유형

dbrang.tistory.com/1369, dbrang.tistory.com/1238

빅데이터 분석 기법_20201121.xlsx

0.01MB


■ Citizen Data Scientist(시민 데이터 과학자)

In 2016, Gartner theorized the Citizen Data Scientist concept and defined it as a business user capable of combining his or her expertise with the principles of Data Science, without a deep knowledge in mathematics or statistics.

2016년 가트너는 Citizen Data Scientist개념을 정의함. 
수학 또는 통계에 대한 깊은 지식 없이 자신의 전문 지식에 데이터 과학을 원리를 적용할 수 있는 비즈니스 사용자.

Cizizen Data Scientist는 현업 업무를 이해하고 스스로 빅데이터 분석 사업 기획과 데이터 분석을 할 수 있는 역량을 갖춘 분석가로서 빅데이터 분석과  AI의 민주화를 주도함.

빅데이터 분석 모델 종류 - bigdeiteo bunseog model jonglyu



https://dbrang.tistory.com/1528?category=941905

 

Citizen Data Scientist (시민 데이터 과학자)

/* -- Title : Citizen Data Scientist (시민 데이터 과학자) -- Reference : google */ ■ 시민 데이터 과학자 (Citizen Data Scientist) In 2016, Gartner theorized the Citizen Data Scientist concep..

※ 운영시스템 적용 방안

1. 분석 알고리즘의 이해

1) 알고리즘: 문제를 해결하는 절차들을 명령어로 정리한 집합

2) 기계학습 알고리즘 종류

분류- Bayesian: 분류하고자 하는 대상의 확률을 측정하여 확률이 큰 확률 쪽으로 판단
- Decision Tree: 의사결정나무, 어떤 항목값에 대해 관측값과 목표값을 연결시켜주는 예측 모델, 예측 모델링 방법 중 하나
- Logistic Regression: 종속변수가 유효한 범주의 개수가 2개인 경우 사용(ex: 성공 or 실패)
- SVM: 패턴 인식, 자료 분석을 위한 지도학습 모델, 분류와 회귀 목적으로 사용회귀- Linear Regression: 시간에 따라 변화하는 데이터나 혹은 어떤 영향, 가설적 실험, 인과 관계 모델링 등의 통계적 예측에 사용(ex: 부모와 자녀의 키 사이에 있는 선형적 관계 예측)
- Robust Regression: 데이터가 다른 값들에 비해 지나치게 크거나 작을 때 사용하는 회귀분석
- Neural Network: 규칙 기반 프로그래밍으로 풀기 어려운 컴퓨터 비전, 음성 인식 등에 사용되는 분석군집- Hierarchical: 계층적 트리 모델을 사용하여 개별 개체들을 순차적, 계층적으로 유사한 개체 내지 그룹으로 통합하여 군집화
- K-Means: 군집화와 달리 군집수를 사전에 정하지 않아도 수행할 수 있는 기법연상- APriori: 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간에 연관 관계를 파악하기 위한 방법구분주요 내용업리프트 모델링- 마케팅 캠페인에서 사용
- 실제로는 추정 모델을 단계별로 적용하는 것을 의미
- A/B테스트와 같이 환경이나조건을 달리한 후, 적당한 그룹을 선택하여 예측성을 높이는 방법
- 마케팅이나 신용 관리, 가격 선택, 고객 이탈 관리 등 다양한 분야에서 사용회귀 분석- 예측, 분류에 사용군집 분석- 독립변수들만의 분류, 그룹화, 프로파일링에 주로 사용
- 개인화 서비스앙상블 기법- 여러 개의 예측 모델을 만든 후 결합하여 하나의 최종 예측 모델을 만들어 사용하는 결합 분석
- 주로 예측력을 높이기 위해 사용주성분 분석- 차원을 축소하여 변수를 단순화 시키는데 의미가 있음
- 원인 분석 또는 변수 선정 등 지수 개발에 사용소셜 네트워크 분석- 관계망 분석
- 테러리스트 연결고리 분석과 통신사에서 고객 이탈 분석 시 주로 사용시계열/순열 분석- 이자율, 예산, 수요 등을 예측하기 위해 사용
- 주로 경제나 행정 예산 책정에 사용이상치 감지 기법- 이상치에 대해 분석을 하며 사기 감지나 품질 관리에 사용텍스트마이닝- 문자 그대로, 텍스트를 나눠 분석하는 비정형 분석 기법 중 하나
- 시대 경향이나 감성 분석, 군중 심리나 트렌드 파악에 주로 사용

2. 분석 모형 개발 절차

1) 분석 모형 개발 절차

요건 정의- 이탈 문제 및 이탈 요건 정의
- 데이터 리뷰 및 필요 데이터 선정
- 데이터 수집, 정리 및 도식화데이터 전처리- 데이터 정제 및 적시성에 민감한 데이터 정의
- 기초적인 통계 분석 실시(특성 파악)
- 종속(목표) 변수 선정 및 표본 추출모델 개발 및 검증- 모형 개발 및 비교 검증
  (ROC 곡선 및 컨퓨전 매트릭스 등 검증 방법 이용)적용- 운영 시스템 및 현업에 적용
- 시적용 및 실제 사용 후 문제점 발견 시 유지 보수

2) 주요 고려 사항

* 정확도(예측력)

* 실행속도

* 모델의 설명력(변수 간 인과관계)

* 간결성

  => 정확도와 나머지 요소들이 상충

  => 분석이 사용되는 업종이나 현업의 특성에 맞춰 적용

3. 검증 완료 모델 운영시스템 적용

1) 운영시스템: 계획, 관리, 운영을 위한 전반적인 시스템

- 예: 물류 운영 시스템, 조직 관리/운영 시스템, 고객 관리 시스템, 전력계통 운영시스템

* 적용 방식

  - 경영이나 운영의 측면에서, 필요에 의해 유지/보수

  - 프로젝트나 캠페인 시행 시 업무에 필요한 데이터를 추출하는 방식

  - 분석 결과를 보기 위해 모형을 구축하여 시스템에 입력하는 방식

* 관리

  - 자동화

  - 절차의 합리화

  - 비즈니스 프로세스 재설계

  - 패러다임 변화

2) 모델 적용

* 시스템 개발 방법

  - 시스템 생명 주기: 소프트웨어나 시스템의 개념 형성에서부터 사용 정지에 이르기까지 발전상의 변화의 전 과정

  - 프로토타이핑: 소프트웨어 시스템이나 컴퓨터 하드웨어 시스템을 본격적으로 생산하기 전에 그 타당성의 검증이나 성능 평가를 위해 미리 시험 삼아 만들어 보는 모형제작 방법, 개발자들과 사용자들의 의사소통상의 효과 증진

  - 엔드-유저 개발(최초 사용자 개발): 구축된 시스템을 사용해서 실제로 처리를 실시하는 사용자, 최초 사용자가 문제점을 인식하고 보완하여 개발하는 방법

3) 빅데이터 분석 모델을 위한 모델링 언어

* UML

  - Unified Modeling Language

  - 요구 분석, 시스템 설계, 시스템 구현 등의 시스템 개발 과정에서, 개발자 간의 의사소통을 원활하게 이루어지게 하기 위하여 표준화한 모델링 언어

  - 객체 지향 기술을 사용해 시스템을 설계할 때에 이용하는 그림과 그 목적 기법을 정한 것

  - 의사 소통의 불일치 해소

  - 논리적인 표기법을 가진 언어

  - 생략되거나 불일치되는 모델링 구조에 대한 지적 용이

  - 개발하려는 시스템 규모에 상관없이 사용 가능

* SQL

  - Structured Query Language, 구조화 질의 언어

  - 데이터베이스를 사용할 때, 데이터베이스에 접근할 수 있는 하부 언어

  - 데이터 정의 기능 및 조작 기능

  - 장치 독립적이고 액세스 경로에 대해서 어떠한 참조도 없음

  - 레코드의 집합인 테이블을 단위로 연산을 수행


※ 빅데이터 모델 생명주기

1. 생명주기&시스템 생명주기

* 생명주기

  - 하나의 기술이나 제품이 세상에 발표된 때부터 더 이상 사용하지 않게 되거나 시장에 나타나지 않을 때까지의 기간

  - 수명 또는 생존 기간과 거의 같은 뜻으로 사용

* 시스템 생명주기: 소프트웨어나 시스템의 개념 형성에서부터 사용 정지에 이르기까지 발전상의 변화의 전 과정

2. 정보시스템 생명주기

1) 정의: 시스템 및 인프라의 개발/획득, 실험, 실행, 유지 및 폐기를 위한 업무가 조직의 목표에 부합하는 것을 목적으로 하는 정보시트템 발전상 변화의 전 과정

2) 5단계

시스템 개발 생명주기산출물1단계시스템 조사실현가능성 조사2단계시스템 분석기능 요구사항3단계시스템 설계시스템 명세서4단계시스템 구현작동하는 시스템5단계시스템 유지보수개선된 시스템

3) 문제점

- 완료 단계에서 품질 문제: 속성 응용 개발 모델과 프로토타이핑 모델에서 사용자 참여가 필요, 다른 개발 모델에서는 사용자 참여가 미흡하여 완료단계에서 품질 문제가 발생할 수 있음