데이터 분석 프로젝트 예시 - deiteo bunseog peulojegteu yesi

팀 프로젝트의 목표

1. 배운 기술 모두 활용

목차 Show

팀 프로젝트의 목표
팀 프로젝트 주제
데이터 관리
회의 결과
데이터셋

2. 마감시간에 촉박하지 않게 효율적, 가성비 있게 진행

3. 컴팩트하게!

4. 포트폴리오로 썼을 때 기업에서 솔깃해 할 만한 주제 선정

기업이 알고는 있는데 안해본거 : 데이터는 있지만 결과물이 없는 경우

팀 프로젝트 주제

크롤링을 사용해서 주제를 선정하고 공공데이터를 이용하자

주제부터 정하지 말고 데이터셋과 칼럼을 확인해보고 주제 정하기

1. 어린이집 공기질 분석을 통한 공기청정기 효율 분석

2. 교통상황에 따른 휴게소 입지 선정

3. 티머니 정보를 이용한 인구 유동 확인을 통해 광고 입지 선정 or 상가 입점 선정

4. 특허 데이터 이용 미래 기술 예측 or 마케팅 예측

5. 공공데이터 주제를 가지고 특허랑 연결시켜 현실적 상황 매칭(?)

6. 과거 데이터를 가지고 현재의 데이터를 예측할 수 있는가, 가능한 경우 현재의 데이터를 가지고 미래의 데이터를 예측하여 특허를 준비해보는 것은 어떤가 - 연관관계를 잘 보고 선정해야함

+ 추가) [빅데이터 프로젝트] - 내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)

내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트

이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트

magicode.tistory.com

데이터 관리

> 데이터 수집

크롤링, 공공데이터 다운

공공데이터포털 : https://www.data.go.kr/

국가통계포털 : https://kosis.kr/statisticsList/statisticsListIndex.do?parentId=I2.1&vwcd=MT_ZTITLE&menuId=M_01_01

서울 열린데이터 광장 : https://data.seoul.go.kr/

> 데이터 정제

결측데이터, 이상데이터 정리 및 주제에 맞는 쓸 수 있는 데이터

회의 결과

주제

올리브영과 다이소 위치 상관분석을 통한 시각화 및 상점 입지 선정 : 망...

갈아 엎음...

특허관련

데이터셋

소상공인시장진흥공단 _ 상가(상권)정보

공공데이터 개방문의 1566-0025

운영자 메일상담

뉴스레터 신청

이메일주소

수신동의

* 수신 미동의 시 뉴스레터 신청 서비스에 제한이 있습니다.

청

이용약관
개인정보처리방침
공공데이터포털 소개
분쟁조정신청

개인정보분야별책임자 : 하인호

(30116) 세종특별자치시 한누리대로 411(어진동, 행정안전부 별관)

대표번호 : 1566-0025

문의시간 : 09:00~18:00 (월~금)

1. 데이터 이해

정형/비정형, 데베, 빅데이터, 데이터사이언티스트 역량, 개인정보 비식별 기술 이렇게만 보면 될 듯

2. 분석 기획, 분석 방법론, 분석과제 발굴 방법론, 마스터 플랜형 분석(장기전을 의미함)

1) 분석 방법론

CRISP-DM 분석 방법론을 비롯한 몇몇 방법론 적혀있음. CRISP-DM 분석 방법론은 이미 정리해둔 내용이 있고, 학교 수업 및 교과서에도 나오는 방법론이니 간단하게 내용을 정리하고 간다.

[CRISP-DM]

https://medium.com/@thecodingcookie/cross-industry-process-for-data-mining-286c407132d0

(1) 비즈니스 이해

해결할 문제 파악/이해 -->문제 정의, 해결책 정의

적절한 해결책 공식이 나올 때까지 이 과정을 반복한다.

해결책 설계 작업에서 분류/회귀분석, 확률 추정 등의 모델을 이용해 우리가 해결할 수 있는 더 작은 문제로 분할하는 구조화 작업을 수행하기도 한다.

여기서 사용 시나리오에 대해 신중히 생각한다 (결정 분석적 사고)

- 우리가 하려는 일이 정확히 무엇?

- 정확히 어떻게 할 것인가?

- 사용 시나리오 중 어느 부분이 데이터 마이닝 모델을 이루는가?

...를 따지며 사용 시나리오에 대해 생각해보는 동안 실제 목적에 부합하도록 시나리오를 수정할 필요를 느끼며, 여기서 문제 접근을 도와주는 개념적 도구를 사용하기도 하는데, 예를 들어 기댓값 관점에서 비즈니스 문제를 구조화하면 체계적으로 처리할 문제를 데이터 마이닝 작업으로 분할할 수 있다.

(2) 데이터 이해

문제에 정확히 부합하는 데이터가 있는 경우는 거의 없으므로 여러 데이터의 장단점을 파악하고 비교하는 것이 중요하다.

(3) 데이터 준비

분석 기술에서 요구하는 특정 조건을 만족해야 한다. 간혹 가져온 데이터는 분석 기술에서 원하는 형식과 일치하지 않기 때문에 변환해야 하는 경우가 있다. 데이터 형태 조작, 변환.

일반적으로 데이터를 테이블 형태로 변환하고 빠진 값은 유추해서 채우며, 적절한 형으로 변환한다. 수치 데이터를 비교하려면 졍규화, 변환 시 표준 규칙 이용.

일반적으로 마이닝 프로세스 앞 단계에서 후반부에 사용될 변수를 정의하느라 많은 시간을 보내는데, 이 단계에서 인간의 창의성, 상식, 비즈니스에 대한 이해가 매우 중요하다. 데이터 마이닝 해결책의 품질은 분석가가 얼마나 문제를 구조화하고 변수를 정의하는지에 따라 차이가 난다.

(4) 모델링

마이닝을 데이터에 적용하는 초기 단계다. 모델링 결과로 데이터에서 드러난 규칙에 의해 모델의 종류나 패턴이 만들어진다.

(5) 평가

마이닝 결과를 엄격히 평가하고 다음 단계로 넘어가도 되는지 모델의 신뢰성을 확인하는 단계. 어떤 데이터셋이든 자세히 살펴보면 패턴을 알아낼 순 있지만, 신중히 평가해보면 패턴의 오류를 찾아낼 수 있다. 이 단계에선 모델과 데이터에서 추출한 패턴이 진정한 규칙성을 갖고 있는지, 단지 특정 예제 데이터에서만 볼 수 있는 특이한 성질은 아닌지를 확인해야 한다.

+ 원래 비즈니스 목적에 부합하는지 확인

2) 분석과제 발굴 방법론: 상향식, 하향식

말은 간단하지만 구체적인 내용은 읽어볼 가치가 있어보임. 마스터 플랜은 지금 하려는게 아닐 것 같으니 패스.

3. 분석 기법 종류

시각화, 공간 분석, 탐색적 자료 분석, 통계분석, 데이터 마이닝 이건 다 읽어보기

위 1번~3번에 해당하는 내용은 wikidocs에 정리된 아래 사이트에서 읽어볼 항목을 정리한 것이다. 따라서 본 내용은 아래 링크에 있다. 예쁘고 이해하기 쉽게 된 포스트가 아니고 큰 그림을 보기 좋은 간명한 자료다.
https://wikidocs.net/book/3558

분석 기법 및 분석 방법론에 대한 내용은 장미라 님의 블로그의 아래 글을 추가로 공부하는 것도 좋다.

<대표적인 데이터 분석 테크닉 30가지 (1/2)>

http://www.dodomira.com/2016/08/19/frequently_used_analyitic_method/

<데이터 분석의 유형 6가지 – 목적에 따라 달라지는 분석 방법>

http://www.dodomira.com/2016/01/12/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EC%9D%98-%EC%9C%A0%ED%98%95/

특히 필자가 관심 있어 하는 네트워크 분석 기법에 대한 포스트는 아래 링크 내용이 좋다. NC 소프트 게임 데이터 분석 블로그의 포스트다.

<네트워크 분석기법을 활용한 게임 데이터 분석 #1, #2>

https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-1.html

https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-2.html

그 외 본인이 관심 가거나 필요한 분석 기법이 있으면 포스트가 됐건 서적이 됐건 자료를 더 찾아서 공부하면 좋을 것 같다.

4. 관련 오픈소스(대중적으로 널리 알려진 + 많이 쓰는 초유명 라이브러리 제외)

이걸 정리하자면 뭐 끝도 없을 것이다. 여기서 내용을 기재한 기준은 이 데이터 분석 캡스톤 디자인을 시작하게 된 시점 이후에 발견한 것이자 필자에게 생소한 라이브러리다.

- data-driven document: d3.js

https://d3js.org/

5. 변성윤 쏘카 데이터사이언티스트님 깃허브 자료

워낙 유명하신 분.

https://github.com/Team-Neighborhood/I-want-to-study-Data-Science

위 링크에서 각종 data, 관련 블로그 자료가 도움이 된다.

또 유명하신 다른 분은 하조은 님. 캐글에서 활발히 활동하시는 분이라고 한다. 아래는 깃허브 링크. 데이터 분석 프로젝트로 참고할 수 있는 자료가 많다. 책을 쓰신 적이 있거나 강의라도 찍으신 적이 있는 건가...?

https://github.com/corazzon

⭐️6. 데이터 분석 포트폴리오!

사실 데이터 분석 포트폴리오를 봐야 데이터 관련 토이/사이드 프로젝트는 어떻게 진행하는지 이해하기가 좋다.

[사이트]

Flowing data 사이트

https://flowingdata.com/

안수빈 님이 운영하시는 페이스북 페이지 A.I. LookBook에서 발견한 사이트. 본인의 롤모델 사이트라고 하셨다. 짧은 글로 인사이트를 제시하는 형태의 글들이라 구체적인 코드를 알 수 있는 건 아니다.

[예시- 읽어본 것]

도움이 많이 됐던 프로젝트 순으로 나열

- 온라인 뉴스 댓글은 정말 사람들의 목소리일까? - PART2 (파트 1은 18년도에 있었던 것 같다): 아이디어 전개 과정이 기가 막히다.

https://www.pycon.kr/program/talk-detail?id=39

- 국힙 래퍼 네트워크 분석: 온통 네트워크 분석 기법. 내가 지금 하고 싶은 것과 가장 유사함

https://www.slideshare.net/frhyme/ss-181949660/23

- Quantify myself - self 사생활침해

바로 위 국힙 플젝을 했던 사람이 한 파이콘 발표다. 역시 여기도 네트워크 분석이 들어가지만, 그보단 좀더 다양한 방법이 포함되어 있다.

https://archive.pycon.kr/2018/program/25

- 법률 네트워크 분석: 30년간의 변화: 독보적인 도메인에 수준 있는 분석.

https://archive.pycon.kr/2018/program/21

동일 발표자가 2019 파이콘에서 발푤한 자료는 아래 링크.

https://www.pycon.kr/program/talk-detail?id=75

- 파이썬을 활용한 나의 브런치 구독자 분석: 여기도 네트워크 분석 들어감. 딱 가벼운 주제의 토이 플젝으로 볼수 있음.

https://drive.google.com/file/d/0BzXf4sedgwRbV0w4dUFVVExKVGp0elBMbU9CZEhoWXJWWmpZ/view

[예시- 안읽어본 것]

- 파이썬으로 학생 들여다보기

https://archive.pycon.kr/2018/program/32

- 파이썬으로 암을 찾아보자: 데이터로 만드는 의학 이야기

https://archive.pycon.kr/2018/program/84

- Topic Modeling & Word Embedding 그리고 화장품

https://archive.pycon.kr/2018/program/5

- 일반적인 케이스까지 포함한 파이썬을 이용한 의료 물리학 모델링 및 분석의 이해

https://archive.pycon.kr/2018/program/52

- 드론 및 인공위성 영상을 이용한 태양광발전소 입지분석

https://archive.pycon.kr/2018/program/6

- 행복한 연애를 위해 필요한 3가지 조건: 회귀 분석 밭이다.

http://www.dodomira.com/2016/02/07/142/#more-142

- <데이터야 놀자> 2019 발표 세션 자료

- 공공 데이터 포털의 공공 데이터 활용 사례: 너무 자료가 많다.

https://www.data.go.kr/useCase/exam/index.do

[블록체인 주제 대비]

- Parsing Ethereum Database: 지윤님~! 아래 데브 그라운드 사이트로 가면 발표 영상도 찾을 수 있을 듯

https://drive.google.com/file/d/1nozsiF5SWq4m7Js5R_I3wDLQTWV8WcjJ/view

- Elasticsearch와 Python을 이용하여 맨땅에서 데이터 분석하기: 정말 가벼운 주제의 블록체인 데이터 분석 주제

https://drive.google.com/file/d/1QShZENskb1c5PwxcqklnxdtbtrFXze8A/view

[기타]

- financipe: 설대 산공 분의 리스펙 토이 플젝. 데이터 분석 유명 기법 다 들어간 금융 데이터 플젝. 옛날부터 리스펙하는 플젝

http://www.financipe.com/index

[세션 링크 모음]

*파이콘 2019 발표 세션

https://www.pycon.kr/program/talks

* 데브 그라운드 데이터 과학/AI 2019 <- DSTS 처럼 지금 당장 나한테 도움되는 주제는 없었음.

http://52.78.123.153/home_elementor/#

* Data Science is a Team Sports 발표 세션 자료: 데이터 사이언스 팀 문화에 대한 세션이었기 때문에 유용한 자료 없음

아래는 <비즈니스와 데이터 과학> 읽으면서 메모한 비가공 데이터. 후에 본문으로 포함시킬 것

[기타 데이터 과학 작업 기법]

1) 동시 발생과 연관성의 발견(페이스북 좋아요 분석, 거래 데이터, 장바구니 분석 등)

어떤 목적 없이 그저 데이터를 탐색하고자 할 떈 연관성 마이닝이 더 적절한 방법=자율 데이터 마이닝

반면 구체적인 타겟 변수를 알아내려면 감독 문제를 정의하여 감독 데이터 마이닝 즉 감독 세분화 기법을 이용.

페이스북 좋아요는 모든 데이터끼리 서로 무슨 방법인지 하튼 해봐서 연관성을 분석한다. 연관도 점수 기준이 있어서 그 기준을 넘은 것들만 쫙 보여준다. 연관성을 마이닝하는 목적 중 하나가 우리가 잘 모르는 데이터를 탐색하기 위한 것이다.

예를 들어, 회사 고객의 거래 데이터를 탐색하고 강력한 동시 발생 사건들을 조사하면 고객들이 가진 취향 간의 관계를 전체적으로 살펴볼 수 있다. 이걸 염두에 두고 '좋아요' 동시 발생 분석 시, 많은 사람들이 각각 어떤 것을 좋아한다는 사실(이런 관계가 엄청나게 많이 있을 것이다)은 고객들의 다양한 취향과 연관되어 폭넓게 보여줄 것이다.

연관 데이터 마이닝은 당연히 자율 기법이다.

2) 프로파일링: 전형적인 행동의 발견

개인, 단체, 전체 인구의 전형적 행동 특성을 찾아낸다.

ex)

- 이 고객 세그먼트의 전형적 신용카드 사용량은?

- 신용 사기 탐지: 정상적 행위의 특성을 프로파일링하고, 정상적 행동에서 상당히 벗어나는 사례 찾음. 특히 이전에 본 사기 사건과 비슷한 방식의 사례 찾음

이 때 카드 사용량을 프로파일링해서 사기를 찾아내려면 주중/주말의 평균 사용량, 해외 사용량, 판매자와 구입 상품 종류, 의심되는 판매자로부터의 청구 등 복잡한 설명이 요구된다. 행동은 전체 인구, 소규모 그룹, 개인 차원에서 설명할 수 있다.

[주제 예시]

- 카드 사기 탐지

- 스팸 문자 찾아내기

- 미국 의료보험 사기 사건: 사기 탐지 문제랑 다르다. 비즈니스 문제와 데이터 간 관계를 생각해보면 전혀 다른 문제다. 사기꾼이 청구 시스템의 정당한 제공자이거나 사용자고, 올바른 금액이 정확히 얼마가 되어야 하는지 계산해줄 객관적인 별도의 기관이 존재하지 않는다. 청구 데이터에 사기인지 판단할 수 있는 타겟 변수가 없을 뿐만 아니라, 신용카드에서 사용하는 감독 학습 방법을 사용할 수도 없다. 이런 문제는 프로파일링, 군집화, 비정상 행위 탐지, 동시 발생 그룹화와 같은 자율 학습 방법을 사용해야 한다.