Show
데이터 사이언스 공부법 정리I want to study Data Science*이번 글은 저자의 공부계획이므로 설명보다는 정리에 초점을 맞춘 글입니다. 데이터 분야의 직군데이터 분석가의사결정을 위해 가설 및 KPI를 수립하고 그 가설을 데이터로 검증(=분석), 다른 부서에서 요청하는 데이터를 추출해 공유 채용 공고에 자주 나오는 자격 요건
데이터 엔지니어앱 또는 웹에서 발생하는 데이터들을 파이프라인을 통해 저장소에 저장, 대용량 데이터를 수집하고 관리 채용 공고에 자주 나오는 자격 요건
데이터 사이언티스트머신러닝 엔지니어처럼 속한 도메인의 목적에 맞는 모델 생성 및 모델의 정확도를 개선해 고도화하는 업무. 머신러닝 엔지니어는 Production을 신경쓰는 반면 데이터 사이언티스트는 연구 개발에 집중, 데이터 분석가들이 진행하는 데이터 분석을 수행하며 통계적 모델링 주요 업무
필요 역량
정리데이터분석가는 데이터를 가져와 보기좋게 가공하는 역할을 하며 데이터엔지니어는 데이터를 만들고 저장하는 역할을 하며 데이터사이언티스트는 데이터를 이용해 모델을 만드는 역할을 한다. 사실 데이터로 모델을 만들기 위해서는 일단 데이터가 존재해야하므로 결국 데이터사이언티스트는 데이터엔지니어의 일도 할 수 있어야 하며, 자신이 만든 모델을 설명할 수 있어야하니 데이터분석가의 일도 할 수 있어야 한다. 정리하자면 데이터사이언티스트가 되기위해서는 모든 일을 할 줄 알아야 한다. 물론 모든 것을 잘할 필요는 없다. 데이터사이언티스트는 모델 설계와 개선에 집중만 하면된다. 다만 데이터 파이프라인을 구축하는 대략적인 방법을 알고 구축할 줄 알아야하며 데이터를 추출할 줄도 알아야 하는 것이다. 그러면 어떻게 공부해야하는가?일단 데이터사이언스의 핵심이 되는 머신러닝과 딥러닝의 기초를 익히자. 그리고 캐글에 참여하며 데이터가 주어진 상황에서 머신러닝 프로젝트를 진행해보자. 이를통해 모델을 구현하고 개선하는 방법을 점차 배우자. 이와 병행하여 새로 나오는 논문을 읽으며 연구 트렌드와 기반 지식을 익혀 자신의 프로젝트에 도입하거나 오픈소스로 코드를 짜서 올리도록하자. 이후 캐글에 익숙해지면 데이터가 주어지지 않은 상태에서 데이터를 구하기 위한 데이터파이프라인 구축부터 차근차근 익혀서 데이터 모델 생성의 전체 과정을 따라가고 익히자. 공부해야할 것
공부하는 방법기초 공부
세부 분야 탐색분야를 나누는 기준은 무엇인가 / 무엇에 초점을 맞추고 있는가 / 핵심 이론은 어떻게 다르게 적용하는가
논문 읽고 정리 (논문으로 짚어보는 딥러닝의 맥 -강의 수강 후 방향성 설정)
개인 프로젝트 진행 (논문과 병행)
자신이 공부한 것을 기반으로 일반인도 쉽게 이해하는 강의 만들기
*데이터 컨설턴트 Harshit Tyagi의 프리코드캠프 기고글을 번역했습니다. 사실 그냥 숫자가 바뀌는 것 뿐일지도 모릅니다만, 새해가 되면 사람들은 무언가 새로운 것을 시작하려는 꿈을 꿉니다. 이 때, 어떤 계획이나 잘 구체화된 목표 그리고 적절한 로드맵이 있다면, 한 해의 성장을 만들 수 있는 멋진 레시피를 갖는 것과 같죠. 이 글은 데이터 사이언스의 전문성을 갖출 수 있는 포트폴리오를 구축하기 위해 필요한 프레임워크, 리소스 그리고 프로젝트 아이디어를 충분히 제공해서 여러분의 계획을 더 풍성하게 하기 위해 작성되었습니다. (잠깐. 이 로드맵은 저의 개인적인 경험을 기반으로 준비하였습니다. 이것이 전부가 아니며, 완전한 로드맵이라고도 할 수 없을 것입니다. 도메인에 따라, 관심 있는 연구분야에 따라 이 로드맵을 적용할 수 있을 것입니다. 그리고, 제가 개인적으로 선호하는 파이썬을 기반으로 글을 작성하였음을 미리 알려드립니다) 학습 로드맵이란 무엇일까요?학습 로드맵은 정규 커리큘럼의 연장선입니다. 각 단계별로 얻고자 하는 것을 상세히 기술하고, 그것을 어떻게 측정할 수 있는지 그리고 어떻게 더 고도화시킬 수 있을지를 도식화합니다. 제가 개발한 로드맵은 각 단계마다 현업에서 적용되는 복잡성과 일반성을 기준으로 가중치를 부여했습니다. 또한 초보자가 연습과 프로젝트를 통해 완성시키는 수준까지 대략 걸리는 시간도 덧붙였습니다. 여기 업계에서의 복잡성과 적용 순서에 따라 높은 수준의 기술을 묘사하는 피라미드가 있습니다. 이것이 프레임워크의 기반이 될 것입니다. 이제 좀 더 구체적이고, 측정 가능한 세부사항들을 해나가기 위해 각각의 단계를 깊게 들여다보려 합니다. 특수성은 각 층별 주요한 주제와 그것을 마스터하는데 필요한 리소스를 검토하는 것에서 나옵니다. 우리는 실제 많은 프로젝트에서 학습한 주제를 적용함으로써 얻어진 지식을 측정할 수 있습니다. 저는 당신의 숙련도를 측정할 수 있는 몇 개의 프로젝트 아이디어, 포털, 플랫폼들을 추가했습니다.
자, 바닥부터 각 층을 자세히 파봅시다. 1. 프로그래밍 및 소프트웨어 엔지니어링(예상 기간: 2-3개월) 먼저, 프로그래밍을 해야 합니다. 모든 데이터 과학 채용 조건은 적어도 하나의 언어에 대한 프로그래밍 기술을 요구해요.
이러한 프로젝트를 GitHub 페이지에 배포하거나 Git 사용을 학습하기 위해 GitHub에 코드를 간단하게 올려보는 것도 좋습니다. 2. 데이터를 추출하고 처리하는 방법(예상 기간: 2개월) 데이터 사이언스의 중요한 부분은 문제를 해결할 수 있는 적절한 데이터를 찾는 데 중점을 두고 있습니다. 스크래핑, APIs, 데이터베이스 그리고 공공 데이터 등의 여러 합법적인 소스로부터 데이터를 수집할 수 있습니다. 데이터가 있다면, 분석가는 데이터 프레임을 스스로 처리하고 다차원 배열을 작업하며 기술 및 과학적 계산을 하고 데이터 집계를 위한 데이터프레임을 만들어 낼 수 있습니다. ‘현실’에서 사용되는 데이터는 잘 정리되어 있거나 포맷화되어 있지 않습니다. Python에서 사용하는 Pandas와 Numpy는 정리되지 않은 데이터부터 분석 가능한 데이터로 만들어주는 라이브러리입니다. 파이썬 프로그램이 익숙하다면 Pandas와 Numpy 같은 라이브러리를 사용하는 과정을 들어보세요.
3. 데이터 해석과 비즈니스 통찰, 스토리텔링 학습(예상 기간: 2-3개월) 다음으로 마스터해야 할 단계는 데이터 분석과 스토리텔링입니다. 데이터로부터 인사이트를 도출하고 간단한 용어와 시각화로 경영진에게 전달하는 것은 데이터 분석의 핵심입니다. 스토리텔링은 훌륭한 커뮤니케이션 능력과 함께 데이터 시각화하는 데 유능함이 요구되는 부분입니다.
데이터 분석에 학습할 수 있는 리소스:
데이터 분석 프로젝트 아이디어:
4. 데이터 엔지니어링 학습(예상 기간: 4-5개월) 데이터 엔지니어링은 빅데이터 기업에서 엔지니어들과 데이터 과학자들이 연구를 하기 위해 처리된 데이터에 접근할 수 있도록 R&D팀을 지원하고 있습니다. 그 자체로 한 분야이고요. 만약 당신이 어떤 문제를 볼 때 통계적인 알고리즘에 중점을 두고 있다면 당신은 이 부분을 건너 뛰어도 됩니다. 데이터 엔지니어의 책임은 효과적인 데이터 아키텍쳐 구축, 데이터 처리 간소화 및 대규모 데이터 시스템을 유지하는 데 있습니다. 엔지니어는 ETL 파이프라인, 자동 파일 시스템 작업 및 고성능을 내기 위한 데이터베이스 최적화를 위해 Shell(CLI), SQL, Python/Scala를 사용하고 있습니다. 또 다른 중요한 능력은 AWS, Goolgle 클라우드 플랫폼, Microsoft Azure 등과 같은 클라우드 서비스를 기반으로 퍼포먼스를 내는 데이터 아키텍쳐를 구현하는 것입니다.
– AWS Certified Machine Learning (300불) – AWS에서 제공하는 검증된 시험, 당신의 프로필을 채워줍니다(비록 보장되는 건 아니지만요). 그리고 AWS 서비스와 ML에 대한 적절한 이해도를 요구합니다. – Professional Data Engineer – GCP에서 제공하는 인증입니다. 마찬가지로 검증된 시험이며, 데이터 처리 시스템 설계와 작업 환경에서 머신러닝 모델 배포 및 품질과 자동화를 보장하는 지 역량을 평가합니다. 5. 응용통계와 수학을 학습하는 방법(예상 기간: 4-5개월) 통계적 모델은 데이터 사이언스의 중심입니다. 거의 모든 데이터 사이언스는 주로 기술적 및 추론 통계에 중점을 두고 있습니다. 사람들은 종종 알고리즘의 작동을 설명하는 통계 및 수학적 방법론의 명확한 이해 없이 머신러닝 알고리즘 코딩을 시작합니다. 물론, 이것은 최선의 방법이 아닙니다.
6. 머신러닝과 AI를 학습하는 방법(예상 기간: 4-5개월) 이때까지 단련시키면서 앞서 언급한 모든 주요한 개념을 살펴봤다면 당신은 이제 멋진 ML 알고리즘을 시작해볼 준비가 되었습니다. 학습에는 3가지 주요한 유형이 있습니다.
대부분의 ML 프로젝트는 이 블로그에서 설명하는 많은 작업을 마스터해야 합니다.
Deep Learning Specialization by deeplearning.ai 딥러닝을 깊게 파는 데 관심이 있는 사람들을 위해, deeplearning.ai와 Hands-ON 책에서 제공하는 전문과정을 완성함으로써 시작해 볼 수 있습니다. 컴퓨터 비전이나 NLP 문제를 해결하는데 계획이 없다면 데이터 사이언스 관점에서는 중요하지 않습니다. 딥러닝은 그 분야만의 로드맵이 필요합니다. 당신의 학습 진도를 체크하세요.Notion에 여러분을 위한 학습 추적기를 만들어 보았습니다. 여러분의 필요에 따라 맞춤화 해볼 수 있고 진도를 추적하고 모든 자료와 프로젝트에 쉽게 접근할 수 있습니다. https://www.notion.so/Data-Science-learning-tracker-0d3c503280d744acb1b862a1ddd8344e 또한, 여기 영상 버전도 있습니다. 제가 새로운 토픽을 추가하거나 어떤 것이든 이름을 다시 붙이고 싶다면 언제든지 이 블로그 또는 비디오에 의견을 주십시오. 또한 어떤 카테고리의 튜토리얼 프로젝트를 진행하고 싶은지 제게 알려주세요.
데이터 분석가가 되기 위해서는 어떤 직무역량을 가지고 있어야 할까요?기본적으로는 딥러닝(DL, Deep Learning), 머신러닝(ML, Machine Learning) 분야에 대한 지식, 데이터 분석을 위한 통계 및 수학적 지식, 데이터 전처리 및 모델링을 위한 코딩 능력, 해당 분야에 대한 비즈니스 도메인 지식 등이 요구됩니다.
데이터분석 어떻게?데이터 분석은 통계학, 기계학습, 데이터 시각화를 포함한 다양한 분석 방법 이나 도구를 이용하여 데이터분석 결과를 비즈니스에 유용한 정보로 전환하는 과정입니다.. 1. 크로스 집계 ... . 클러스터 분석 ... . 회귀 분석 ... . 시간별 분석 ... . |