빅데이터 주식 예측 - bigdeiteo jusig yecheug

제1회 KRX 금융 빅데이터 활용 아이디어 경진대회

알고리즘 | 정형 | 회귀 | 금융 | 정성평가

  • 상금 : 총 2,000만원
  • 842명 마감

마감

대회안내 데이터 코드 공유 토크 리더보드

제출


개인 투자자를 위한 주가 예측 프로그램

스투

공동작성자

2022.07.21 13:35 636 조회

3


안녕하세요. SB's 팀입니다.
주제는 개인 투자자를 위한 주가 예측 프로그램입니다.
개인이 투자할 때 증권사를 통하지 않아도 투자 위험을 줄이기 위해 모델을 이용할 수 있도록 하였습니다.
주식 코드명을 입력하면 주식 변동의 흐름을 알 수 있으며, 주가 예측 그래프도 확인 가능합니다.

작업 환경 : colab


PDF


코드


댓글 3개

jeong11

2022.07.24 22:14

잘 봤습니다


haneul02

2022.07.24 22:35

응원합니다!


구디역동파육

2022.07.24 23:42

궁금했던 모델링인데 도움이 많이 됐습니다..!


로그인이 필요합니다

comment

0 / 1000

목록으로


이전 글

삼성전자 뉴스 추천 앱

대회 - 제1회 KRX 금융 빅데이터 활용 아이디어 경진대회

좋아요 10

조회 1,002

댓글 4

5달 전

현재 글

개인 투자자를 위한 주가 예측 프로그램

대회 - 제1회 KRX 금융 빅데이터 활용 아이디어 경진대회

좋아요 11

조회 636

댓글 3

5달 전

다음 글

OneLine Tech. - 금융교육 콘텐츠 빅데이터 API (CoP: 주식투자게임 'StockVity')

대회 - 제1회 KRX 금융 빅데이터 활용 아이디어 경진대회

좋아요 108

조회 2,727

댓글 42

5달 전


10여전 정도 된 것 같다. 주식에 한 참 빠져 컴퓨터 모니터만 뚫어지게 봤던 때가 있었다.
결국 휴지가 된 주식으로 다음카페에 피해자 모임이 만들어졌고, 돈을 번 듯했지만 잃을 수 밖에 없었던 한 개미 투자자.
그게 나였다.
빅데이터와 주식, 의사결정 과제를 연구하다가 문득 폐인모드였었던 내가 떠올랐다. 

아래는 현재 작성중인 연구 일부 중.
------------------------------------
3. 빅데이터와 주식예측 연구 동향

Bollen, Mao, and Zeng(2010)은 빅데이터(Big-data)를 통해서 주가의 움직임을 예측하려 했다. 그들은 2008년부터 약 1000만개의 트위터 감성을 심리학 도구를 사용하여 Calm, Alert, Sure, Vital, Kind, Happy등 6가지 감성으로 분류했다. 감성을 사용하여 미국 다우존스 지수와 비교한 결과 적중률 86.7%로 다우존스의 등락을 예측하였다. 
Hristidis(2012)는 빅데이터(Big-data)와 주식시장의 상관관계를 파악하려 했다. 약 3억 4천만개의 트위터를분석한 결과 특정 기업에 대해 언급이 많을수록 주가상승확률이 높아짐을 실증분석 하였다. 4개월 동안의 모델 시뮬레이션 결과 빅데이터(Big-data)에 많이 언급된 회사일수록 다우지수와 비교하여 약 2%정도 덜 하락함을 보였다. 또한 기업의 신제품 출시 등의 정보가해당 기업의 주식 거래량에 영향을 미침을 보였다.(이득환 외, 2013)
Preis et al 은 감성관련 단어(Bellen at al), Wikipedia 관련된 용어의 검색빈도(Moat et al) 특정용어에 대하여 현재의 인터넷 검색 횟수가 가까운 미래 주식시장의 가격등락과 관계(Pries et al)연구를 수행하였다. S&P500개 기업의 주간 주식 거래량이 회사의 구글을 통한 인터넷 검색수와 연관관계가 있음을 발표 했다. 
Bordino et al은 NADAQ에 상장되어 있는 기업의 주식거래량과 해당 기업과 관련된 용어가 Yahoo검색엔진에서 검색된 횟수와의 관계를 비교분석하고 이 둘 간에 상호 연관성이 존재함을 보였다.(김민수, 2013) 구글은 2013년 2월 구글 검색엔진을 이용하여 2004년부터 2011년까지 빈번하게 쓰인 98개의 단어를 추출하여 단어들을 분석한 결과 검색쿼리(검색창에 입력하는 단어나 문구)와 주식시장 움직임이 연관이 있다는 것을 발표하였다. 흥미로운 것은 주식, 포트폴리오, 경제학 같은 단어검색이 많을수록 주식시장은 떨어졌고 금융시장 검색이 줄어들면 주식시장은 상승했다는 결과가 도출되었다.(서일선.2014)
2014년 국내 검색 1위 네이버에도 검색엔진을 이용한 빅데이터 분석을 수행했다. 98개의 단어를 한국어로 번역하여 동사는 명사로 교체하고, 중복된 단어는 다른 단어로 대체, 한글 어휘에 맞게 변환하였다. 국내 주식시장 분석에 적합한 용어로 선정된 100개 어휘를 바탕으로 빈도수 분석을 수행하고 검색량을 모두 빅데이터 엑셀파일 형태로 저장하였다. 주식시장 분석을 위한 기업은 코스피 40개사를 선정하여 일정 기간중 단어별로 검색량 최고시점과 최저시점에 주식을 구해하여 특정일에 매도하는 것으로 수익률을 산정하였다. 결과 100개의 검색어중 관관산업 검색어의 경우최고지점과 최저지점 모두  +수익률을 보이는 결과를 나타냈다. 최고지점의 가장 큰 수익률을 보이는 검색어는 라이프스타일로 140.2% 수익률을 나타냈다. 거래, 정원, 주택 은 모두 최저지점 133%의 수익률을 기록하였다. 돈, 기름, 삼겹살과 같은 소비 검색어는 수익률에 좋지 않았고, 경제회복, 행복, 문화,선물 검색어는 대체로 수익률에 관계가 있음을 알  수 있었다.(서일선.2014)
김민수 2013 연구에서는 Pries et al[18]의 98개의 단어를 추출하여 98개의 단어중 84개의 분석대상 단어를 정하고, 트렌드를 기반으로 수익률을 분석했다. 투자전략은 주초 첫 거래일 종가로 항상 주식을 매입하고, 그 다음주 첫 거래일 종가로 매도하는 전략의 누적주식률 basis(buy-and-hold)를 사용했다. 검색 용어중 은행이 146.5%의 높은 수익률을 보여주었고, 헤드라인, 암, 판매등이 100% 이상 누적수익률을 실현하였다. 반면 ‘사회’를 사용한 트렌드 투자전략은 –134%, 종교-100% 누적 수익률을 보이고 있었다.(김민수, 2013)
Kummar and lee, Jackson, Dorn은 개인 및 기관 투자자의 심리와 주식수익률 간의 상관관계가 있음을 발견했다. 김유신 외는 오피니언 마이닝이라는 빅데이터 감성기법을 통한 지능형 투자 의사결정모형을 제시하여 뉴스 컨텐츠의 감성분석 결과와 지수 주가등락이 유의한 관계가 있음을 보였다. (박원준, 2012)는 연구를 통해 인간의 정서나 심리 정보에 해당하는 기분이나 감정이 내재된 비정형화된 데이터를 분석함으로써 소비자 중심의 정보를 산출 할 수 있으며 기업은 물론 공공기관영역에서도 광범위하게 사용할 수 있다고 판단했다. 
최근에는 기존의 정형데이터의 한계점을 보완하기 위한 텍스트 마이닝 기법을 활용하여 텍스트를 기반으로 문장이나 어휘의 긍정, 부정과 같은 극성 분포에 따른 스코어링 감석분석 연구가 이루어지고 있다. 
(정지선, 2015)은 온라인상에서 발생된 각각의 기업주가 관련 뉴스들의 감성분석을 통한 개별 기업의 증권 뉴스 기사에서 감성사전 수출확대, 실적개선, 강세, 악재, 불황, 적자 등과 같이 명사 자체가 갖는 상징적인 의미를 활용하여 용어의 품사를 명사로 한정하여 주가 예측 방안에 대하여 연구했다. 결과 기업별 예측 정확도는 상이했으며, 평균적으로는 56%의 예측률을 보였다. 기업에 관한 뉴스가 많을수록 정보가 많다고 하더라도 기업의 경영활동과 관련 없는 정보들도 함께 수집됨에 따라 정확도는 떨어졌다. 산업구분에 따른 주가 예측은 에너지/화학, 생활소비재, 경기소비재는 상대적으로 높은 주가 예측 정확도를 보였으며, 정보기술, 조선/운송은 예측도가 낮았다. 정보수집 및 분류과정에서 직, 간접뉴스 그리고 의미의 연결 관계에 대한 연구의 한계가 있었다.
(이득환외 2013)은 빅데이터에서 나타난 주가정보를 담고 있는 9가지 감성들의 자기상관 여부를 파악하여 미래를 예측할 수 있는 정보를 포함하는 지를 살펴보았다. 주요 변수인 9가지 감성들은 블로그, 트위터, 페이스북, 게시판 및 뉴스 등으로부터 정보를 수집하여 스팸 및 노이즈 데이터를 제거했다. 이후 자연어처리, 텍스트 마이닝을 통해 주식 시장에 대한 분노(ANGER), 미움(HATE), 싫음(DISLIKE), 두려움(FEAR), 사랑(LOVE), 수치심(SHAME), 슬픔(SADNESS), 바람(HOPE),기쁨(JOY)의 9가지 감성들로 분류하여 9가지 감성들이 상호 어떠한 관계를 맺고 있는지 파악했다.이 시스템은 대량의 문서로부터 형태소 분석, 품사중 의성해소, 구문분석, 개체명인식 등의 언어처리 후 텍스트마이닝을 이용하여 중요어휘들을 자동으로 추출하고 빈도 및 상호 연관관계를 날짜별로 추출한 후 시각화(visualization) 기술을 이용해 사용자에게 데이터에 대한 이해를 쉽게 도와주는 기능을 가지고 있다.
VAR 분석을 통해서 각 감성들의 상관관계를 구체적으로 살펴본 결과 자기상관 분석 결과 감성들은 7일을 주기로 가지며 각 감성의 과거 값들은 미래를 예측하는데 유용한 정보를 포함하고 있음을 알 수 있었다. 또한 9가지 감성들이 크게 긍정성과 부정성으로 묶일 수 있음을 확인 할 수 있었다. VAR 추정에서 자기상관 분석 결과와 마찬가지로 감성들의 자기회귀성을 알 수 있었다.

(송성환 외, 2016)는 자연언어처리를 이용하여 소셜빅데이터로부터 감성을 추출하고 통계분석을 통하여 추출된 감성의 흐름과 관련이 깊은 주식을 발굴하였다. 발굴된 종목들에 기반한 포트폴리오는 월별로 기계학습 및 평균회귀전략을 기반으로 주가예측을 시도하며 자산배분 모형은 Black-Litterman모형을 이용하였다. 위와 같은 모델을 기반으로 2011년 1월부터 2014년 10월까지 시뮬레이션을 실시한 결과 코스피 수익률 대비 약 20%를 초과하는 결과를 보였다. 또한 2015년 1월부터 2015년 8월까지 실전투자 결과에서도 코스피 수익률 대비 12%를 초과하는 실적을 보였다. 연구를 통하여, 인공지능 기반의 빅데이터분석을 이용한 로보트레이딩이 실제 시장지표 대비 높은 수익률을 보일 수 있는 가능성을 확인할 수 있었다.
<중략>

4.빅데이터의 한계점

빅데이터의 한계점은 데이터를 단순히 검색량에 따라 긍정과 부정을 단정 짓거나 일부 이용자들이 집단적으로 많은 양의 데이터를 올릴 경우, 의미가 조작되어 질수 있다(황윤찬, 고찬, 2013). 빅데이터를 통해 감성들을 추출할 때 일정한 단어의 조합을 통해 각 감성이 분류가 되는데 기술적으로 충분한 분류가 되었더라도 정확한 분류에는 한계가 존재하기 때문이다. 정확한 데이터 수집과 분석이 개발 되기전 까지는 단순 검색량, 혹은 단일의 SNS 데이터를 통해 도출된 결과에 절대적으로 신뢰를 보내는 것은 위험한 일이다.(곽재현, 홍지숙, 2018) 현재 국내 증권사의 인공지능 빅데이터 서비스는 대부분 투자종목 발굴 및 추천을 중심으로 운용되고 있다. 종목선택과 이후 매수, 매도는 투자자 자신의 결정으로 판단하거나 투자 전문가 또는 인공지능에 일임하는 서비스로 나누어지기 때문에 광범위한 정보를 바탕으로 종목을 발굴하는 어려움을 겪고 있는 것을 상쇄하기 위한 프로그램이다. 그러나 맥락적 벙보 없이 추천되는 정보에 대해 낮은 신뢰도를 보이고 참고하는 것 외의 유용성이 떨어지므로 결과적으로 투자자에게 신뢰와 도움을 주지 못하고 있음을 알수 있다(장소희, 윤재영, 2018)
네이버트렌드 투자전략에서는 어떤 용어를 사용하느냐에 따라 수익률이 달라지고 있었다. 종교의 경우, 구글트렌드를 활용한 투자전략에서는 높은 수익률을 보이는 반면, 네이버트렌드를 이용한 국내 수익률은 대규모 마이너스 수익률을 기록하고 있었다. 검색용어에 대한 두 나라의 수익률 간의 관계를 조사한 결과 검색단어를 이용한 수익률 상관계수는 0.02로 관계가 미미하였다. 즉 구글을 이용한 트렌드 투자전략을 활용한 주식거래와 동일한 단어를 국내에서 직접 적용하는 것은 유용한 투자 전략이라고 볼 수 없는 것이다. 연구자들은 그 요인에 대해 미국과 한국의 경제적, 문화적 주식시장과 서로 다른 패턴, 독특성을 요인으로 꼽았다.(김민수, 2013)
구글은 세계시장 점유율 1위 검색서비스를 제공하고 있지만 국내 시장 점유율은 5%미만에 머무르고 있어 대중의 심리 변화에 따른 주식시장의 움직임을 분석하기위해 구글 트렌드를 이용하는 것은 한계가 있다(신현준, 라현우, 2015) 2016년 기준 국내 검색시장의 경우 네이버(80.59%), 다음(9,6%), 구글(7,6%), ZUM(1,6%)순으로 나타났다. 데이터의 신뢰성을 위해서는 다양한 지역, 도시 및 언어의 동향을 이해하는 것이 유용하다(Kuo, Ruan, Chen &Lei, 2012)

<중략>

<참고자료>

빅데이터를 활용한 국내주식시장 분석 기법 제안에 관한 연구(2014한국정보기술학회. 서일선, 여상수, 강희조)
인터넷 검색추세를 활용한 빅데이터 기반의 주식투자전략에 대한 연구(한국경영과학회지 제 38권 제 4호, 김민수, 구평회, 2013)
뉴스와 주가:빅데이터 감성분석을 통한 지능형 투자의사결정모형(지능정보연구, 제 18권 제2호, 김유신, 김남규, 정승렬, 2012)
금융시장의 빅데이터 트렌드를 이용한 주가지수 투자 전략( 정보학회 신현준, 라현우 2015)
빅데이터 활용에 대한 기대와 우려 (Jouranl of Communications and Radio Spectrum,제 51권(2012), pp-28-47,박원준, 2012)
빅데이터를 활용한 욜로 현상 분석(International Journal of Tourism and Hospitality Research, 곽재현, 홍지숙, 2018)
온라인상의 뉴스 감성분석을 활용한 개별 주가 예측에 관한 연구(한국인터넷전자상거래학회, 정지선 외, 2015, )
주식투자를 위한 전문가 시스템의 개발 및 활용사례 분석, 한국지능정보시스템학회, 지원철, 1995)
투자의사결정 지원을 위한 인공지능 디자인전략, Proceedings of HCI Korea 2018, 장소희, 윤재영)
빅데이터 분석을 활용한 도시 통계 표현연구 2016.기정훈) 
빅데이터 플랫폼 전략( 2013. 2. 11., 한국전자통신연구원(ETRI), 전자신문사)
뉴스기사: http://news.joins.com/article/20683472
빅데이터에 나타난 감성 분석(이득환, 강형구, 이창민, 2013)
트레이딩을 위한 소셜 빅데이터 분석 모델(Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, 송성환, 황선호, 이용희, 이현경, 한경석, 김종배, 2016)
<중략>