XGBOOST 모형을 활용한 부동산 조각투자 가격 예측: 카사 TE 물류센터를 중심으로
초록
본 연구는 딥러닝 XGBOOST 모형을 활용한 부동산 조각투자 플랫폼의 가격 예측에 대해 알아보고자 한다. 금융위원회는 23년 2월 「토큰증권(Security Token) 발행· 유통 규율체계 정비 방안」을 발표하였다. 또한, 23년 7월 28일 윤창현 국민의힘 의원은 자본시장과 금융투자업에 전자증권법과 자본시장법 개정안을 대표 발의했다. 이에 본 연구는 토큰증권의 정의와 국내 정책과 운용현황에 관해 설명하고, 대표 부동산 조각투자 플랫폼인 카사코리아의 "TE 물류센터" 상품의 부동산 조각투자 가격을 예측하고자 한다. XGBOOST 모형을 활용하여 실증분석한 결과 Train RMSE은 0.00424, Test RMSE은 0.03228으로 나타났다. 이는 낮은 오차율, 즉 높은 예측력을 나타냈으며 가격 예측에 영향을 주는 특정 중요도 변수는 종가와 저가임을 확인할 수 있었다. 이를 통해 부동산 조각투자 가격 예측에 딥러닝 모형이 효과적임을 확인하였고, 부동산 조각투자 플랫폼과 같은 신종 투자 시장에 딥러닝 XGBOOST 모델을 적용함으로써, 투자자들에게 더욱 신뢰할 수 있는 예측 정보를 제공할 수 있을 것으로 판단된다.
Abstract
This study aims to investigate the price prediction of a real estate fractional investment platform using the deep learning XGBOOST model. In February 23, the Financial Services Commission announced the “Plan to Improve the Regulatory System for Issuing and Distributing Security Tokens”. In addition, on July 28, 2023, Yoon Chang-hyun, a member of the National Assembly, proposed a bill to amend the Electronic Securities Act and the Capital Market Act to apply to the capital market and financial investment business. Therefore, this study explains the definition of token securities and the current status of domestic policies and operations, and attempts to predict the price of real estate fractional investment in the “TE Logistics Center” product of Kasa, a representative real estate fractional investment platform. The empirical analysis using the XGBOOST model shows that the Train RMSE is 0.00424 and the Test RMSE is 0.03228. This means that the error rate is low and the predictive power is high, and we can see that the specific important variables that affect the price prediction are the closing price and the opening price. This confirms the effectiveness of deep learning models in predicting the price of real estate fractional investments, and we believe that by applying deep learning XGBOOST models to new investment markets such as real estate fractional investment platforms, we can provide investors with more reliable prediction information.
Keywords:
Real Estate Tokenization, XGBOOST Price Prediction, STO Fractional Investing, Deep Learning, Financial Prediction키워드:
부동산 토큰화, XGBOOST 가격 예측, STO 조각투자, 딥러닝, 금융 예측Ⅰ. 서 론
1. 연구 배경
부동산 조각투자 플랫폼은 제도권 편입을 위해 증권신고서 제출, 예치금 분리, 계좌관리기관 지정, 전자등록 등을 부대조건으로 시범적인 비즈니스를 영위하고 있으며, 금융위원회 가이드라인 발표 「토큰증권(Security Token) 발행· 유통 규율체계 정비 방안」(2023. 2. 6.)에 따라 토큰증권에 대한 발행, 유통 규율체계를 구축할 예정이다. 이에 따라 중개·유통 플랫폼과 대형 증권사는 최신 규율에 맞춰 장내·장외 거래소를 준비 중이며 24년부터 부동산 조각투자 및 조각투자 분야 거래가 활성화될 것이라 예측하고 있다.
한편 딥러닝을 활용하여 예측에 대한 연구들이 다양한 분야에서 진행되고 있다. 그 중 XGBOOST(extreme gradient boosting)를 활용한 주가 예측에 대한 연구가 활발히 진행되고 있으며 하대우 외(2019)는 XGBOOST를 이용하여 주가 등락 예측을 활용하였고 LSTM(long-short term memory)과 전통적 기법인 자기회귀모형의 예측 결과들을 비교 분석하였다. 김선웅(2022)은 머신러닝 모형을 이용한 글로벌 자동차 기업의 주가 예측 비교에 있어 미국의 지엠(GM), 테슬라(Tesla), 독일의 폭스바겐(Volkswagen), 벤츠(Mercedes Benz), 일본의 도요타(Toyota), 한국의 현대차(Hyundai Motors) 시계열 자료를 이용하여 XGBOOST를 이용하여 예측력을 보여 주었으며, 특성 변수 중요도(feature importance)를 산출하여 비교하였다.
2. 연구 목적
본 연구의 목적은 딥러닝 알고리즘 XGBOOST를 이용하여 부동산 조각투자 주요 거래 지표와 함께 외부 거시경제 지표를 활용하여 종가가격의 오차율을 구하고 어느 정도 예측을 하였는지 알고자 한다.
기본적으로 토큰증권(Security Token)의 이론을 이해하고 발행 및 유통 규율체계에 대해 알고자 한다. 또한 부동산 조각투자 상품에 대한 인식을 증진시키고자 한다. 나아가 부동산 조각투자의 토큰증권을 활용한 종가 예측 연구를 수행하고 분석하고자 한다. 부동산 조각투자에 대한 종가 예측은 투자자에게 정보에 기반한 의사결정을 도와주게 한다. 이는 부동산 조각투자 상품별로 변동성을 이해하고 투자자들이 더 확고한 투자 진행을 할 수 있도록 도와준다. 또한 가격 변동을 이해함으로써 투자자들에게 이익을 극대화하고 손실을 최소화할 수 있다. 이러한 특징은 투자자에게 더 나은 환경을 조성하고 부동산 조각투자 시장의 성장에 기여하며 고가의 부동산을 더 많은 투자자들이 조각투자로 부동산에 참여할 수 있도록 하여 정확한 가격 예측 모델은 투자자들이 이런 위험으로부터 더 잘 관리할 수 있도록 돕는다.
본 연구는 딥러닝 XGBOOST를 활용하여 부동산 조각투자 거래에 있어 종가를 예측하고 변수가 갖는 의미를 찾고자 한다. 또한 종가에 영향을 미치는 특성 변수 중요도(feature importance)를 찾고자 한다. 마지막으로 이를 통해 투자자들이 더 나은 정보에 기반한 투자결정을 내리는 데 도움을 주고자 한다.
3. 연구 범위 및 방법
본 연구의 대상은 금융위 규제혁신서비스 특례를 받은 카사코리아에 있는 “TE 물류센터”를 진행하였으며 연구기간은 22년 06월 29일부터 23년 10월 31일까지이다. 주요 거래 지표 데이터는 시가, 고가, 저가, 종가, 거래량을 변수로 지정하였다. 부동산 조각투자에 있어 시가는 부동산 상품에 대한 투자자들의 초기 가치 평가를 나타내며, 특정 부동산 상품에 대한 시장 분위기의 반응을 반영한다. 고가, 저가는 해당 특정 부동산에 하루 기간 동안의 가격 변동성을 반영한다. 이는 일일에 대한 특정 부동산의 가치 평가와 변동성을 나타낸다. 거래량은 특정 부동산에 대한 투자자의 관심의 정도와 시장 활동성을 보여 준다. 주요 거래 지표에서 특정 부동산 조각투자에 대한 관심과 시장의 반응을 가늠해 볼 수 있다. 또한 해당 부동산 물건의 인기도, 투자 매력도에 영향을 받을 수 있다. 환율은 한국은행 경제통계시스템 환율 자료를 참고하여 같은 기간 매매 기준율 자료를 이용하였다. 코스피(KOSPI)는 한국 KRX 홈페이지 KOSPI 시리즈 페이지를 참조하여 동일한 기간 자료를 이용하였다. 금리는 한국은행 경제통계시스템 홈페이지 시장금리에 3년 국고채 만기 금리 자료를 사용하였다.
시계열 데이터를 분석하는데 몇 가지 방법이 있다. ARIMA는 일반적으로 명확한 추세나 계절성을 가지고 있을 때 유용하며 단기적인 변동 패턴을 포착하는데 적합하다. 하지만 비정상적인 이벤트, 외부 충격을 예측하는 데 한계가 있다. OLS는 주가와 경제 지표 같은 외부 변수 간의 선형관계를 분석할 때 적합하다. 하지만 선형가정을 충분히 만족할 경우에만 유용하며, 자기상관성을 고려하지 않아 시장의 비선형적인 특성과 변동성이 있는 경우 이를 적절히 반영하기는 어렵다. 딥러닝 XGBOOST는 이러한 비선형적인 시계열 데이터를 분석할 때 강하며, 금융 분야에서 주가를 예측하는데 효과적이다. 이는 김선웅(2022)의 머신러닝 모형을 이용한 글로벌 자동차 기업의 주가 예측 비교와 하대우 외(2019)는 XGBOOST를 이용하여 주가 등락 예측에서도 입증되었다.
본 연구 방법은 XGBOOST 모형을 활용하여 부동산 조각투자 주가를 예측하는 방식으로 진행된다. 초기에는 해당 부동산 상품 기간의 주가 데이터를 수집하며 데이터의 결측치 처리, 정규화 및 표준화 과정을 진행하여 전처리하였다. 이렇게 전처리 된 데이터를 기반으로 과거 5일 동안의 주가 데이터를 기반으로 익일 1일 종가를 예측하기 위한 시퀀스를 형성한다.
마지막으로 본 연구에서 XGBOOST 모형을 통해 학습된 모델의 학습 데이터 셋과 독립적인 테스트 데이터 셋을 학습하여 평가한다. 평가 결과를 확인하고 모델의 정확도 및 예측 능력을 검증하며 필요에 따라 하이퍼파라미터의 조정을 통해 최적화된 결과를 도출한다. 부동산 조각투자 상품의 예측 종가와 실제 종가의 오차율을 파악하기 위해 평균 제곱근의 오차(RMSE: Root Mean Square Error)을 이용하여 오차율을 확인한다.
Ⅱ. 이론적 고찰 및 선행연구 검토
1. 이론적 고찰
가. 토큰증권
토큰증권이란 Security Token Offering의 약자로 기초자산이 되는 실물 자산이나 금융자산의 지분을 작게 나눈 뒤 블록체인 기반 디지털 기술을 활용하여 증권(Token)을 발행하는 것이다. 이론상으로는 주식·채권·부동산·항만 등의 거의 모든 자산에 대한 가치를 스마트 컨트랙트 기술과 디지털 토큰을 활용하여 연계한 가상 자산이며 일반적으로 이자·배당 등 실물자산에 대한 지분 권리가 인정되는 특징이 있다. 금융위원회가 2023년 2월 6일 발표한 ‘토큰증권 발행·유통 규율체계 정비방안’에 따른 분산 원장 기술을 활용해 기존에 있는 유가 증권, 전자증권에 이은 새로운 디지털 증권(토큰증권)이다. 아래 <그림 1>은 하이퍼레저 분산원장 기술에 ERC20 기술을 접목하여 하이퍼레저 패브릭의 장점을 활용한 전체 토큰 생태계를 도식화한 그림이다. 이는 참여자 신원 확인이 가능하고 책임소재가 명확한 허가형 기반으로 합의에 별도 자원 소모가 없다. 전자지갑 및 토큰 생성이 가능하며 체인코드(스마트 컨트랙트) 생성 및 업그레이드가 용이한 장점이 있다.
나. XGBOOST
인공지능은 다양한 하위 영역을 포함하는 개념으로, 이 중 머신러닝과 딥러닝이 중요한 부분을 차지한다. 여기서 딥러닝은 머신러닝의 하위 카테고리로 분류되며 인공신경망의 복잡한 구조를 바탕으로 데이터를 처리한다. 이는 인간 뇌의 뉴런과 유사한 방식으로 작동하며 다양한 입력 및 출력층을 통해 학습한다.
머신러닝은 데이터와 알고리즘을 활용하여 학습, 예측 및 분석을 수행하는 기술이다. 사용되는 알고리즘의 선택은 처리해야 하는 데이터의 성격과 규모에 따라 달라지며 어떤 알고리즘이 다른 것보다 항상 우월하다고 말할 수 없다.
XGBOOST는 그래디언트 부스팅 기법을 활용한 알고리즘으로, 이는 오차(잔차)를 줄이기 위해 이전 모델의 결과를 개선하는 방식으로 학습한다. XGBOOST는 단순히 잔차에만 의존하는 것이 아니라, Similarity Score와 Gain 등의 추가적인 요소를 시사한다. Similarity Score는 잔차 제곱의 평균으로 계산되며, 분모에 있는 λ(람다)는 규제 파라미터이다. 이 파라미터의 값이 크면 클수록 모델의 복잡도가 줄어들어 오버피팅을 방지하는데 도움이 된다.
(1) |
XGBOOST 알고리즘에서 Gain의 계산 방식은 식 (2)와 같다. 트리에서 각 분할 지점에서의 Gain은 해당 지점의 왼쪽 및 오른쪽 노드의 Similarity Score 합에서 기본 노드의 Similarity Score를 뺀 값으로 정의된다. 이 과정에서 γ(Gamma)라는 추가적인 규제 파라미터를 설정할 수 있으며, 이 파라미터는 Gain에서 빼는 값으로 사용된다. 만약 Gain에서 γ 값을 뺀 결과가 음수가 되면, 해당 분할 지점에서 가지치기(분할 중단)가 이루어지게 된다. 이러한 방식은 모델의 복잡성을 조절하고 과적합을 방지하는 데 중요한 역할을 한다.
(2) |
XGBOOST에서 사용되는 ω(Omega) 값은 트리 구조 내에서 계산된다. 이 ω는 Similarity Score를 계산하는 방식과 유사하지만, 중요한 차이점이 있다. ω를 계산할 때는 잔차를 제곱하지 않는다. 이는 트리의 각 분할에서의 효율성을 측정하는 데 사용되며, 모델의 성능 향상에 기여한다.
(3) |
트리 기반 알고리즘에서 가장 중요한 부분은 최적의 분할 지점을 찾는 것이다. XGBOOST는 이를 위해 Similarity Score를 활용하여 Gain 값을 계산한다. 다양한 임계값을 시험하며 가장 높은 Gain을 제공하는 분할 지점을 찾는다. 이 과정을 탐욕 알고리즘(Greedy Algorithm)이라고 부르며, 모든 가능한 분할 지점을 살펴봄으로써 최적의 분할 지점을 찾는다. 하지만 이 방법은 시간이 많이 소요되기 때문에, XGBOOST는 데이터의 양자화된 지점(Quantiles)을 기반으로 분할 후보를 선정한다.
손실 함수 L은 모델의 예측값과 실제값 간의 차이를 측정한다. 이는 n개의 데이터 포인트에 대한 예측값과 실제값의 차이를 모두 합산하여 계산된다. 이 방식은 모델이 실제 데이터에 얼마나 잘 맞는지를 평가하는 데 중요한 역할을 한다.
(4) |
Ω는 XGBOOST에서 사용되는 규제항으로, 트리 모델의 복잡성을 조절한다. 여기서 T는 트리의 말단 노드를 의미하며, γ(Gamma)는 가지치기를 통해 모델의 복잡도를 줄이는 역할을 한다. 또한, λ(Lambda)는 규제 파라미터로 작용하여 트리의 과도한 성장을 억제한다. 이러한 규제 방식은 트리가 너무 커지는 것을 방지하고, 결과적으로 모델의 과적합을 막는 데 중요한 기능을 한다.
(5) |
식 (6)은 XGBOOST에서 트리의 분할 효율성을 평가하는데 사용되는 지표로 결정 트리에서의 불순도 측정과 유사한 개념이다. 이 지표는 트리가 데이터를 얼마나 잘 분리하고 있는지를 나타내며, XGBOOST는 이 값을 최소화하는 방향으로 트리를 구축한다. 이 과정은 손실 함수와 함께 규제항 Ω를 감소시키는 것을 목표로 하여, 모델의 과적합을 방지하고 성능을 향상시키는데 중요한 역할을 한다.
(6) |
XGBOOST는 희소 데이터 상황에서도 우수한 성능을 발휘한다. 이는 첫 번째 양자화 지점에서 선정된 후보 값을 루트 노드의 예측값으로 사용함으로써, 결측치가 있는 데이터의 잔차를 효과적으로 계산할 수 있기 때문이다. XGBOOST는 데이터를 결측치가 있는 부분과 없는 부분으로 구분하여 처리한다. 먼저 결측치가 없는 데이터에 대한 잔차를 계산하고, 이를 바탕으로 결측치가 있는 데이터 부분의 잔차를 왼쪽 노드와 오른쪽 노드에 각각 추가하여 Gain 값을 계산한다. 그 후, 두 노드의 Gain 값을 비교하여 더 높은 Gain 값을 가진 분할 지점을 선택한다.
2. 선행연구 검토
가. 조각투자
서병완·김준홍(2023)은 블록체인 기반의 디지털 플랫폼상의 조각투자에 대해 그 정의와 활용 분야에 대해서 알아보고, 현재 대표적인 디지털 플랫폼들과 그 대상인 부동산, 미술품, 시계, 와인, 자동차, 음악 저작권료 참여권 등 주요 다섯 가지 조각 투자 상품의 플랫폼에 대한 현황을 상세히 비교 조사하였다. 정현조 외(2022)는 LSTM을 활용하여 123개의 뮤직카우 음원 유통에 대한 저작권료 참여 청구권에 대한 주가 예측을 실행하였다. 청구권의 이전 가격과 거래량, 저작권료, 환율, 국고채 금리, 한국 종합주가지수를 변수로 사용하여 거래가격을 예측하였다. 임혜정·유정한(2023)은 부동산 조각투자의 법적 쟁점 및 규제를 통해 현 시점에서 금융위원회「토큰증권(Security Token) 발행· 유통 규율체계 정비 방안」을 해석하고 부동산 조각투자가 개선될 방향에 대해 설명하고 있다.
나. AI 가격 예측
금융시장에서 주가 예측을 위해 전통적인 ARIMA 모형부터 SVM(Support Vector Machine), DNN(Deep Neural Network), MLP(Multi-Layered Perception), LSTM(Long Short-Term Memory), RNN(Recurrent Neural Network) 등이 활용되어 왔다.
김상환(2022)은 XGBOOST 모형을 활용하여 주식시장의 상승 또는 하락 여부를 예측하였다. 대상 주식은 미국 다우존스지수를 구성하는 30개 종목 중 애플, 보잉, 코카콜라와 월마트 등 4개 종목을 선택하고 2016년 1월 4일부터 2021년 12월 30일까지 일일 데이터를 활용하였다. 오 분류 비율이 45% 내외의 값을 도출하였으며 효율적인 시장을 고려할 경우 50% 보다 낮은 비율로 의미 있는 성과로 평가하였다.
김은미 외(2020)는 기계학습 모형을 활용한 주택매도 결정요인 분석 및 예측모델을 구축하는 연구를 진행하였다. 여기서 OLS 분석을 통해 매도이익, 주택가격, 가구원 수, 거주주택형태(단독주택, 아파트)가 주택 보유기간에 영향을 미치는 것으로 나타냈고 RMSE 값을 분석 비교해 본 결과 머신러닝이 더 높은 예측력을 나타냈다. 머신러닝 모형으로는 Random Forest, Decision Tree, Gradient Boosting, XGBOOST을 활용하였다.
하대우 외(2019)는 XGBOOST 모형을 활용하여 코스피 200 주가지수의 등락을 예측하고자 하였다. 한국종합주가지수 200 등락 예측을 위해 전통적인 자기회귀모형, LSTM 그리고 XGBOOST 모형을 활용하였다. 기간은 2010년 1월 29일부터 2017년 12월 28일까지이다. 세 가지 모형 중 XGBOOST의 예측이 가장 효과적임을 알 수 있다.
김선웅(2023)은 머신러닝 모형을 활용하여 글로벌 자동차 기업의 주가를 예측 비교하였다. 2011년 1월부터 2022년 9월까지 미국의 지엠(GM), 테슬라(Tesla), 독일의 폭스바겐(Volkswagen), 벤츠(Mercedes Benz), 일본의 도요타(Toyota), 한국의 현대차(Hyundai Motors의 일별 주가 자료를 이용하여 예측을 진행하였으며 XGBOOST 모형을 진행 시 예측력과 특성 변수 중요도가 무엇인지도 나타내고 있다.
Zhu, Zhe & He, Kexin. (2022)은 ARIMA, XGBOOST 그리고 LSTM Models을 이용하여 Amazon’s Stock Price를 예측하였다. 변수로는 Open Price, High Price, Low Price, Closing Price를 사용하였다. 3가지 모형을 비교 분석한 결과 LSTM이 우수한 결과를 나타내고 있다.
다. 차별성
기존의 선행연구들은 일반적으로 XGBOOST를 활용하여 거래량이 크고 거래 기간이 긴 대중화된 일반 주식시장을 대상으로 주가 예측을 진행하였다. 주식시장 데이터는 일반적으로 고빈도, 단기적 변동성이 높은 특징을 가지고 있다. 부동산 시장 데이터는 장기적 안정성과 시간에 따른 점진적 변화가 특징이 있다. 다시 말해 주식시장 데이터는 단기적 변동성에 중점을 둔 반면, 부동산 시장 데이터는 장기적 추세와 외부 경제적 요인을 중요하게 고려한다. 이렇게 다른 특징을 나타나는 부동산 상품에서 XGBOOST를 활용한 예측이 가능한지 확인하고자 한다. 본 연구는 일반 주식이 아닌 특정 부동산 상품에 대한 가치 평가를 둔 가격예측을 하고자 한다. 그리고 RMSE를 이용하여 실측치와 예측치의 오차율을 확인하고자 한다. 또한 특성 변수 중요도를 찾아 종가에 대한 중대한 영향을 미치는 변수를 찾고 중요도를 나타내고자 한다.
이는 투자자에게 정확한 정보에 기반한 의사결정을 가능하게 할 것이다. 마지막으로 가격 변동 패턴을 이해함으로써 투자자들은 이익을 극대화할 수 있는 기회를 제공하고자 한다.
Ⅲ. 연구의 설계
1. 부동산 조각투자
충청남도 천안시에 위치한 “TE 물류센터” 부동산 조각투자 상품의 개요는 다음과 같다. 충청남도 천안시 동남구 병천면 가전리 266-3 외 3필지에 위치해 있으며, 디지털 자산유동화증권(DABS) 상품명은 “TE 물류센터”이다. 발행 신탁은 ㈜한국토지신탁이며 해당 DABS의 총 발행량은 2,400,000 DABS로 공모 총액은 120억 원이며 액면가는 5,000원이다. 상장일은 2022년 06월 24일이다. 건물의 대지면적은 17,324㎡이며 연면적은 6,533.86㎡이다. 건폐율 34.44%와 용적률 37.95%이다. 지상 2층으로 구성되어 있고 준공일은 2020.07.06.이며 주차 대수는 총 22대(자주식)이다. 해당 건물은 계획관리지역에 속하고 주요 용도로는 창고시설이다.
임대차 현황은 주식회사 태은물류가 임대기간 2020.05.01~2027.04.30 동안 보증금 500,000,000원에 월 임대료 44,998,000원에 사용하고 있으며 주식회사 효명피씨가 임대기간 2022.05.30.~2023.11.29 동안 월 임대료 3,000,000원(6개월치 임대료 선납)에 사용하고 있다. 두 회사의 합계는 6,553.86㎡에 보증금 500,000,000원 월 임대료 47,998,000원이다.
2. 변수선정
선행연구에서 기술한 내용과 같이 주가예측에는 여러 가지 방법이 있었다. XGBOOST 모형을 활용한 가격예측에 적절한 변수는 시가, 고가, 저가, 종가, 거래량(김선웅, 2023; Zhu, Zhe & He, Kexin 2022 ), 코스피 지수, 환율, 금리(한태동, 2021)지표 등이 있었다. 주가 등락을 예측하기 위해 김상환(2022)은 상대강도지수(RSI), SAR, ADX, 이동평균 차이 변수를 활용하였다. 주택매도 결정요인 분석 및 예측모델을 구축하는 연구의 진행을 위해 김은미 외(2020)는 housing price, housing area, margin, debt, loan, housing holding, people, housing_type 변수를 활용하였다. 또한 뮤직카우 상품 가격 예측을 위해 가격, 거래량, MCPI, 음악저작권료, 환율, 금리, 코스피 지수 등(정현조, 이재한, 서지혜, 2022)의 변수가 사용되었다. 선행연구에서 사용했던 변수들을 <표 4>로 정리하였다. 선행연구에서 사용된 변수들을 참고하여 본 연구에 맞는 주요 거래 지표 5가지와 외부 거시 경제지표 3가지를 연구모델에 사용한 변수로 선정하였다.
3. 연구모델
본 연구는 변수를 이용하여 부동산 조각투자 종가를 예측하는 것이다. 부동산 조각투자인 카사코리아는 월요일부터 금요일까지 5일 장이므로 5일간의 데이터를 가지고 훈련을 하고 다음 날 하루의 종가를 예측(신동하 등, 2017)하고자 한다. 예측하기 위해 사용된 변수는 5일 단위이며 이를 표로 나타내면 <표 5>와 같다.
XGBOOST는 여러 개의 결정 트리를 결합하는 앙상블 학습 방법을 사용하고 이 방식은 일반적으로 높은 예측 정확도를 제공한다. 오버 피팅을 방지하기 위한 정규화 메커니즘이 내장되어 있어, 모델이 학습 데이터에 지나치게 최적화되는 것을 방지한다. 각 특징(Feature)의 중요도를 계산하고 평가할 수 있어, 어떤 변수가 주가 예측에 가장 영향을 미치는지 이해하는 데 도움이 된다. 다양한 손실 함수와 사용자 정의 평가 기준을 지원한다. 이로 인해 다양한 종류의 예측 문제에 적용할 수 있다. 본 연구는 부동산 조각투자 가격예측을 하는데 XGBOOST가 적합하다고 판단하여 진행하였다.
4. 데이터 수집 및 처리
주가예측은 살아 움직이는 생명체처럼 다양한 종속변수에 의해 움직이며, 많은 잡음(Noise), 비정상성(Non-stationarity), 그리고 비선형성으로 인해 가격 변동이나 기대 수익을 예측하는 것은 매우 어려운 작업이다. 하지만 딥러닝 모형을 활용하여 기존의 전통적인 예측 방법보다 예측 성과가 개선되는 것으로 밝혀지고 있다(Rasekhschaffe, Jones, 2019; Daul, Jaisson, Nagy, 2022) XGBOOST가 이런 금융 분야에서 예측에 사용됨에 따라 본 연구자도 XGBOOST를 활용하여 전처리를 진행하였다.(김선웅, 2023)
부동산 조각투자 카사코리아 TE 물류센터를 상품을 통하여 거래량, 시가, 고가, 저가, 종가를 수집하였다. 한국은행 경제통계시스템에서 제공하는 데이터를 기반으로 환율, 3년 만기 국고채 금리 그리고 코스피라는 거시경제 지표를 사용하였다. 토큰증권 DABS 액면가액은 5,000원이다.
TE 물류센터의 기술 통계를 분석하면 거래량은 최솟값 8, 최댓값 19,613, 평균 1,590.23, 표준편차 2,885.07, 분산 8,323,608.86으로 분석하였다. 시가는 최솟값 2,810, 최댓값 5,190, 평균 4,212.65, 표준편차 476.89, 분산 227,421.35으로 분석하였다. 고가는 최솟값 3,520, 최댓값 5,200, 평균 4,278.01, 표준편차 441.41, 분산 194,840.14로 분석하였다. 저가는 최솟값 2,810, 최댓값 5,090, 평균 4,024.43, 표준편차 475.57, 분산 226,164.93로 분석하였다. 종가는 최솟값 3,480, 최댓값 5,170, 평균 4,106.51, 표준편차 449.63, 분산 202,163.59로 분석하였다. 환율은 최솟값 1,219, 최댓값 1,437, 평균 1,321.47, 표준편차 45.93, 분산 2,109.76로 분석하였다. KOSPI는 최솟값 2,155, 최댓값 2,667, 평균 2,447.39, 표준편차 111.94, 분산 12,530.03으로 분석하였다. 금리는 최솟값 3.009, 최댓값 4.548, 평균 3.61346, 표준편차 0.319332, 분산 0.102으로 분석하였다.
최소-최대 정규화(Min-Max Normalization)를 사용하는 이유는 데이터를 일관된 스케일로 조정하여 모델의 학습 효율성과 성능을 향상시키기 위함이다. 이 정규화 과정은 모든 입력 특성을 동일한 범위(예: 0과 1 사이)로 조정함으로써 모든 특성을 동등하게 고려하고, 더 빠르고 안정적으로 가중치를 조정할 수 있게 한다. 또한, 이는 기울기 소실(Gradient Vanishing) 문제를 완화하고, 이상치(outliers)의 영향을 줄이며, 모델이 데이터의 본질적인 패턴에 더 집중할 수 있도록 도와, 전반적으로 모델의 예측 정확도와 일반화 능력을 개선하는 데 기여한다. 이런 이유로 신동하 외(2017)는 보조지표를 포함한 다양한 조합으로 예측을 하는데 최소-최대 정규화(Min-Max Normalization)를 이용하여 정규화하였고, 한태동(2021) 역시 업종별로 주가 범위가 다르므로 효과적인 학습과 업종별 결과를 비교하기 위하여 최소-최대 정규화(Min-Max Normalization) 방법을 사용하여 식 (7)과 같이 모든 입출력 데이터를 0과 1사이로 정규화하였다.
(7) |
Ⅳ. 실증분석
1. 데이터 수집 및 처리
본 연구는 연구 기간의 데이터를 갖고 진행하며 5일을 하나의 인스턴스로 하고 익일 1일의 데이터를 예측하는 것을 목표로 진행한다.
이럴 경우 TE 물류센터의 전체 인스턴스는 327개가 되며 인스턴스 비율을 8:2로 하여 262개의 훈련 데이터 셋과 65개의 테스터 데이터 셋으로 나누었다. 나누어진 인스턴스를 파이썬(Colaboratory)을 활용하여 진행하였다.
예측 종가와 실제 종가의 오차율을 검증하기 위해 RMSE(Root Mean Square Error) 식 (8)을 사용하였다. 식에서 Yi는 예측 종가 값이고 Xi는 실제 종가 값을 나타낸다.
(8) |
이 연구에서 XGBOOST 모델의 핵심 하이퍼파라미터로는 n_estimators(부스팅 트리의 수), max_depth(트리의 최대 깊이), learning_rate(학습률) 등이 고려되었다.
n_estimators는 부스팅 과정에서 생성될 트리의 총개수를 결정한다. 이는 모델이 학습할 수 있는 최대한의 반복 횟수를 의미하며, 각 반복마다 모델은 학습 데이터의 새로운 부분에 초점을 맞추어 오차를 줄여간다. n_estimators의 값이 클수록 모델은 학습 데이터에 대해 더 세밀하게 학습할 수 있지만, 과적합의 위험이 증가한다. 이는 특히 노이즈가 많은 데이터 셋에서 문제가 될 수 있다. 반면, 값이 너무 작으면 과소적합의 위험이 있다. 적절한 n_estimators의 설정은 모델의 일반화 능력과 성능을 최적화하는 데 중요하다. 본 연구에서는 n_estimators 값을 100, 200, 300, 400, 500까지 다양하게 설정하여 진행하였다.
max_depth는 각 트리가 성장할 수 있는 최대 깊이를 제한한다. 트리의 깊이는 모델이 데이터의 특성을 얼마나 상세하게 학습할 수 있는지를 결정한다. 더 깊은 트리는 더 복잡한 모델을 의미하며, 데이터의 미묘한 패턴을 잘 포착할 수 있지만, 과적합을 유발할 수 있다. 반면, 깊이가 낮은 트리는 모델의 학습 능력을 제한할 수 있다. 이에 따라 max_depth는 주어진 문제의 복잡성과 데이터의 특성에 따라 조절되어야 한다. 김상환(2022)은 XGBOOST 모형의 주가예측 실증 연구에서 depth를 3, 4, 5, 6로 설정하여 진행하였으며 본 연구에서는 max_depth 값을 3, 5, 7까지 다양하게 설정하여 진행하였다.
learning_rate는 학습 과정에서의 각 단계 별 업데이트 크기를 조절하는 결정적인 하이퍼파라미터로 자리 잡고 있다. 낮은 learning_rate가 모델의 과적합 방지 및 일반화 능력 향상에 기여하는 반면, 학습 속도를 저하시키고 때때로 불충분한 학습 결과를 초래할 수 있다. 이와 대조적으로 높은 learning_rate는 모델의 빠른 학습 및 초기 수렴을 촉진하지만, 과적합의 위험성을 증가시킬 수 있다. 김은미 외(2020)는 주택매도 결정요인 분석 및 예측모델 구축에 있어 환경에 적절한 learning_rate값을 0.1, 0.01, 1, 0.2로 설정하여 진행하였다. 본 논문은 learning_rate의 값은 0.1, 0.01, 0.001로 설정하여 진행하였다.
2. 실험 결과
본 연구는 하이퍼파라미터 값을 넣어 실험하였으며 부동산 조각투자 TE 물류센터 종가를 예측하고, RMSE를 이용하여 Train Error와 Test Error의 기술 통계량을 각각 계산하였다.
TE 물류센터의 Train Error과 Test Error의 최솟값, 1분 위수, 중앙값, 평균, 3분 위수, 최댓값을 아래와 같이 나타내고 있다.
XGBOOST를 진행하여 TE 물류센터의 최적의 n_estimators는 500, max_depth 7, learning_rate 0.01일 경우에 최적의 Train Score 0.000018, Test Score 0.001043 결과값을 얻었다.
TE 물류센터는 Train RMSE의 값은 0.00424이며 Test RMSE의 값은 0.03228으로 최소한의 예측 결과값을 얻었다.
부동산 조각투자 TE 물류센터의 Test RMSE의 구간의 결과 값과 Train RMSE와 Test RMSE의 합한 전체 구간의 결과값을 그래프로 나타냈다.
본 연구에서는 테스트 구간에서 주식의 전체 변수를 해당 주식의 입력변수로 하는 XGBOOST 모형으로부터 변수 중요도(feature importance)를 산출하여 비교하였다. <그림 4>는 산출된 중요도를 도표로 보여주고 있다. 변수 중 주가 예측에 가장 높은 중요도를 나타내고 있는 것은 종가, 저가임을 알 수 있다.
실증 결과를 분석해 보면 최적의 XGBOOST 모델 도출에서 n_estimators가 500으로 설정되었다, 이는 모델이 500개의 결정 트리를 사용해 학습한다는 것을 의미한다. max_depth(트리의 최대 깊이)에 있어서는 TE 물류센터의 max_depth가 7을 나타내고 있다. TE 물류센터의 높은 max_depth는 복잡한 데이터 구조를 포착할 수 있음을 의미하고 있음을 알 수 있다. learning_rate(학습률)에서는 learning_rate가 0.01로 설정되어 있다. learning_rate는 각 반복에서 모델 학습의 단계 크기를 조절한다. 너무 높으면 학습 과정에서 최적점을 놓칠 수 있고, 너무 낮으면 학습이 느려질 수 있다. 0.01의 learning_rate는 안정적인 학습을 위한 보수적인 접근으로, 모델이 점진적으로 최적화되도록 한다. TE 물류센터에서 변수 중 익일 종가 예측에 가장 높은 중요도를 나타내고 있는 것은 종가, 저가가 종가 예측에 가장 높은 중요도를 나타내는 것을 알 수 있다.
TE 물류센터의 Train Score와 Test Score는 매우 낮은 값으로 모델이 학습 데이터와 검증 데이터에 대해 매우 정확한 예측을 하고 있음을 의미한다. 낮은 RMSE 값은 예측 오차가 작음을 나타내며, 이는 모델의 예측이 신뢰할 수 있음을 의미한다. TE 물류센터의 부동산 조각투자는 모델을 통해 상대적으로 정확하게 가격을 예측할 수 있으며, 투자 위험이 낮을 것으로 추정된다.
정리하면 TE 물류센터는 높은 예측 정확도를 보여 안정적인 투자 대상일 수 있다. 이러한 분석은 투자자가 부동산 조각투자 상품을 선택할 때 유용한 정보를 제공할 수 있으며, 상품을 이해하는 데 도움이 된다.
Ⅴ. 결과
금융위 규제혁신서비스 특례 사업이 진행되고, 금융위원회 가이드라인 발표 「토큰증권(Security Token) 발행· 유통 규율체계 정비 방안」(2023. 2. 6.)가 진행됨에 따라 토큰증권을 이용한 부동산 조각투자가 활성화되고 있다. 따라서 본 연구는 아직 한 번도 진행되지 않은 부동산 조각투자 상품을 딥러닝 모형을 활용하여 부동산 가격예측을 시도했다는 점에서 많은 의의가 있다.
국내에서 금융위원회 혁신 서비스로 특례를 받아 사업을 진행하고 있는 카사코리아 TE 물류센터를 대상으로 최초로 딥러닝 모형 XGBOOST를 진행하였다. 실험 결과 XGBOOST 모형에서 높은 예측력을 확인할 수 있었다. 16개월 짧은 기간에도 불구하고 종가 예측을 한 결과 RMSE 값을 기반으로 우수한 예측력을 보여 주었다. 이 결과는 금융시장에서 사용되고 있는 딥러닝 모델이 부동산 조각투자에서도 효과적임을 알 수 있다. 또한 XGBOOST 모형을 이용하여 우수한 예측력과 더불어 종가 예측에 중요한 변수를 확인할 수 있었다. 하지만 본 연구에도 몇 가지 한계점은 나타나고 있다.
첫째, 주요 거래 지표와 함께 외부 거시경제 지표를 활용하였지만 그 밖에 더 다양한 부동산 시장의 변수를 포함하지 못한 아쉬움이 있다. 이런 부동산 특징을 나타내는 변수를 찾아, 분석한다면 모델의 정확도를 높일 수 있고 특정 부동산 상품의 특징을 찾을 수 있을 것이라 생각한다. 둘째 부동산은 일반적으로 장기적 추세를 반영하여 긴 시간 동안 데이터를 통해 모델을 예측한다. 하지만 지금 금융위 규제혁신서비스 특례 사업이 진행하고 있는 카사코리아 상품은 기간이 짧고 거래량이 많지 않아 더 나은 예측력을 보이는데 한계점을 가지고 있다. 셋째, 본 연구에서는 1개의 상품을 진행하였지만 그 이상의 상품을 진행하여, 다른 특정 종류의 부동산 자산에 대한 딥러닝 모형을 적용 및 테스트하여 부동산 상품 별로 의미 있는 예측력을 찾고자 하는 아쉬움이 있다. 이럴 경우 상품을 비교 분석하여 특정 상품에 대한 부동산 특징을 파악할 수 있을 것이라 생각된다. 마지막으로 본 연구는 딥러닝 모형 XGBOOST만을 활용하여 부동산 조각투자 가격예측을 하였지만 다른 최신 딥러닝 모형을 동시에 진행하여 비교 분석하면 더 깊이 있는 결과를 찾을 수 있을 것이라 생각된다.
부동산 조각투자는 토큰증권을 활용하여 부동산 조각투자를 유동화하고 금융위의 가이드라인에 따라 점차 확산되고 있는 사업이다. 따라 이런 딥러닝 모델을 활용하여 부동산 조각투자 가격예측을 활성화하여 효율성을 높여주면 투자자들에게 더욱 신뢰받을 수 있는 투자 방안이 될 것이다.
References
- 김선웅(2023). “머신러닝모형을 이용한 글로벌 자동차 기업의 주가 예측 비교.” Journal of the Korean Data Analysis Society 25.1 : 249-263.
- 서병완·김준홍(2023). “블록체인 기반 디지털 플랫폼상의 국내 조각투자에 관한 사례연구.” 한국디지털콘텐츠학회논문지 24.3 : 617-629.
- 정현조·이재환·서지혜(2022). “LSTM 모델을 이용한 조각투자 상품의 가격 예측: 뮤직카우를 중심으로.” 지능정보연구 28.4 : 81-94.
- 임혜정·유정한(2023). “부동산 조각투자의 법적 쟁점 및 규제.” 不動産法學 27.2 : 85-127.
- 신동하·최광호·김창복(2017). “RNN과 LSTM을 이용한 주가 예측율 향상을 위한 딥러닝 모델.” 한국정보기술학회논문지 15.10 : 9-16.
- 한태동(2021). “LSTM을 이용한 주가 예측: 기술 지표, 거시 경제 지표, 시장 심리의 조합을 중심으로.” 융복합지식학회논문지 9.4 : 189-198.
- 김상환(2022). “Xgboost 모형의 주가예측성과에 대한 실증연구.” 사회과학연구 39.1 : 29-55.
- 김은미·김상봉·조은서(2020). “기계학습을 활용한 주택매도 결정요인 분석 및 예측모델 구축.” 지적과 국토정보 50.1 : 181-200.
- 하대우·김영민·안재준(2019). “XGBoost 모형을 활용한 코스피 200 주가지수 등락 예측에 관한 연구.” 한국데이터정보과학회지 30.3 : 655-669.
- Zhu, Zhe & He, Kexin. (2022). Prediction of Amazon’s Stock Price Based on ARIMA, XGBoost, and LSTM Models. Proceedings of Business and Economic Studies. 5. 127-136. [https://doi.org/10.26689/pbes.v5i5.4432]
- Rasekhschaffe, K., Jones, R. (2019). Machine learning for stock selection, Financial Analysts Journal, 75(3), 13-29. [https://doi.org/10.1080/0015198X.2019.1596678]
- Daul, S., Jaisson, T., Nagy, A. (2022). Performance attribution of machine learning methods for stock returns prediction, The Journal of Finance and Data Science, 8, 86-104. [https://doi.org/10.1016/j.jfds.2022.04.002]
2022년 건국대학교 부동산대학원 박사를 수료하였으며 현재 세종텔레콤 블록체인융합사업팀 General Manager와 동서울대학교 도시계획부동산학과 겸임교수로 재직 중이다. 주요 관심 연구 분야로는 프롭테크, 부동산 경매, 부동산 유동화 등이다.
건국대학교 부동산학과 교수로 재직 중으로, 연구분야로는 노인주택, 감정평가, 경공매, 지방소멸 등 부동산과 관련된 다양한 분야이고 정부부처와 공공기관의 자문 위원을 역임하고 있다. 최근 논문으로는 “우리나라 연속보호체계형 은퇴주거단지(CCRC)의 운영 요인에 관한 연구(2022)” 등이 있다.