본문 바로가기

데이터분석

(3)
[DACON] 의사결정회귀나무로 따릉이 데이터(count) 예측하기 - 모델링 import sklearn from sklearn.tree import DecisionTreeClassifier from sklearn.tree import DecisionTreeRegressor train = pd.read_csv(r'C:\Users\ygh12\OneDrive\바탕 화면\DB\train.csv', encoding = "UTF-8") test = pd.read_csv(r'C:\Users\ygh12\OneDrive\바탕 화면\DB\test.csv', encoding = "UTF-8") # 결측치 제거 test = test.dropna() train = train.dropna() # X, Y 설정 axis = 0 : 행 / axis = 1 : 열 X_train = train.drop(['co..
의사결정나무 의사결정나무란 무엇일까? 단어를 풀어서 보면, 의사를 결정하는 나무라고 볼 수 있다. 생각해보면 이진트리와 같이 '나무', 혹은 '트리'라는 단어를 어렵지 않게 찾아볼 수 있다. '나무'란 무엇일까? '나무', 혹은 '트리'는 상위, 하위 단계를 가지는 계층 구조라고 정의할 수 있다. 그러다면 의사결정나무는 의사를 결정하는 계층 구조이다. 다음과 같은 데이터가 있다고 생각해보자. [1, 2, 3, 4, 5, 10, 20, 30, 40, 50, 77] 이 데이터 셋을 분류하는 방식은 아주 다양할 것이다. '25보다 큰가?' '5의 배수인가?' 등등. 간단하게 말하자면 의사결정나무는 이렇게 일정한 기준을 가지고 분류하는 방식을 일컫는다고 볼 수 있다. 실제로는 훨씬 복잡한 방식으로 동작하겠지만. 의사결정나무..
[DACON] 의사결정회귀나무로 따릉이 데이터 예측하기 - 기본 + 전처리 import pandas as pd train = pd.read_csv(r'C:\Users\ygh12\OneDrive\바탕 화면\DB\train.csv', encoding = 'UTF-8') test = pd.read_csv(r'C:\Users\ygh12\OneDrive\바탕 화면\DB\test.csv', encoding = "UTF-8") # a.shape : 데이터의 열과 행의 수를 관찰 print(train.shape) # a.head(n) : 데이터 상단 n개 출력 default = 5 # a.tail(n) : 데이터 하단 n개 출력 default = 5 print(train.head(5)) print(test.tail(10)) #a.isnull() : 결측치 확인. True False로 출력 p..