import pandas as pd
train = pd.read_csv(r'C:\Users\ygh12\OneDrive\바탕 화면\DB\train.csv', encoding = 'UTF-8')
test = pd.read_csv(r'C:\Users\ygh12\OneDrive\바탕 화면\DB\test.csv', encoding = "UTF-8")
# a.shape : 데이터의 열과 행의 수를 관찰
print(train.shape)
# a.head(n) : 데이터 상단 n개 출력 default = 5
# a.tail(n) : 데이터 하단 n개 출력 default = 5
print(train.head(5))
print(test.tail(10))
#a.isnull() : 결측치 확인. True False로 출력
print(train.isnull())
#a.isnull().sum() : 열별 결측치 수 확인
print(test.isnull().sum())
#a.info() : 데이터 타입과 non-null count 확인
print(train.info())
#a.dropna() : 결측치 있는 행 제거
#a.fillna(n) : n으로 결측치 대체
print(train.dropna())
print(test.fillna(0))
DACON에서는 Google Colab을 이용해서 진행하는데 그냥 파이썬으로 돌렸다. 그러다보니 조금 다른 부분도 있고 같은 코드로 동작하지 않는 부분이 있는 곳도 있는데 해결하는 재미도 있다.
Line 3, 4에서 pd.read_csv(r'경로', encoding = 'UTF-8') 이라고 적은 코드도 원래 DACON에서 소개한 코드와 다르다.
'\U'라는 문자열은 파이썬에서 유니코드를 의미하는 특수한 문자라고 한다. '\t', '\n' 처럼. 그래서 해결하기 위한 방법으로 r을 앞에 붙여주면 저 문자열들이 raw string으로 취급된다. 특수문자가 없다는 의미. 혹은 \u를 \\u로 바꿔서 해결하는 방법도 있다.
그리고 encoding = 'UTF-8'은 데이터 인코딩 과정에서 양식 차이로 발생하는 문제를 해결해 준다. (UnicodeDecodeError)
'Python > 데이터분석' 카테고리의 다른 글
[DACON] 의사결정회귀나무로 따릉이 데이터(count) 예측하기 - 모델링 (0) | 2022.07.04 |
---|---|
의사결정나무 (0) | 2022.06.23 |