티스토리 뷰

타이타닉 데이터를 기준으로 하였다. Kaggle 데이터를 사용해서 데이터를 pandas 를 사용해서 어떻게 잘 처리할 수 있는지 공부해보았다. 

 

 

*** 타이타닉 데이터 - 참고 

 

 

 

train.py 

 

test.py 

 

 

1. read_csv 파일 읽기 

1
2
train = pd.read_csv('C:\\Users\\my\\Desktop\\input\\train.csv')
test = pd.read_csv('C:\\Users\\\my\Desktop\\input\\test.csv')
cs

 

 

2. train, test 정보확인하기 

- info 함수 : 각 column의 정보보기 

 

1
2
print(train.info())
print(test.info())
cs

 

- head() 함수 : 앞 5줄의 정보만 간략하게 보기 

1
2
print(train.head())
print(test.head())
cs

 

-describe()함수 : 각 feature가 가진 통계치 반환 

 

1
2
print(train.describe())
print(test.describe())
cs

 

- dtypes() 함수 : 각 데이터 별로 데이터의 특성 알기 

 

 

3. 원하는 column 지우기 

1
2
3
del train['Ticket']; del test['Ticket']
del train['Cabin']; del test['Cabin']
del train['Name']; del test['Name']
cs

 

4. 원하는 column 넣기 

1
2
test.insert(loc=1,column="Survived",value=0)
print(test.head())
cs

 

 

5. train column과 test colum 합치기 

- pd.concat()함수 사용 

1
2
total = pd.concat([train, test], axis=0)
print(total.info())
cs

axis = 0 일때는 바로 밑으로 데이터가 가고

axis = 1 일때는 바로 옆으로 데이터가 간다! 

=>>>> total = pd.concat([total,sex,embarked],axis = 1

 

 

 

 

 

6. One hot encoding 사용하기 

- One hot encoding 후 필요 없는 column 지우기 

1
2
3
4
5
6
#One hot encoding
sex = pd.get_dummies(total['Sex'])
embarked = pd.get_dummies(total['Embarked'])
#기존칼럼제거
del total['Sex']
del total['Embarked']
cs

 

 

 

7. 데이터를 위에서 concat 이라는 함수로 합쳤으므로 나누기! 

1
2
3
#나누기
train = total[0:len(train)]
test = total[len(train):]
cs

 

 

 

 

** 목표값을 제외한 값 -> x_data 로 설정하기 

1
2
3
x_data = [x for x in train.columns if x not in [target, IDcol]]
print(x_data)
 
cs

'Programming > python' 카테고리의 다른 글

python으로 구현한 fft와 librosa library  (1) 2019.09.11
numpy.random.RandomState  (0) 2019.09.10
[5] python pandas 파일 정리 mission  (0) 2019.09.08
python - BeautifulSoup, re  (0) 2019.09.06
python - matplot & seaborn  (0) 2019.09.05
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG more
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함