티스토리 뷰
타이타닉 데이터를 기준으로 하였다. Kaggle 데이터를 사용해서 데이터를 pandas 를 사용해서 어떻게 잘 처리할 수 있는지 공부해보았다.
train.py
test.py
1. read_csv 파일 읽기
1
2
|
train = pd.read_csv('C:\\Users\\my\\Desktop\\input\\train.csv')
test = pd.read_csv('C:\\Users\\\my\Desktop\\input\\test.csv')
|
cs |
2. train, test 정보확인하기
- info 함수 : 각 column의 정보보기
1
2
|
print(train.head())
print(test.head())
|
cs |
-describe()함수 : 각 feature가 가진 통계치 반환
1
2
|
print(train.describe())
print(test.describe())
|
cs |
- dtypes() 함수 : 각 데이터 별로 데이터의 특성 알기
3. 원하는 column 지우기
1
2
3
|
del train['Ticket']; del test['Ticket']
del train['Cabin']; del test['Cabin']
del train['Name']; del test['Name']
|
cs |
4. 원하는 column 넣기
1
2
|
test.insert(loc=1,column="Survived",value=0)
print(test.head())
|
cs |
5. train column과 test colum 합치기
- pd.concat()함수 사용
1
2
|
total = pd.concat([train, test], axis=0)
print(total.info())
|
cs |
axis = 0 일때는 바로 밑으로 데이터가 가고
axis = 1 일때는 바로 옆으로 데이터가 간다!
=>>>> total = pd.concat([total,sex,embarked],axis = 1)
6. One hot encoding 사용하기
- One hot encoding 후 필요 없는 column 지우기
1
2
3
4
5
6
|
#One hot encoding
sex = pd.get_dummies(total['Sex'])
embarked = pd.get_dummies(total['Embarked'])
#기존칼럼제거
del total['Sex']
del total['Embarked']
|
cs |
7. 데이터를 위에서 concat 이라는 함수로 합쳤으므로 나누기!
1
2
3
|
#나누기
train = total[0:len(train)]
test = total[len(train):]
|
cs |
** 목표값을 제외한 값 -> x_data 로 설정하기
1
2
3
|
x_data = [x for x in train.columns if x not in [target, IDcol]]
print(x_data)
|
cs |
'Programming > python' 카테고리의 다른 글
python으로 구현한 fft와 librosa library (1) | 2019.09.11 |
---|---|
numpy.random.RandomState (0) | 2019.09.10 |
[5] python pandas 파일 정리 mission (0) | 2019.09.08 |
python - BeautifulSoup, re (0) | 2019.09.06 |
python - matplot & seaborn (0) | 2019.09.05 |
댓글