pandas 데이터 전처리하는 방법

티스토리 뷰

Programming/python

pandas 데이터 전처리하는 방법

RosyPark 2019. 9. 9. 16:10

타이타닉 데이터를 기준으로 하였다. Kaggle 데이터를 사용해서 데이터를 pandas 를 사용해서 어떻게 잘 처리할 수 있는지 공부해보았다.

*** 타이타닉 데이터 - 참고

train.py

test.py

1. read_csv 파일 읽기

1
2

train = pd.read_csv('C:\\Users\\my\\Desktop\\input\\train.csv')
test = pd.read_csv('C:\\Users\\\my\Desktop\\input\\test.csv')

cs

2. train, test 정보확인하기 
- info 함수 : 각 column의 정보보기 
 
1
2

print(train.info())
print(test.info())

cs

- head() 함수 : 앞 5줄의 정보만 간략하게 보기

1
2

print(train.head())
print(test.head())

cs

-describe()함수 : 각 feature가 가진 통계치 반환 
 
1
2

print(train.describe())
print(test.describe())

cs

- dtypes() 함수 : 각 데이터 별로 데이터의 특성 알기 
 
3. 원하는 column 지우기

1
2
3

del train['Ticket']; del test['Ticket']
del train['Cabin']; del test['Cabin']
del train['Name']; del test['Name']

cs

 
4. 원하는 column 넣기 

1
2

test.insert(loc=1,column="Survived",value=0)
print(test.head())

cs

5. train column과 test colum 합치기 
- pd.concat()함수 사용

1
2

total = pd.concat([train, test], axis=0)
print(total.info())

cs

axis = 0 일때는 바로 밑으로 데이터가 가고
axis = 1 일때는 바로 옆으로 데이터가 간다! 
=>>>> total = pd.concat([total,sex,embarked],axis = 1) 
 
6. One hot encoding 사용하기 
- One hot encoding 후 필요 없는 column 지우기

1
2
3
4
5
6

#One hot encoding
sex = pd.get_dummies(total['Sex'])
embarked = pd.get_dummies(total['Embarked'])
#기존칼럼제거
del total['Sex']
del total['Embarked']

cs

 
 
 
7. 데이터를 위에서 concat 이라는 함수로 합쳤으므로 나누기! 

1
2
3

#나누기
train = total[0:len(train)]
test = total[len(train):]

cs

** 목표값을 제외한 값 -> x_data 로 설정하기

1
2
3

x_data = [x for x in train.columns if x not in [target, IDcol]]
print(x_data)
 
Colored by Color Scripter

cs

'Programming > python' 카테고리의 다른 글

python으로 구현한 fft와 librosa library (1)	2019.09.11
numpy.random.RandomState (0)	2019.09.10
[5] python pandas 파일 정리 mission (0)	2019.09.08
python - BeautifulSoup, re (0)	2019.09.06
python - matplot & seaborn (0)	2019.09.05

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

Rosy's Artificial Intelligence Blog

티스토리 뷰

pandas 데이터 전처리하는 방법

'Programming > python' 카테고리의 다른 글

티스토리툴바