pocket

[Data Scientist] Week4 회고록 (+Data Processing 과정 정리) 본문

Data Scientist

[Data Scientist] Week4 회고록 (+Data Processing 과정 정리)

jpocket 2025. 4. 22. 17:49
반응형

출처: https://velog.io/@yuns_u/Data-Processing

 

✅ 새로 알게 된 개념이나 학습 내용🧠📘💡

데이터 전처리 과정에 대해 깊이 있게 학습하였다.

"데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다."
-'kaggle' 창립자 Anthony Goldbloom-

 

인용된 말에서도 알 수 있듯이,

전처리는 매우 중요한 부분이라 따로 정리해 보았다.

 

 

 

데이터 전처리(Data Preprocessing)


데이터 전처리(Data Preprocessing) 특정 분석에 적합하게 데이터를 가공하는 작업을 의미한다.

 

 

 

데이터 전처리 개요


  • 필요한 이유: 분석에 부적합한 구조, 누락된 항목, NA(결측값) 존재 등으로 인해 전처리 과정이 필요하다.
  • 데이터 전처리에서 하는 일 : 노이즈 제거, 중복값 제거 , 결측값 보정, 데이터 연계/통합, 데이터 구조 변경(차원 변경) 등
  • 데이터 전처리에서 사용하는 것들: 데이터 벡터화, outlier detection, Feature Engineering 등이 있다.

 

 

 

데이터 전처리의 과정


1. Cleaning (cleansing도 맞는 표현이라고 함 (GPT왈)
2. Integration
3. Transformation
4. Reduction

 

 

 

- Data cleaning


missing value(결측치) 처리

dropna()로 삭제하거나 fillna()로 채워주어 해결해 주었다.

 

outlier(이상치) 처리

마찬가지고 drop()하거나 replace() 등으로 해결한다.

 

duplicate(중복값) 제거

특정 열 기준으로 중복 제거하거나 upper() or lower()로 통일화 등으로 해결한다.

 

 

 

- 그리고 Integration에서는 

concat, merge, join.. 을 다루었다.

바로 통합이냐 칼럼명 기준이냐 인덱스 기준이냐의 차이다.

 

 

 

- Data transform


데이터의 형태를 변환하는 작업으로 scaling이라고 부르기도 한다.

Feature Engineering이 포함하는 것들로

  • scaling(Min-Max Scaling, Standard Scaling, Robust Scaling, MaxAbs Scaling)
  • normalization, standardization(Z-Score)
  • One-hot encoding(=pd.get_dummies()는 한 쌍이라고 암기)
  • 새로운 변수 생성
  • 로그 변환
  • 벡터화(캐글 필사하면서 알게 됨)
  • 변수 선택

에 대해 코드로 어떻게 표현이 되는지 중심으로 학습하였다.

(머신러닝에서 성능을 좌우하는 핵심 작업 중 하나라고 하니 더 열심히 했다.)

 

 

 

- 또 하나의 과정으로는 Reduction이다.

불필요한 데이터는 제거하고, 의미 있는 데이터만 활용하도록 하기 위한 작업이었다.

여기서는 PCA기법이 사용되었다.

(이후 모델링 작업을 배우면 더 많은 기법들, 기술들을 접하게 되고

최종적으로는 인사이트 도출하는 경험을 할 수 있지 않을까 기대해 본다.)

 

 

 

📝 약간의 일상 공유☕🍀📷

모니터만 보니까 눈이 너무 아프다.

쉴 때도 점점 핸드폰을 안 하게 된다.

(전자기기 싫어..)

 

📅 이번 위크는 어땠는지📅🌀📈

꾸려진 조와 마지막 활동이다.

만나는 조원마다 좋아서 매번 아쉽다.

코딩, 문법, 개념 등 새로운 걸 많이 배웠고,

프로젝트도 3개 진행했는데 인사이트를 도출할만한 과정은 아직인 것 같다.

분석기법이나 코딩, 문법에 더 초점을 맞춰야 하나보다.

얼른 모델링 배우고 결론 도출하는 과정을 통해 도메인 지식을 많이 쌓고 싶다.

 

🌟 잘한 점👏🌈🏅

깃허브 파일 구조 정리와 환경 세팅 완료

(자꾸 오류 나서 힘들었음)

최대한 영어로,, 적어보려고 노력 중

 

🔧 개선해야 할 점🛠️🧹🪞

복습 밀리지 않기

 

🎯 앞으로의 목표🎯🚀📍

내가 배운 기술, 용어를 그때마다 꼼꼼히 적어두기

반응형