- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 개념정리
- 함수활용
- 파이썬
- 회고
- bigquery
- 주피터노트북
- 변수
- 파이썬문법
- 회고록
- 머신러닝
- data
- 깃허브
- 데이터
- 딕셔너리
- 데이터사이언티스트
- 데이터베이스
- 모두의연구소
- 딥러닝
- 2주차
- error
- sql
- python
- AI
- 함수
- github
- 데싸4기
- 1주차
- Jupyter Notebook
- 빅쿼리
- ML
[Data Scientist] Week4 회고록 (+Data Processing 과정 정리) 본문
출처: https://velog.io/@yuns_u/Data-Processing
✅ 새로 알게 된 개념이나 학습 내용🧠📘💡
데이터 전처리 과정에 대해 깊이 있게 학습하였다.
"데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다."
-'kaggle' 창립자 Anthony Goldbloom-
인용된 말에서도 알 수 있듯이,
전처리는 매우 중요한 부분이라 따로 정리해 보았다.
데이터 전처리(Data Preprocessing)
데이터 전처리(Data Preprocessing)는 특정 분석에 적합하게 데이터를 가공하는 작업을 의미한다.
데이터 전처리 개요
- 필요한 이유: 분석에 부적합한 구조, 누락된 항목, NA(결측값) 존재 등으로 인해 전처리 과정이 필요하다.
- 데이터 전처리에서 하는 일 : 노이즈 제거, 중복값 제거 , 결측값 보정, 데이터 연계/통합, 데이터 구조 변경(차원 변경) 등
- 데이터 전처리에서 사용하는 것들: 데이터 벡터화, outlier detection, Feature Engineering 등이 있다.
데이터 전처리의 과정
1. Cleaning (cleansing도 맞는 표현이라고 함 (GPT왈)
2. Integration
3. Transformation
4. Reduction
- Data cleaning
missing value(결측치) 처리
dropna()로 삭제하거나 fillna()로 채워주어 해결해 주었다.
outlier(이상치) 처리
마찬가지고 drop()하거나 replace() 등으로 해결한다.
duplicate(중복값) 제거
특정 열 기준으로 중복 제거하거나 upper() or lower()로 통일화 등으로 해결한다.
- 그리고 Integration에서는
concat, merge, join.. 을 다루었다.
바로 통합이냐 칼럼명 기준이냐 인덱스 기준이냐의 차이다.
- Data transform
데이터의 형태를 변환하는 작업으로 scaling이라고 부르기도 한다.
Feature Engineering이 포함하는 것들로
- scaling(Min-Max Scaling, Standard Scaling, Robust Scaling, MaxAbs Scaling)
- normalization, standardization(Z-Score)
- One-hot encoding(=pd.get_dummies()는 한 쌍이라고 암기)
- 새로운 변수 생성
- 로그 변환
- 벡터화(캐글 필사하면서 알게 됨)
- 변수 선택
에 대해 코드로 어떻게 표현이 되는지 중심으로 학습하였다.
(머신러닝에서 성능을 좌우하는 핵심 작업 중 하나라고 하니 더 열심히 했다.)
- 또 하나의 과정으로는 Reduction이다.
불필요한 데이터는 제거하고, 의미 있는 데이터만 활용하도록 하기 위한 작업이었다.
여기서는 PCA기법이 사용되었다.
(이후 모델링 작업을 배우면 더 많은 기법들, 기술들을 접하게 되고
최종적으로는 인사이트 도출하는 경험을 할 수 있지 않을까 기대해 본다.)
📝 약간의 일상 공유☕🍀📷
모니터만 보니까 눈이 너무 아프다.
쉴 때도 점점 핸드폰을 안 하게 된다.
(전자기기 싫어..)
📅 이번 위크는 어땠는지📅🌀📈
꾸려진 조와 마지막 활동이다.
만나는 조원마다 좋아서 매번 아쉽다.
코딩, 문법, 개념 등 새로운 걸 많이 배웠고,
프로젝트도 3개 진행했는데 인사이트를 도출할만한 과정은 아직인 것 같다.
분석기법이나 코딩, 문법에 더 초점을 맞춰야 하나보다.
얼른 모델링 배우고 결론 도출하는 과정을 통해 도메인 지식을 많이 쌓고 싶다.
🌟 잘한 점👏🌈🏅
깃허브 파일 구조 정리와 환경 세팅 완료
(자꾸 오류 나서 힘들었음)
최대한 영어로,, 적어보려고 노력 중
🔧 개선해야 할 점🛠️🧹🪞
복습 밀리지 않기
🎯 앞으로의 목표🎯🚀📍
내가 배운 기술, 용어를 그때마다 꼼꼼히 적어두기
'Data Scientist' 카테고리의 다른 글
[Data Scientist] Week7 회고록 (+금융 시계열 데이터) (0) | 2025.06.06 |
---|---|
[Data Scientist] Week6 회고록 (+Machine Learning) (3) | 2025.05.27 |
[Data Scientist] Week5 회고록 (0) | 2025.05.07 |
[Data Scientist] Week3 회고록(KPT) (0) | 2025.04.13 |
[Data Scientist] 1️⃣~2️⃣Week 회고록 (0) | 2025.04.06 |