Notice
Recent Posts
Recent Comments
Link
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 변수
- 파이썬문법
- github
- 머신러닝
- 딥러닝
- 개념정리
- 파이썬
- bigquery
- error
- 함수
- Jupyter Notebook
- data
- 딕셔너리
- 빅쿼리
- 2주차
- 회고
- 회고록
- sql
- 데이터
- ML
- python
- 데이터사이언스
- 모두의연구소
- 주피터노트북
- 1주차
- 깃허브
- AI
- 데이터사이언티스트
- 데이터베이스
- 프로젝트
Archives
목록2025/06/16 (1)

머신러닝 모델이 텍스트를 이해하고 잘 분석하기 위해서, 전처리 과정에서 텍스트를 숫자 벡터로 변환하는 벡터화 과정을 거친다.벡터화 방법으로는 1. 통계와 머신 러닝을 활용한 방법2. 인공 신경망을 활용하는 방법 두 가지로 나눌 수 있다.이 글에서는 1번에 대한 내용을 담고 있다. 1. 🛠 Bag of Words (BoW)개념: 문서 내 단어들의 등장 횟수를 기반으로 문서를 표현하는 매우 간단한 방법.단어 가방: 단어들의 순서나 문법적 구조는 무시하고, 단순히 단어의 유무 및 빈도만 고려. 등장 횟수 기록: 각 단어가 문서에 나타난 횟수를 기록 ({"movies": 2}).단어장(Vocabulary): 중복을 제거한 모든 단어들의 집합.활용 도구:1) Keras Tokenizer: 단어와 빈도수를 ..
Deep Learning
2025. 6. 16. 17:43