- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- data
- AI
- Jupyter Notebook
- 빅쿼리
- 주피터노트북
- 개념정리
- 딥러닝
- ML
- 2주차
- 파이썬
- 함수활용
- python
- 함수
- 데이터사이언티스트
- 회고록
- 깃허브
- 데이터
- 변수
- 딕셔너리
- 데싸4기
- 머신러닝
- 1주차
- 파이썬문법
- 회고
- 모두의연구소
- 데이터베이스
- github
- bigquery
- sql
- error
목록전체 글 (56)

머신러닝 모델이 텍스트를 이해하고 잘 분석하기 위해서, 전처리 과정에서 텍스트를 숫자 벡터로 변환하는 벡터화 과정을 거친다.벡터화 방법으로는 1. 통계와 머신 러닝을 활용한 방법2. 인공 신경망을 활용하는 방법 두 가지로 나눌 수 있다.이 글에서는 1번에 대한 내용을 담고 있다. 1. 🛠 Bag of Words (BoW)개념: 문서 내 단어들의 등장 횟수를 기반으로 문서를 표현하는 매우 간단한 방법.단어 가방: 단어들의 순서나 문법적 구조는 무시하고, 단순히 단어의 유무 및 빈도만 고려. 등장 횟수 기록: 각 단어가 문서에 나타난 횟수를 기록 ({"movies": 2}).단어장(Vocabulary): 중복을 제거한 모든 단어들의 집합.활용 도구:1) Keras Tokenizer: 단어와 빈도수를 ..

1. 텍스트 데이터를 문자열로 저장하기1) 인코딩과 디코딩2) 문자열 다루기3) 정규 표현식 2. 파일과 디렉터리 다루기1) 파일 다루기2) 디렉터리 다루기3) 모듈과 패키지 3. 여러 가지 파일 포맷 다루기1) CSV 파일2) XML파일3) JSON 파일 1-1) 인코딩과 디코딩문자열 데이터를 변수에 저장하면 컴퓨터는 주기억장치 메모리 RAM에 저장한다.RAM에 저장될 때 컴퓨터는 0과 1 즉, 이진 데이터로만 표현되기 때문에 이 데이터도 0과 1로 변환돼 저장된다. 어떻게 문자열을 이진수로 표현할까?전 세계 문자를 모두 숫자로 표시할 수 있는 표준 코드인, 유니코드로 표현한다. ord() : 해당 문자에 대응하는 유니코드 숫자 반환chr() : 해당 유니코드 숫자에 대응하는 문자를 반환 ..
🛠 Tensor? 텐서란?딥러닝에서 데이터를 표현하고 계산하기 위한 기본 단위로딥러닝 연산은 모두 텐서 연산으로 이루어진다. 텐서의 차원에 따라 이름이 다르다.텐서 차원설명예시실제 상황 비유0차원 (스칼라)숫자 하나, 크기 없음5, 3.14온도계의 현재 온도 22도1차원 (벡터)숫자들의 나열, 선형 배열[5, 7, 9]시험 점수 리스트: 수학, 영어, 과학2차원 (행렬)행과 열이 있는 데이터 테이블[[1, 2], [3, 4]]엑셀 표처럼 (학생 x 과목 점수)3차원 (큐브)여러 개의 행렬 → 종이 뭉치 느낌[[[1,2], [3,4]], [[5,6], [7,8]]]흑백 이미지 여러 장 (예: 100장의 28x28 사진)4차원각 데이터마다 채널까지 포함된 구조(batch, channel, height, w..

📌[참고문헌]- https://todayisbetterthanyesterday.tistory.com/42- 모두의 연구소 강의 자료이미지는 출처 이슈로 직접 그렸다. 1. 🛠 인공 신경망 모형인공 신경망 모형은 인간의 뉴런 자극 전달 과정에 아이디어를 착안하여 발생한 머신러닝 알고리즘이다.인간은 시냅스를 통하여 다른 뉴런으로부터 자극을 전달받고, 시냅스를 통해 다른 뉴런에게 자극을 전달한다.인공신경망에서는 뉴런을 🛠 노드 또는 뉴런이라 부른다.이 노드들이 여러 개 모이면 🛠 층 layer를 이룬다.이 구조를 수학적으로 모델링한 게 퍼셉트론 perceptron이다. 2. 🛠 퍼셉트론하나의 퍼셉트론은 어떤 구조로 되어있을까?하나의 퍼셉트론은 여러 개의 입력값을 받아 한 개의 출력을 만..

참여 계기부트캠프 도중 퍼실리테이터 분들께서 태블로 부트캠프를 진행한다고 알려주셨다.수업 시간에 주로 데이터 시각화를 배우고 있었기 때문에, 태블로를 활용한 시각화 과정이 흥미롭게 느껴졌고, 제출 기한에 크게 구애받지 않는 점이 가장 큰 장점으로 다가와 참여를 결정하게 되었다. 진행 방식진행 기간은 4월 18일부터 5월 1일까지였는데, 나는 4월 말부터 5월 초까지 약 일주일 정도에 걸쳐 과제를 수행했다.마음만 먹으면 하루 만에도 끝낼 수 있는 분량이지만, 나는 하루에 하나씩 여유 있게 진행하면서 일주일 정도 시간을 두고 완성했다.내 페이스에 맞춰 천천히 하다 보니 부담 없이 재미있게 할 수 있었던 것 같다. 💡 난이도: ★★☆☆☆🎁 수료 선물: 수료증 + 다이소 5,000원 쿠폰 + 배민 5,..

데이터톤 회고 (2025.05.31 ~ 06.04) 데이터톤은 짧은 기간 동안 팀을 이루어 데이터를 분석하고, 인사이트를 도출해 하나의 프로젝트로 완성한 뒤 발표를 진행한다.각자 관심있는 도메인으로 팀을 구성하였고, 4~5명의 팀으로 총 4일간 진행되었다.이 글은 그 과정에서 무엇을 고민했고, 어떤 방식으로 문제를 풀어나갔는지, 그리고 느낀 점들을 되돌아보기 위한 회고이다. 무엇을 고민하였고, 어떤 방식으로 해결하였는지고민1 - 협업 툴은 어떤 걸로 사용할 것인가?Github vs Google Drive전공 특성상 GitHub를 자주 활용해왔지만, 팀원들 중에는 GitHub 사용이 처음인 분들도 있어 협업 방식에 대해 고민이 필요했다. 짧은 기간 안에 익숙하지 않은 도구를 새롭게 도입하는 것이 ..
✅ 새로 알게 된 개념이나 학습 내용🧠📘💡https://jpocket.tistory.com/49 [시계열] 시계열 데이터, 시계열 데이터 성질, 시계열 데이터의 EDA1. 시계열 데이터란?시계열 데이터란 무엇인가?일정 시간 간격으로 배치된 데이터들의 수열 시계열 분석이란?시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계정보를 추출하기 위한 노jpocket.tistory.com 📝 약간의 일상 공유☕🍀📷날씨가 많이 더워졌다.공부할 때 선풍기 필수다...(ㅠ) 📅 이번 위크는 어땠는지📅🌀📈시계열 데이터 개념을 처음 접해서 어렵게 느껴졌다.도식화로 과정을 정리하면서 공부하니까 흐름이 잡히면서 이해가 서서히 되었다. ARIMA와 ARCH 모델은 시계열 데이터를 분석하는 데 사용되는 전통적..
✅ 새로 알게 된 개념이나 학습 내용🧠📘💡https://jpocket.tistory.com/43 [ML] Machine Learning 머신러닝 과정 정리 (코드로 이해하기)머신러닝 전체 흐름도 도식화사용 툴: tldraw 데이터 준비# 데이터 생성import pandas as pdimport numpy as npdata = pd.DataFrame({ '메뉴': ['[인기]아이펠치킨','닭강정','간장치킨','마늘치킨','파닭','승일양념치jpocket.tistory.com 📝 약간의 일상 공유☕🍀📷벌써 5월이다.날씨가 풀리면서 약속도 많아진다.오랜만에 에버랜드를 다녀왔는데눈치게임 성공해서 놀이기구 13개 타고 왔다. 📅 이번 위크는 어땠는지📅🌀📈배우고 싶었던 분야라서 어렵지만 재밌..

1. 시계열 데이터란?시계열 데이터란 무엇인가?일정 시간 간격으로 배치된 데이터들의 수열 시계열 분석이란?시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계정보를 추출하기 위한 노력→ 예측하거나 과거의 행동을 진단하는 과정을 포함현재 시점 t=0t1 t2 t3.. → 과거t+1, t+2, t+3… → 미래 데이터 관련 라이브러리 복기numpy array vs python listnumpy arraypython list하나의 데이터 타입만 배열에 넣을 수 있음여러 타입들을 배열에 넣을 수 있음값들이 저장주소들이 저장속도 빠름속도 느림속도 면에서 더 활용도가 높은 numpy를 사용한다.numpy는 list에 비해 유연성을 부족하지만 연산 속도에 있어 우수 NUMPYnumpy 호출 및 numpy ar..

출처: https://product.kyobobook.co.kr/detail/S000001766511?utm_source=google&utm_medium=cpc&utm_campaign=googleSearch>_network=g>_keyword=>_target_id=dsa-608444978378>_campaign_id=9979905549>_adgroup_id=132556570510&gad_source=1_network=g>_keyword=>_target_id=dsa-608444978378>_campaign_id=9979905549>_adgroup_id=132556570510&gad_source=1" target="_blank" rel="noopener" data-source-url="ht..