TIL/머신러닝 13

시계열 데이터 분석 2

3. 확률 보행 프로세스   3.1 확률 보행(Random Walk)란? 평균과 분산이 시간이 지나도 일정하지 않은 비정상 시계열   시간이 지남에 따라 무작위로 이동하는 경로를 설명하는 수학적 모델 확률이 개입하는 다양한 현상을 설명하는 데 필수적인 모델, 자연과학, 경제학, 컴퓨터 공학 등에 응용yt : 현재 값yt-1 : 이전 시간 단계의 값C : 상수, 기본적으로 시계열이 가지는 평균 값εt​  : 백색 소음, 표준정규분포를 따르는 난수로 시계열에 포함된 무작위적 요소(노이즈)이 공식에서 현재 값이 과거 값, 상수, 백색소음의 입력 값으로 결정된 함수라는 점을 기억-> 현재 값이 과거 정보와 랜덤한 변동의 영향을 받는다는 의미!    3.1 정상성이란 ?시계열의 통계적 성질이 시간에 따라 변하지 ..

TIL/머신러닝 2024.09.26

시계열 데이터 분석 1

시계열 분석이란 ?과거의 흐름으로 미래를 예측하는 방법론 중 하나시계열 데이터 = '시간에 따라 정렬된 데이터'단, 데이터는 주기적으로 기록되며, 이를 동일한 시간단계(time step)으로 분포한다고 정의ex) 주식, 가정의 전기 소비량 등 다른 머신러닝과 달리 시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있음. 모든 시계열 데이터는 세 가지 구성요소를 가짐.  1. 트렌드시간이 지남에 따라 지속적이고 일관된 방향으로 변화하는 장기적 패턴증가, 감소, 혹은 일정한 상태2. 계절성일정한 시간 주기에 따라 반복되는 패턴주로 연간 주기를 따르며, 특정 계절에 따라 데이터가 반복적인 변동을 보이는 경우계절성은 일반적으로 시간에 관련된 고정된 주기를 가지고 있으며, 특정 시점에서 데이터가 규칙..

TIL/머신러닝 2024.09.24

머신러닝| 딥러닝

딥러닝(Deep Learning) 이란 ?- 머신러닝의 한 분야로, 신경세포 구조를 모방한 인공 신경망(Artificial Neural Networks) 사용딥러닝은 머신러닝과 같은 흐름이지만, 내부 구조가 다르다. 특히, 자연어 처리와 이미지 처리에 최적화둘 다 데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 AI의 분야.(머신러닝 : 데이터 만의 통계적 관계를 찾아 예측/분류) 인공 신경망 : 인간의 신경세포를 모방하여 만든 Networks퍼셉트론 : 인공 신경망의 가장 작은 단위선형회귀때 예제인 키와 몸무게를 퍼셉트론으로 표현해보자. 선형 회귀에서 최소화 하려는 값은MSE : 에러를 제곱한 총합의 평균즉, 가중치를 이리 저리 움직이면서 최소의 MSE를 도출하면 된..

TIL/머신러닝 2024.08.22

비지도학습 K-Means Clustering 군집화

머신러닝의 비지도 학습과 K-Means에 대해서 학습하였다. 비지도학습데이터의 '유사성'을 기반으로 레이블링해서 답(y)를 지정하는 작업정답이 없는 문제이기 때문에 주관적인 판단이 개입된다.ex) 고객 특성에 따른 그룹화 (헤비 vs 일반)K-Means Clustering 이론1. K개의 군집 수 설정2. 임의의 중심점 선정3. 해당 중심점과 거리가 가까운 데이터를 그룹화4. 데이터 그룹의 무게중심으로 중심점 이동5. 중심점을 이동했기 때문에 다시 거리가 가까운 데이터 그룹화6. 위 3~5 과정을 계속 반복 위 그림에선 K 군집 수를 3으로 설정하였다. 장점일반적이고 적용하기 쉽다.단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어진다.반복 횟수가 많을 수록 시간이 느려진다.몇 개..

TIL/머신러닝 2024.08.20

의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘

의사결정나무 (Decision Tree, DT)의사결정규칙을 나무 구조로 나타내어, 전체 자료를 n개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 1. 루트노드 root node : DT 시작점, 1차 분류조건2. 리프노드 leaf node : 루트로부터 파생된 노드3. 분류기준 criteria : 루트노드에서의 분류조건, 아래 예시에서는 여성0 남성1로 인코딩 후 0.5 기준으로 분류4. 불순도 impurity : gini 계수로 측정 (0-1), 낮을수록 분류가 잘 된 것, 리프로 갈수록 낮아짐.                                0 = 완벽한 순도 = 모든 샘플이 하나의 클래스                                1 = 완벽한 불순도 = 노드 샘플이 균..

TIL/머신러닝 2024.08.20

데이터분석 예측 모델링 실습

타이타닉 데이터로 실습해보고자 한다. info()로 확인한 타이타닉 데이터의 컬럼별 정보이다. 데이터 분석은 아래의 단계로 이루어짐. 1. 데이터 로드 및 분리 (test / train)2. 탐색적 데이터 분석(EDA)    데이터 분포 및 이상치 확인3. 데이터 전처리    이상치 처리    결측치 처리    수치형/범주형 전처리 (스케일링 / 인코딩)4. 모델 학습5. 모델 평가 1. 데이터 로드 및 분리라이브러리를 불러와준다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns 타이타닉 데이터의 경우 이미 train / test 데이터로 분리되어 있기 때문에 파일 경로만 복사해서 넣어주면 되었..

TIL/머신러닝 2024.08.19

데이터 프로세스 : 데이터 전처리, EDA

1. 데이터 수집데이터 수집 단계는 예제 데이터 혹은 회사 데이터로 진행되기 때문에, 지나치는 경우가 많다.하지만 적재돼있는 데이터가 없는 회사거나 수집이 필요한 경우가 생길 수 있다.Data SourceOLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터Web/Log: 사용자의 로그데이터Data Lake: 원시 형태의 다양한 유형의 데이터를 저장Data Warehouse: 보..

TIL/머신러닝 2024.08.16

머신러닝 - 다중 로지스틱회귀 실습

이 전 포스팅에서 실습했던 X변수 'Fare'에 Pclass와 Sex 컬럼을 추가하여 다중 로지스틱 회귀를 실습해보자. # 다중 로지스틱 회귀 실습 def get_sex(x):    if x == 'female':         return 0     else:        return 1 titanic_df['Sex_en'] = titanic_df['Sex'].apply(get_sex) X_2 에 Fare, Sex, Pclass를 넣어주자.X_2 = titanic_df[['Pclass','Sex_en','Fare']]y_true = titanic_df[['Survived']] from sklearn.linear_model import LinearRegression, LogisticRegression m..

TIL/머신러닝 2024.08.13

머신러닝 - 로지스틱회귀 실습

타이타닉 예측 대회 데이터를 통해 로지스틱회귀를 실습해보고자 함.선형 회귀 때와 같이 import 로 필요한 라이브러리를 가져왔다.import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport sklearn  데이터를 확인한 후 가설을 세워보았다."비상상황 특성상 여성을 배려하여 많이 생존하였을 것이다."가설의 검증에는 두 가지 방법이 있음.        1. pivot table을 만들어 확인        2. 그래프를 통해서 확인 1. pivot_table2. 그래프이렇게 성별은 생존과 관련이 있다는 사실을 알 수 있다. 그렇다면 X변수로 쓸 수 있는 컬럼에 어떤 것이 더 있을까 ?데이터를 분..

TIL/머신러닝 2024.08.13

머신러닝 - 로지스틱회귀 이론

로지스틱회귀란 ?- 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법 로지스틱회귀 이론만약 X를 연속형 변수로 두고 Y를 특정 상황이 일어날 확률(p)로 설정한다면, 선형회귀로는 표현이 불가능함.선형 함수는 발산하기 때문에 실제 확률이 0보다 작거나 1보다 크게 나올 수 있음. 이 한계를 보완하고자 로지스틱회귀를 사용아래 그래프를 보면 함수에 로그를 걸어 Y값이 0과 1로 수렴하도록 된 것을 볼 수 있다.즉, Y가 특정 범주에 속할 때 범주형 변수에 대한 분석으로 로지스틱 회귀가 적합하다는 것을 알 수 있음. 로지스틱회귀 수식1. Odds RatioOdds Ratio(오즈비)란 실패확률 대비 성공확을 뜻함.확률 p에 대해 다음과 같이 정의됨.예를 들어 어떤 상황이 일..

TIL/머신러닝 2024.08.12