[혼공머신]5-3-2 -추가학습(기타 앙상블학습)

기타 앙상블학습 앙상블 학습에는 다양한 방법들이 있으며, 여기서는 그 중 일부를 소개하겠습니다. 대표적인 앙상블 방법으로 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking), 그리고 배깅의 일종인 랜덤 서브스페이스(Random Subspace)를 설명하고, 예시 코드를 제공합니다. 배깅 (Bagging) 배깅은 같은 모델을 여러 개 학습시키고, 데이터의 부분 집합을 사용하여 각각의 모델을 학습시킨 후, 예측 시 이들의 평균 또는 투표 결과를 사용하는 방법입니다. 랜덤 포레스트가 대표적인 배깅 기법입니다. 배깅 예제 코드 from sklearn.ensemble import BaggingClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split, cross_validate import pandas as pd # 데이터 로드 및 전처리 wine = pd.read_csv('https://bit.ly/wine_csv_data') data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42) # 배깅 모델 학습 bagging = BaggingClassifier(DecisionTreeClassifier(), n_estimators=100, random_state=42) scores = cross_validate(bagging, train_input, train_target, return_train_score=True, n_jobs=-1) print(np.mean(scores['train_score']), np.mean(scores['test_score'])) bagging.fit(train_input, train_target) print(bagging.score(test_input, test_target)) 부스팅 (Boosting) 부스팅은 약한 학습기(Weak Learner)를 순차적으로 학습시키고, 이전 모델의 오류를 수정해 나가는 방식입니다. 그레이디언트 부스팅, XGBoost, LightGBM 등이 여기에 속합니다. ...

2024-07-28 · 2 분 · ICE ICE BEAR

혼공머신5-2-1

교차검증과 그리드 서치 1. 검증 세트 검증 세트는 하이퍼파라미터 튜닝을 위해 훈련 세트에서 분리한 데이터 세트입니다. 모델의 성능을 평가할 때, 테스트 세트를 사용하지 않도록 합니다. import pandas as pd # 데이터 불러오기 및 전처리 wine = pd.read_csv('https://bit.ly/wine_csv_data') data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() # 훈련 세트와 테스트 세트로 분리 from sklearn.model_selection import train_test_split train_input, test_input, train_target, test_target = train_test_split( data, target, test_size=0.2, random_state=42) # 훈련 세트에서 다시 검증 세트로 분리 sub_input, val_input, sub_target, val_target = train_test_split( train_input, train_target, test_size=0.2, random_state=42) print(sub_input.shape, val_input.shape) 위 코드에서 데이터를 불러와 훈련 세트와 테스트 세트로 나눈 후, 다시 훈련 세트를 서브 세트와 검증 세트로 분리합니다. ...

2024-07-28 · 4 분 · ICE ICE BEAR

[혼공머신]4-1

로지스틱 회귀 로지스틱 회귀는 선형 회귀와 달리 분류 문제에 사용되는 지도 학습 알고리즘입니다. 주요한 특징은 선형 방정식을 사용하여 데이터 포인트를 분류하는데, 이 과정에서 시그모이드 함수나 소프트맥스 함수를 사용해 클래스 확률을 출력합니다. 핵심 개념 로지스틱 회귀 (Logistic Regression) 선형 회귀와 달리, 로지스틱 회귀는 이진 분류 문제에 사용됩니다. 출력값은 시그모이드 함수에 의해 0과 1 사이의 확률 값으로 변환됩니다. 시그모이드 함수 (Sigmoid Function) $ \sigma(x) = \frac{1}{1 + e^{-x}} $ 선형 방정식의 출력을 0과 1 사이의 값으로 압축합니다. 주로 이진 분류에서 사용됩니다. 소프트맥스 함수 (Softmax Function) ...

2024-07-21 · 2 분 · ICE ICE BEAR

[혼공머신]4-1 -추가학습(정규화 기법)

정규화 기법 (Regularization Techniques) 정규화는 머신러닝 모델의 과적합(overfitting)을 방지하고 일반화 성능을 향상시키기 위해 사용되는 기법입니다. 특히 로지스틱 회귀와 같은 선형 모델에서 중요한 역할을 합니다. 정규화는 모델의 복잡도를 줄여, 학습 데이터에 너무 치우치지 않도록 하는 데 도움을 줍니다. 주로 사용되는 정규화 기법에는 L1 정규화와 L2 정규화가 있습니다. 1. L1 정규화 (Lasso Regularization) L1 정규화는 가중치 벡터의 절대값 합을 패널티로 추가하는 방식입니다. 수식: $$ \text{Loss function} = \text{original loss} + \lambda \sum_{j=1}^{p} |w_j| $$ 여기서 $ \lambda $는 정규화 강도를 제어하는 하이퍼파라미터이고,$ w_j $는 모델의 가중치입니다. ...

2024-07-21 · 2 분 · ICE ICE BEAR

[혼공머신]4-2

확률적 경사 하강법(SGD, Stochastic Gradient Descent) 확률적 경사 하강법(SGD)은 기계 학습에서 널리 사용되는 최적화 알고리즘입니다. 이 알고리즘은 대규모 데이터 셋에서도 빠르고 효율적으로 동작합니다. 아래는 확률적 경사 하강법에 대한 핵심 포인트와 상세한 설명입니다. 핵심 포인트 확률적 경사 하강법: 훈련 세트에서 샘플 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘. 미니배치 경사 하강법: 여러 개의 샘플을 동시에 사용하는 방법. 배치 경사 하강법: 전체 샘플을 한 번에 사용하는 방법. 손실 함수: SGD가 최적화할 대상. 이진 분류에는 로지스틱 회귀, 다중 분류에는 크로스엔트로피 손실 함수, 회귀 문제에는 평균 제곱 오차 손실 함수를 사용. 에포크: 전체 샘플을 모두 사용하는 한 번의 반복. 수십에서 수백 번의 에포크를 반복. 주요 패키지와 함수 scikit-learn ...

2024-07-21 · 3 분 · ICE ICE BEAR

[혼공머신]4-2 -추가학습(기타 손실함수)

기타 손실함수 1. Hinge Loss (힌지 손실 함수) 특징: 주로 서포트 벡터 머신(SVM)에서 사용됩니다. 분류 문제에 적합하며, 데이터 포인트가 결정 경계를 넘어갈 때 손실을 가중합니다. 이진 분류 문제에서 많이 사용됩니다. 예시: from sklearn.linear_model import SGDClassifier clf = SGDClassifier(loss='hinge', max_iter=1000, tol=0.001, random_state=42) clf.fit(train_scaled, train_target) print("훈련 세트 점수:", clf.score(train_scaled, train_target)) print("테스트 세트 점수:", clf.score(test_scaled, test_target)) 2. Squared Hinge Loss (제곱 힌지 손실 함수) 특징: 힌지 손실의 변형으로, 제곱된 값을 사용하여 오류가 클 때 더 큰 패널티를 줍니다. 더 큰 마진을 제공하여 분류기의 일반화 능력을 향상시킵니다. 예시: clf = SGDClassifier(loss='squared_hinge', max_iter=1000, tol=0.001, random_state=42) clf.fit(train_scaled, train_target) print("훈련 세트 점수:", clf.score(train_scaled, train_target)) print("테스트 세트 점수:", clf.score(test_scaled, test_target)) 3. Huber Loss (후버 손실 함수) 특징: 회귀 문제에서 사용됩니다. 작은 오류에 대해서는 제곱 오차로 처리하고, 큰 오류에 대해서는 절대 오차로 처리하여 이상치에 강건한 성능을 보입니다. 예시: from sklearn.linear_model import SGDRegressor reg = SGDRegressor(loss='huber', max_iter=1000, tol=0.001, random_state=42) reg.fit(train_scaled, train_target) print("훈련 세트 점수:", reg.score(train_scaled, train_target)) print("테스트 세트 점수:", reg.score(test_scaled, test_target)) 4. Log Loss (로그 손실 함수 또는 로지스틱 손실 함수) 특징: 로지스틱 회귀에서 사용됩니다. 이진 분류 문제에 적합하며, 예측 확률과 실제 클래스 간의 차이를 측정합니다. 예시: clf = SGDClassifier(loss='log', max_iter=1000, tol=0.001, random_state=42) clf.fit(train_scaled, train_target) print("훈련 세트 점수:", clf.score(train_scaled, train_target)) print("테스트 세트 점수:", clf.score(test_scaled, test_target)) 5. Epsilon-Insensitive Loss (엡실론 민감 손실 함수) 특징: 서포트 벡터 회귀(SVR)에서 사용됩니다. 예측 값과 실제 값이 일정 범위(엡실론) 내에 있을 때 손실을 무시합니다. 회귀 문제에서 특정 오차 범위 내의 값을 무시하고, 이상치에 민감하지 않은 모델을 만듭니다. 예시: reg = SGDRegressor(loss='epsilon_insensitive', max_iter=1000, tol=0.001, random_state=42) reg.fit(train_scaled, train_target) print("훈련 세트 점수:", reg.score(train_scaled, train_target)) print("테스트 세트 점수:", reg.score(test_scaled, test_target)) 6. Squared Loss (제곱 오차 손실 함수) 특징: 회귀 문제에서 가장 일반적으로 사용됩니다. 예측 값과 실제 값의 차이를 제곱하여 손실을 계산합니다. 이상치에 민감할 수 있습니다. 예시: reg = SGDRegressor(loss='squared_loss', max_iter=1000, tol=0.001, random_state=42) reg.fit(train_scaled, train_target) print("훈련 세트 점수:", reg.score(train_scaled, train_target)) print("테스트 세트 점수:", reg.score(test_scaled, test_target)) 7. Perceptron Loss (퍼셉트론 손실 함수) 특징: 퍼셉트론 학습에서 사용됩니다. 분류 문제에 적합하며, 예측이 틀렸을 때만 손실을 계산합니다. 예시: clf = SGDClassifier(loss='perceptron', max_iter=1000, tol=0.001, random_state=42) clf.fit(train_scaled, train_target) print("훈련 세트 점수:", clf.score(train_scaled, train_target)) print("테스트 세트 점수:", clf.score(test_scaled, test_target)) 결론 이와 같이 다양한 손실 함수는 각기 다른 문제와 목표에 맞춰 최적의 성능을 발휘할 수 있도록 설계되었습니다. 각 손실 함수의 특성을 이해하고 적절히 선택하는 것이 모델 성능 향상의 핵심입니다.

2024-07-21 · 2 분 · ICE ICE BEAR

[혼공머신]3-1

[혼공머신]3-1 1. 회귀 문제란? 회귀는 임의의 수치를 예측하는 문제로, 타깃값도 임의의 수치가 됩니다. 2. k-최근접 이웃 회귀 k-최근접 이웃 회귀는 k-최근접 이웃 알고리즘을 사용해 회귀 문제를 풉니다. 가장 가까운 이웃 샘플을 찾아 이 샘플들의 타깃값을 평균하여 예측으로 삼습니다. 3. 결정계수 (R²) 결정계수는 회귀 문제의 성능을 측정하는 대표적인 도구입니다. 1에 가까울수록 좋은 모델이며, 0에 가까울수록 성능이 나쁜 모델입니다. 4. 과대적합과 과소적합 과대적합: 모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을 때 발생합니다. 모델이 훈련 세트에 너무 집착하여 데이터의 거시적인 패턴을 감지하지 못하는 경우입니다. 과소적합: 훈련 세트와 테스트 세트 성능이 모두 낮거나 테스트 세트 성능이 더 높을 때 발생합니다. 더 복잡한 모델을 사용해 훈련 세트에 잘 맞는 모델을 만들어야 합니다. 5. 핵심 패키지와 함수 scikit-learn KNeighborsRegressor: k-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스입니다. n_neighbors 매개변수로 이웃의 개수를 지정합니다. mean_absolute_error(): 회귀 모델의 평균 절댓값 오차를 계산합니다. 첫 번째 매개변수는 타깃, 두 번째 매개변수는 예측값을 전달합니다. mean_squared_error(): 평균 제곱 오차를 계산합니다. numpy reshape(): 배열의 크기를 바꾸는 메서드입니다. 바꾸고자 하는 배열의 크기를 매개변수로 전달합니다. 6. 예제 코드 다음은 k-최근접 이웃 회귀를 사용한 간단한 예제입니다. ...

2024-07-13 · 3 분 · ICE ICE BEAR

[혼공머신]3-1 -추가학습(k-최근접 이웃 모델의 원리와 활용)

[혼공머신]3-1 -추가학습(k-최근접 이웃 모델의 원리와 활용) k-최근접 이웃 모델의 수학적 원리 k-최근접 이웃(K-Nearest Neighbors, KNN) 모델은 비모수적 방법으로, 데이터 포인트가 주어졌을 때 가장 가까운 ( k )개의 이웃을 기반으로 새로운 데이터를 예측하는 방법입니다. 이 알고리즘은 다음과 같은 단계를 따릅니다: 거리 측정: 새로운 데이터 포인트와 기존 데이터 포인트 간의 거리를 계산합니다. 일반적으로 유클리드 거리(Euclidean distance)를 사용합니다. 유클리드 거리 ( d )는 다음과 같이 계산됩니다: $$ d(\mathbf{x}i, \mathbf{x}j) = \sqrt{\sum{l=1}^{n} (x{il} - x_{jl})^2} $$ 여기서 $\mathbf{x}_i $와 $ \mathbf{x}_j $는 각각 ( n )차원의 벡터를 나타냅니다. ...

2024-07-13 · 3 분 · ICE ICE BEAR

[혼공머신]3-1 -추가학습(분류와 회귀문제에 모두 사용할 수 있는 머신러닝 모델)

[혼공머신]3-1 -추가학습(분류와 회귀문제에 모두 사용할 수 있는 머신러닝 모델) 1. 결정 트리 (Decision Trees) 결정 트리는 데이터의 특성과 타깃 변수 간의 관계를 모델링하기 위해 트리 구조를 사용하는 알고리즘입니다. 분류(Decision Tree Classifier): 각 노드에서 특정 특성의 값에 따라 데이터를 분할하여 최종적으로 클래스 레이블을 예측합니다. 회귀(Decision Tree Regressor): 각 노드에서 특정 특성의 값에 따라 데이터를 분할하여 최종적으로 타깃 값의 평균을 예측합니다. 예제 코드 from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor # 분류 clf = DecisionTreeClassifier() clf.fit(train_input, train_target) clf_pred = clf.predict(test_input) # 회귀 reg = DecisionTreeRegressor() reg.fit(train_input, train_target) reg_pred = reg.predict(test_input) 2. 랜덤 포레스트 (Random Forest) 랜덤 포레스트는 다수의 결정 트리를 사용하여 예측을 수행하는 앙상블 기법입니다. ...

2024-07-13 · 2 분 · ICE ICE BEAR

[혼공머신]3-2 머신러닝에서의 선형 회귀와 다항 회귀

[혼공머신]3-2 머신러닝에서의 선형 회귀와 다항 회귀 머신러닝에서 회귀는 종속 변수(타깃)와 하나 이상의 독립 변수(특성) 사이의 관계를 모델링하는 기본적인 기술입니다. 목표는 이 관계를 나타내는 최적의 선 또는 곡선을 찾는 것입니다. 이 교육 자료에서는 선형 회귀와 다항 회귀의 주요 개념과 이를 Python의 scikit-learn 라이브러리를 사용하여 구현하는 방법에 대해 다룹니다. 선형 회귀 선형 회귀는 특성과 타깃 사이의 선형 관계를 찾는 것을 목표로 합니다. 이 관계는 다음과 같은 선형 방정식으로 표현됩니다: $$ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n $$ 여기서: ...

2024-07-13 · 4 분 · ICE ICE BEAR