Machine-Learning

[혼공머신]6-2

k-평균 (K-Means) k-평균 알고리즘은 비지도 학습에서 매우 흔히 사용되는 클러스터링 방법입니다. 이 알고리즘의 주 목적은 데이터를 k개의 클러스터로 그룹화하는 것이며, 각 클러스터는 서로 비슷한 특성을 가진 데이터 포인트들로 구성됩니다. 알고리즘의 기본적인 단계는 다음과 같습니다: 초기화: 먼저 클러스터의 수 ( k )를 정하고, 데이터 포인트들 중에서 무작위로 ( k )개의 포인트를 클러스터의 중심(센트로이드)으로 선택합니다. 할당: 각 데이터 포인트를 가장 가까운 센트로이드에 할당하여 클러스터를 형성합니다. 업데이트: 각 클러스터의 평균 위치로 센트로이드를 업데이트합니다. 이 할당과 업데이트 과정을 센트로이드의 변화가 없거나, 사용자가 설정한 최대 반복 횟수에 도달할 때까지 반복합니다. 이 알고리즘은 특히 대용량 데이터 세트에 효과적이며, 다양한 응용 분야에서 클러스터링을 위해 널리 사용됩니다. ...

[혼공머신]6-3

주성분 분석 1. 차원과 차원 축소 차원의 개념 차원이란 데이터에서 각 특성(Feature)의 수를 의미합니다. 예를 들어, 사람의 키, 몸무게, 나이라는 3가지 특성을 가진 데이터는 3차원 데이터입니다. 차원 축소의 필요성 차원의 저주: 차원이 증가할수록, 각 차원에 걸쳐 데이터를 충분히 표현하기 위해 필요한 데이터 양이 기하급수적으로 증가합니다. 이로 인해 모델의 성능이 저하될 수 있습니다. 계산 효율성 및 시각화: 높은 차원의 데이터를 처리하는 것은 계산상의 비효율을 초래하며, 3차원 이상의 데이터는 직관적으로 이해하고 시각화하기 어렵습니다. 2. 주성분 분석 소개 PCA의 원리 주성분 분석은 데이터의 분산을 최대화하는 축을 찾아 데이터를 새로운 축에 투영함으로써 차원을 축소합니다. 이 때 새로운 축들은 서로 직교합니다. 주성분(Principal Components) 데이터의 분산이 최대인 방향을 찾아 그 방향으로 데이터를 투영한 것이 주성분입니다. 첫 번째 주성분은 데이터의 분산을 가장 많이 설명하고, 두 번째 주성분은 첫 번째 주성분에 직각이면서 다음으로 큰 분산을 설명하는 방향입니다. # 필요한 라이브러리를 불러옵니다. from sklearn.decomposition import PCA from sklearn.datasets import load_iris import matplotlib.pyplot as plt # Iris 데이터셋을 로드합니다. data = load_iris() X = data.data # PCA 모델을 생성하고 학습합니다. 이 때, 2개의 주성분만을 유지하도록 설정합니다. pca = PCA(n_components=2) X_pca = pca.fit_transform(X) # 변환된 데이터의 분포를 시각화합니다. plt.figure(figsize=(8, 6)) plt.scatter(X_pca[:, 0], X_pca[:, 1], c=data.target, cmap='viridis') plt.xlabel('First principal component') plt.ylabel('Second principal component') plt.title('PCA result of Iris Dataset') plt.colorbar() plt.show() 3. PCA 클래스 (scikit-learn) 주요 매개변수 n_components: 축소할 차원의 수를 지정합니다. 기본적으로는 None으로 설정되며, 이 경우 더 적은 수의 주성분으로 설정됩니다. random_state: 결과의 일관성을 위한 난수 시드를 설정합니다. 주요 속성 components_: 추출된 주성분의 방향 벡터입니다. explained_variance_: 각 주성분에 의해 설명된 분산의 양입니다. explained_variance_ratio_: 전체 분산에 대한 각 주성분의 분산 비율입니다. # PCA 객체의 주요 속성을 출력합니다. print("Components (Principal axes):", pca.components_) print("Explained variance:", pca.explained_variance_) print("Explained variance ratio:", pca.explained_variance_ratio_) 4. 원본 데이터 재구성 PCA 변환 후, inverse_transform() 메서드를 사용하여 축소된 차원에서 원본 차원으로 데이터를 복원할 수 있습니다. 이 과정에서 일부 정보 손실이 발생하지만, 주요 특성은 유지됩니다. # 차원 축소된 데이터를 원래의 차원으로 복원합니다. X_inverse = pca.inverse_transform(X_pca) # 원본 데이터와 복원된 데이터의 비교를 위해 시각화합니다. plt.figure(figsize=(8, 6)) plt.scatter(X[:, 0], X[:, 1], alpha=0.2, label='Original') plt.scatter(X_inverse[:, 0], X_inverse[:, 1], alpha=0.8, label='Recovered') plt.legend() plt.title('Comparison of Original and Recovered Data') plt.show() 5. 설명된 분산 설명된 분산은 PCA에서 각 주성분이 데이터 전체 분산에서 얼마나 많은 부분을 차지하는지를 나타내는 지표입니다. 높은 설명된 분산 비율은 주성분이 데이터의 중요한 정보를 많이 포함하고 있음을 의미합니다. 6. 다른 알고리즘과 함께 사용하기 PCA는 다른 기계학습 알고리즘 전에 데이터를 전처리하는 단계로 사용될 수 있습니다. 차원이 축소된 데이터는 학습 속도를 향상시키고, 과적합을 방지하는 효과가 있습니다. 예를 들어, 고차원 데이터에 대해 SVM, 로지스틱 회귀 등을 적용하기 전에 PCA로 차원을 축소하는 것이 일반적입니다. from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split # PCA를 적용한 데이터로 로지스틱 회귀 모델을 학습합니다. X_train, X_test, y_train, y_test = train_test_split(X_pca, data.target, test_size=0.2, random_state=42) model = LogisticRegression() model.fit(X_train, y_train) # 모델의 정확도를 평가합니다. print("Test accuracy:", model.score(X_test, y_test))

[혼공머신]5-1

결정 트리의 정확도를 높이기 위한 방법 1. 가지치기 (Pruning) 가지치기는 트리의 불필요한 가지를 제거하여 과대적합을 방지하는 방법입니다. 사전 가지치기 (Pre-pruning): max_depth: 트리의 최대 깊이를 제한합니다. min_samples_split: 노드를 분할하기 위한 최소 샘플 수를 지정합니다. min_samples_leaf: 리프 노드가 가져야 하는 최소 샘플 수를 지정합니다. max_leaf_nodes: 리프 노드의 최대 개수를 제한합니다. model = DecisionTreeClassifier(max_depth=5, min_samples_split=10, min_samples_leaf=5, random_state=42) model.fit(X_train, y_train) 사후 가지치기 (Post-pruning): 사후 가지치기는 트리가 생성된 후 가지를 잘라내는 방법입니다. scikit-learn에서 직접 제공하지는 않지만, 트리를 생성한 후 수동으로 가지를 잘라낼 수 있습니다. 2. 앙상블 방법 (Ensemble Methods) 여러 개의 결정 트리를 사용하여 예측을 개선하는 방법입니다. ...

[혼공머신]5-1-2

결정 트리 (Decision Tree) 결정 트리는 예/아니오에 대한 질문을 통해 데이터를 분류하거나 예측하는 데 사용되는 알고리즘입니다. 이해하기 쉽고, 예측 과정도 투명하게 드러나기 때문에 매우 유용한 도구입니다. 핵심 포인트 불순도 (Impurity): 결정 트리는 데이터를 나눌 때, 각 분할이 얼마나 순수한지를 평가합니다. 사이킷런은 지니 불순도와 엔트로피 불순도를 제공합니다. 불순도는 노드의 순수도를 나타내는 척도로, 낮을수록 더 순수합니다. 정보 이득 (Information Gain): 정보 이득은 부모 노드와 자식 노드의 불순도 차이로 정의됩니다. 결정 트리는 정보 이득이 최대화되도록 학습합니다. 과대적합 (Overfitting): 결정 트리는 트리가 너무 깊어지면 훈련 데이터에 과대적합될 수 있습니다. 이를 방지하기 위해 가지치기 (Pruning)을 사용합니다. 사이킷런은 여러 가지 가지치기 매개변수를 제공합니다. 특성 중요도 (Feature Importance): 결정 트리는 각 특성이 분할에 기여한 정도를 계산할 수 있습니다. 이는 모델의 해석성을 높여주는 중요한 장점입니다. 결정 트리 알고리즘 이해하기 결정 트리 알고리즘은 데이터 분류와 회귀 문제를 해결하는 데 사용됩니다. 예/아니오와 같은 질문을 반복하여 데이터를 분할하며, 최종적으로 목표 변수의 예측을 돕습니다. 아래는 결정 트리의 시각화와 이를 읽는 방법에 대한 설명입니다. ...

[혼공머신]5-2-2 -추가학습(하이퍼파라미터 튜닝)

하이퍼파라미터를 튜닝하는 방법 그리드 서치와 랜덤 서치 외에도 하이퍼파라미터를 튜닝하는 방법은 여러 가지가 있습니다. 대표적으로는 베이지안 최적화, 하이퍼밴드(Hyperband), 그리고 진화 알고리즘(Evolutionary Algorithms) 등이 있습니다. 각각의 방법을 예시 코드와 함께 구체적으로 설명하겠습니다. 1. 베이지안 최적화 (Bayesian Optimization) 베이지안 최적화는 함수의 최대값이나 최소값을 찾는 데 사용되는 방법으로, 하이퍼파라미터 튜닝에 자주 사용됩니다. 이를 위해 scikit-optimize 라이브러리의 BayesSearchCV를 사용할 수 있습니다. from skopt import BayesSearchCV from sklearn.datasets import load_iris from sklearn.svm import SVC # 데이터 준비 iris = load_iris() X, y = iris.data, iris.target # SVM 모델 정의 svc = SVC() # 하이퍼파라미터 범위 설정 param_space = { 'C': (1e-6, 1e+6, 'log-uniform'), 'gamma': (1e-6, 1e+1, 'log-uniform'), 'degree': (1, 8), 'kernel': ['linear', 'poly', 'rbf'] } # 베이지안 최적화 수행 opt = BayesSearchCV(estimator=svc, search_spaces=param_space, n_iter=32, cv=3, n_jobs=-1, random_state=42) opt.fit(X, y) # 최적의 하이퍼파라미터와 성능 출력 print("Best parameters:", opt.best_params_) print("Best cross-validation score:", opt.best_score_) 2. 하이퍼밴드 (Hyperband) 하이퍼밴드는 자원의 효율적인 할당을 통해 하이퍼파라미터 최적화를 수행하는 방법입니다. scikit-optimize 라이브러리의 SuccessiveHalvingSearchCV를 사용하여 구현할 수 있습니다. ...

[혼공머신]5-3

XGBoost와 LightGBM XGBoost와 LightGBM은 그레이디언트 부스팅의 구현체로, 빠르고 효율적인 알고리즘을 제공합니다. 이들은 특히 대규모 데이터셋에 대해 뛰어난 성능을 발휘합니다. XGBoost XGBoost는 Extreme Gradient Boosting의 약자로, 효율적이고 확장 가능한 그레이디언트 부스팅 알고리즘입니다. 주요 특징은 다음과 같습니다: Regularization: 과적합을 방지하기 위한 정규화 기법을 포함합니다. Parallel Processing: 병렬 처리를 통해 학습 속도를 향상시킵니다. Tree Pruning: 최적의 트리 크기를 찾기 위해 사후 가지치기를 사용합니다. Sparsity Awareness: 희소 데이터(예: 결측값)에 대한 최적화를 포함합니다. Cross Validation: 내부적으로 교차 검증을 통해 모델의 성능을 평가할 수 있습니다. XGBoost 예제 코드 from xgboost import XGBClassifier from sklearn.model_selection import train_test_split, cross_validate import pandas as pd # 데이터 로드 및 전처리 wine = pd.read_csv('https://bit.ly/wine_csv_data') data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42) # XGBoost 모델 학습 xgb = XGBClassifier(tree_method='hist', random_state=42) scores = cross_validate(xgb, train_input, train_target, return_train_score=True, n_jobs=-1) print(np.mean(scores['train_score']), np.mean(scores['test_score'])) xgb.fit(train_input, train_target) print(xgb.score(test_input, test_target)) LightGBM LightGBM은 Microsoft에서 개발한 그레이디언트 부스팅 프레임워크로, 다음과 같은 특징이 있습니다: ...

[혼공머신]5-3-2 -추가학습(기타 앙상블학습)

기타 앙상블학습 앙상블 학습에는 다양한 방법들이 있으며, 여기서는 그 중 일부를 소개하겠습니다. 대표적인 앙상블 방법으로 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking), 그리고 배깅의 일종인 랜덤 서브스페이스(Random Subspace)를 설명하고, 예시 코드를 제공합니다. 배깅 (Bagging) 배깅은 같은 모델을 여러 개 학습시키고, 데이터의 부분 집합을 사용하여 각각의 모델을 학습시킨 후, 예측 시 이들의 평균 또는 투표 결과를 사용하는 방법입니다. 랜덤 포레스트가 대표적인 배깅 기법입니다. 배깅 예제 코드 from sklearn.ensemble import BaggingClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split, cross_validate import pandas as pd # 데이터 로드 및 전처리 wine = pd.read_csv('https://bit.ly/wine_csv_data') data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42) # 배깅 모델 학습 bagging = BaggingClassifier(DecisionTreeClassifier(), n_estimators=100, random_state=42) scores = cross_validate(bagging, train_input, train_target, return_train_score=True, n_jobs=-1) print(np.mean(scores['train_score']), np.mean(scores['test_score'])) bagging.fit(train_input, train_target) print(bagging.score(test_input, test_target)) 부스팅 (Boosting) 부스팅은 약한 학습기(Weak Learner)를 순차적으로 학습시키고, 이전 모델의 오류를 수정해 나가는 방식입니다. 그레이디언트 부스팅, XGBoost, LightGBM 등이 여기에 속합니다. ...

혼공머신5-2-1

교차검증과 그리드 서치 1. 검증 세트 검증 세트는 하이퍼파라미터 튜닝을 위해 훈련 세트에서 분리한 데이터 세트입니다. 모델의 성능을 평가할 때, 테스트 세트를 사용하지 않도록 합니다. import pandas as pd # 데이터 불러오기 및 전처리 wine = pd.read_csv('https://bit.ly/wine_csv_data') data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() # 훈련 세트와 테스트 세트로 분리 from sklearn.model_selection import train_test_split train_input, test_input, train_target, test_target = train_test_split( data, target, test_size=0.2, random_state=42) # 훈련 세트에서 다시 검증 세트로 분리 sub_input, val_input, sub_target, val_target = train_test_split( train_input, train_target, test_size=0.2, random_state=42) print(sub_input.shape, val_input.shape) 위 코드에서 데이터를 불러와 훈련 세트와 테스트 세트로 나눈 후, 다시 훈련 세트를 서브 세트와 검증 세트로 분리합니다. ...

[혼공머신]4-1

로지스틱 회귀 로지스틱 회귀는 선형 회귀와 달리 분류 문제에 사용되는 지도 학습 알고리즘입니다. 주요한 특징은 선형 방정식을 사용하여 데이터 포인트를 분류하는데, 이 과정에서 시그모이드 함수나 소프트맥스 함수를 사용해 클래스 확률을 출력합니다. 핵심 개념 로지스틱 회귀 (Logistic Regression) 선형 회귀와 달리, 로지스틱 회귀는 이진 분류 문제에 사용됩니다. 출력값은 시그모이드 함수에 의해 0과 1 사이의 확률 값으로 변환됩니다. 시그모이드 함수 (Sigmoid Function) $ \sigma(x) = \frac{1}{1 + e^{-x}} $ 선형 방정식의 출력을 0과 1 사이의 값으로 압축합니다. 주로 이진 분류에서 사용됩니다. 소프트맥스 함수 (Softmax Function) ...

[혼공머신]4-1 -추가학습(정규화 기법)

정규화 기법 (Regularization Techniques) 정규화는 머신러닝 모델의 과적합(overfitting)을 방지하고 일반화 성능을 향상시키기 위해 사용되는 기법입니다. 특히 로지스틱 회귀와 같은 선형 모델에서 중요한 역할을 합니다. 정규화는 모델의 복잡도를 줄여, 학습 데이터에 너무 치우치지 않도록 하는 데 도움을 줍니다. 주로 사용되는 정규화 기법에는 L1 정규화와 L2 정규화가 있습니다. 1. L1 정규화 (Lasso Regularization) L1 정규화는 가중치 벡터의 절대값 합을 패널티로 추가하는 방식입니다. 수식: $$ \text{Loss function} = \text{original loss} + \lambda \sum_{j=1}^{p} |w_j| $$ 여기서 $ \lambda $는 정규화 강도를 제어하는 하이퍼파라미터이고,$ w_j $는 모델의 가중치입니다. ...