Bu proje, Ridge regresyonu ve polinom özellikleri kullanarak bir model oluşturmayı ve değerlendirmeyi amaçlamaktadır. Model, belirli bir veri setine uygulandıktan sonra, doğrusal regresyonun yanı sıra polinom özellikleri ile modelin performansı iyileştirilmeye çalışılmıştır.
Bu projenin amacı, Ridge regresyonu kullanarak veri setindeki özelliklere dayalı tahminlerde bulunmak ve modelin doğruluğunu farklı regularizasyon parametreleri ve polinom özellikleri ile optimize etmektir. Ayrıca, modelin performansını değerlendirmek ve görselleştirmek için çeşitli metrikler kullanılmıştır.
- Ridge Regresyonu: Ridge regresyonu, verinin doğrusal ilişkisini modellemek için kullanılmıştır. Regularizasyon parametresi (alpha) ile overfitting (aşırı uyum) engellenmeye çalışılmıştır.
- Polinom Özellikler: Veriye polinom özellikler (derece 2) eklenerek modelin doğrusal olmayan ilişkileri öğrenebilmesi sağlanmıştır.
- Grid Search: Modelin regularizasyon gücünü optimize etmek için grid search yöntemi kullanılmıştır.
- Cross-validation: Modelin genellenebilirliğini test etmek için çapraz doğrulama kullanılmıştır.
pandas
: Veri manipülasyonu ve analizi.numpy
: Sayısal hesaplamalar.scikit-learn
: Makine öğrenmesi algoritmaları ve model değerlendirme.matplotlib
: Görselleştirme ve grafikler.seaborn
: Gelişmiş görselleştirme.
Projenin gereksinimlerini yüklemek için aşağıdaki komutları kullanabilirsiniz:
- Bu projeyi klonlayın:
git clone https://github.com/deliprofesor/Ridge-Regression-for-Sales-Prediction-Model-Evaluation-and-Hyperparameter-Tuning.git cd Ridge-Regression-for-Sales-Prediction-Model-Evaluation-and-Hyperparameter-Tuning
pip install -r requirements.txt
Ridge regresyonu modelini, standart ölçeklendirme ve regularizasyon (cezalandırma) ile bir pipeline içinde eğittiniz.
- MSE (Ortalama Kare Hatası): 58.23
- RMSE (Karekök Ortalama Kare Hatası): 7.63
- R² skoru: 0.7753 (bu, modelin verideki varyansın yaklaşık %77.53'ini açıkladığını gösteriyor).
Gerçek ve Tahmin Edilen Satışlar: Gerçek satışlarla tahmin edilen satışlar arasındaki ilişkiyi gösteren bir dağılım grafiği çizildi. Regresyon Doğrusu: Grafikte kırmızı çizgi, gerçek ve tahmin edilen değerler arasındaki doğrusal ilişkiyi gösteriyor. Kalıntılar Dağılımı: Kalıntıların histogramı, iyi bir model performansı için genellikle normal dağılım göstermelidir.
En İyi Alpha (Regularizasyon Gücü): Grid search ile en iyi alpha değeri 0.1 olarak bulundu. Grid Search Sonuçları: Farklı regularizasyon parametreleri (alpha) denendi ve 0.1 değeri en iyi performansı gösterdi.
Polinomsal Regresyon: İkinci derece polinomsal özellikler eklediniz ve çapraz doğrulama ile modeli değerlendirdiniz. Çapraz doğrulama MSE skorları: -419.72 ile -58.16 arasında değişti. Ortalama Çapraz Doğrulama MSE: -271.73 (negatif ortalama MSE, hata teriminin minimize edilmesi beklendiği için normaldir).
Polinomsal Özelliklerle R² Skoru:
Eğitim verisi: 0.9462, bu, modelin eğitim verisinde çok iyi bir uyum sağladığını gösteriyor. Test verisi: 0.7323, bu da modelin eğitim verisiyle iyi uyum sağlarken, test verisi üzerinde biraz daha düşük bir doğruluk sergilediğini gösteriyor.
Ridge regresyonu modeliniz test setinde %77.53 kadar varyansı açıklayarak gayet iyi bir performans gösterdi. Polinomsal özellikler ekleyerek modelin varyansı açıklama kabiliyetini önemli ölçüde artırdınız (eğitim verisindeki yüksek R² skoru bunu gösteriyor). Ridge regularizasyonu (alpha=0.1), aşırı öğrenmeyi (overfitting) engellemeye yardımcı oldu, çünkü test seti üzerinde de hala iyi bir performans sergiledi.
Bu README.md
dosyası, projenizin genel yapısını, kullanılan yöntemleri, elde edilen sonuçları ve görselleştirmeleri açık bir şekilde belirtir. Ayrıca proje hakkında daha fazla bilgi sağlayarak başkalarının projeyi daha kolay anlamasını ve katkı sağlamasını kolaylaştırır.