Düzenlileştirme (Regularization)

Pratikte, genel olarak doğrusal regresyonu birden çok değişken içeren verisetlerine uygularız. Bu birkaç sıkıntı yaratmaktadır. İlk olarak, değişken sayısı arttıkça, modelin aşırı öğrenme(overfit) olasığı artmaktadır. İkincisi, elimizdeki sıfırdan farklı katsayı arttıkça, bunları açıklamak zorlaşmaktadır. Elimizde yüzlerce değişken içeren bir model yerine üç değişken içeren bir model olması daha kullanışlı olabilir.

Düzenlileştirme, aşırı öğrenme (overfitting) problemini çözmek için kullanılan bir tekniktir.  Şimdi Ridge Regresyonu, Lasso Regresyonu ve Elastic Net tekniklerine bakacağız.

Ridge Regresyonu (Ridge Regression)

Ridge Regresyonu ( aynı zamanda Tikhonov düzenlileştirmesi olarak da bilinir) doğrusal regresyondaki maliyet fonksiyonumuza (cost function) bir düzenlileştirme terimi (\alpha \sum_{i=1}^{n}\theta_i^2) eklenmesiyle elde edilir. Bu ekleme ile öğrenme algoritması hem veriyi öğrenir hem de model ağırlıklarını mümkün olduğunca küçük tutmaya çalışır.

\alpha aşırı-parametresi (hyper-parameter), modeli ne kadar düzenlileştireceğimizi kontrol eder. \alpha =0 için Ridge regresyonu, bildiğimiz lineer regresyondur. Eğer \alpha çok büyük ise, model ağırlıkları sıfıra çok yakın olacaklardır ve elde ediceğimiz sonuç verinin ortalamasından geçen bir doğru olacaktır.

image_7
Solda: Bir lineer regresyon, Sağda: Bir polinom regresyonu (her ikisi birden Rigde düzenlileştirmesi ile)

Uyarı: Düzenlileştirilmiş modelleri kullanmadan önce, veriyi ölçeklemek önemlidir. 

Lasso Regresyonu (Lasso Regression)

Lasso regresyonu (Least Absolute Shrinkage and Selection Operator Regression), lineer regresyonun başka bir düzenlileştirilmiş çeşididir: maliyet fonksiyonumuza düzenlileştirme terimi olarak \alpha \sum_{i=1}^{n}\left | \theta_i \right | eklenir.

Lasso regresyonunun önemli bir karakteristiği, en az önemli özniteliklerin (features) ağırlıklarını elemektedir (örneğin sıfır yapmaktadır.). Başka bir deyişle, Lasso regresyonu otomatik olarak “öznitelik seçimi” (feature selection) uygulamaktadır ve çıktı olarak ayrık bir model (sparse model) vermektedir (ayrık bir modelden kasıt, yalnızca bir kaç ağırlığın sıfırdan farklı olduğu modeller).

Elastic Net

Maliyet fonksiyonuna düzenlileştirme terimi olarak r \alpha \sum_{i=1}^{n}\left | \theta_i \right |+\frac{1-r}{2}\alpha\sum_{i=1}^{n}\theta_i^2 eklenir. Bu da Rigde regresyonu ve Lasso regresyonunun bir karışımıdır. Burada r, karışım oranıdır. r=0 ise Elastic Net, Ridge regresyonuna, r=1 ise de Lasso regresyonuna denktir.

Peki, uygulamalarda hangi regresyon metodunu seçeceğiz? İlk olarak düz doğrusal regresyondan genellikle kaçınmalıyız. Ridge genellikle tercih edilebilir, ancak modelde az sayıda özniteliğin faydalı olacağını düşünüyorsak Lasso ya da Elastic Net seçmeliyiz.

Kaynaklar

  1. Alpaydın, E. (2011). Yapay öğrenme. İstanbul: Boğaziçi Üniversitesi Yayınevi.
  2. Geron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow Concepts, Tools, and Techniques for Building Intelligent Systems. Sebastopol: OReilly UK Ltd.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Google fotoğrafı

Google hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s