t-SNE ile Manifold Learning

Manifold learning algoritmaları, asıl olarak veri görselleştirme için kullanılır. t-SNE (t-Distributed Stochastic Neighbor Embedding), en kullanışlı manifold learning algoritmalarından biridir. t-SNE algoritmasının ana fikri, noktalar arasındaki uzaklıkları olabildiğince koruyacak bir şekilde düşük boyutlu bir temsil bulmaktır. t-SNE, her bir veri noktası için rastgele bir düşük boyutlu temsil ile başlar ve, orjinal uzayda yakın olan noktaları birbirine yakın, uzak … Okumaya devam et t-SNE ile Manifold Learning

Reklamlar

Boyut İndirgeme (Dimensionality Reduction) – 4

Kernel PCA Destek vektör makinelerinde, nonlineer sınıflandırma yapmamızı sağlayan çekirdek hilesini görmüştük. Çekirdek hilesi benzer şekilde PCA algoritması ile de kullanılabilir ve PCA ile karmaşık nonlineer izdüşümler yapabiliriz. Çekirdek ve parametrelerin belirlenmesi için iki yol izleyebiliriz:  Boyut indirgeme, çoğunlukla bir gözetimli öğrenme görevinin hazırlık aşamalarındandır. O halde, parametreleri, sınıflandırma veya regresyon hatasını minimum yapacak şekilde seçebiliriz. … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 4

Boyut İndirgeme (Dimensionality Reduction) – 3

Explained Variance Ratio Her bir temel bileşen için, 'Explained Variance Ratio' bilgisine, kodu ile ulaşabiliriz. 'Explained Variance Ratio', kabaca, her bir temel bileşen üzerinde, verisetinin varyansının ne kadarının yer aldığını açıklar. d sayısının seçimi İndirgeyeceğimiz boyutu (d) keyfi olarak belirlemek yerine, verisetinin varyansının büyük ksımını koruyacak şekilde seçmeliyiz. Ancak, boyut indirgemeyi veri görselleştirme için yapıyorsak, … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 3

Boyut İndirgeme (Dimensionality Reduction) – 2

Temel Bileşen Analizi (Principal Component Analysis - PCA) Verisetini düşük boyutlu bir hiperdüzleme indirgemeden önce, doğru hiperdüzlemi seçmemiz gerekiyor. Örneğin, yukarıdaki grafikte, verisetindeki noktaların üç farklı eksen üzerine izdüşümleri alınmıştır. Sağda, en üstteki izdüşümde maksimum varyans, en alttakinde ise minimum varyans vardır. Boyut indirgemede amacımız, maksimum varyans elde edilecek hiperdüzlemi belirlemektir. PCA algoritmasının ana fikri … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 2

Gözetimsiz Öğrenme (K-Merkezli Öbekleme)

Şimdiye kadar incelediğimiz makine öğrenmesi algoritmaları, etiketli (labeled) eğitim kümeleri üzerinde çalışıyorlardı. Ancak, etiketli veri setleri elde etmek her zaman mümkün olmayabilir. Peki eğitim kümelerimiz etiket içermiyorsa ne olacak? Gözetimsiz öğrenme, konsept olarak gözetimli öğrenmeden çok daha farklıdır. Regresyon işlemi gerçekleştiremeyiz, çünkü giriş verilerimize karşılık gelen hedef verilerimiz yok. Sınıflandırma işlemini de Öbekleme (Clustering) algoritmalarıyla gerçekleştireceğiz. … Okumaya devam et Gözetimsiz Öğrenme (K-Merkezli Öbekleme)

Scikit-Learn ile Stacking

Önceki yazımızda stacking metodundan bahsetmiştik. Şimdi uygulamalı olarak görelim. İlk olarak her zamanki gibi gerekli fonksiyon ve modülleri içeri aktarıyoruz: Verimizi içeri aktarıp, öznitelikler ve hedef olarak ayırıyoruz: Şimdi verimizi daha önceki örneklerden farklı olarak, %60 eğitim (train), %20 geçerleme (validation) ve %20 test verisi olarak ayırmamız gerekiyor. Bunun için bir yol train_test_split fonksiyonunu iki defa kullanmak: Şimdi üç farklı … Okumaya devam et Scikit-Learn ile Stacking

Rastgele Ormanlar(Random Forests) ile Churn Analizi

Churn Analizi Nedir? Müşteri Kayıp Oranı (Churn Rate), müşterilerin bir ürünü ya da hizmeti kullanmayı bırakma olasığı olarak tanımlanabilir. Araştırmalara göre, bir çok iş kolu için, yeni müşteri kazanmak mevcut müşteriyi elde tutmaktan çok daha maliyetlidir. Bu nedenle şirketler churn analizi ile ürün ya da hizmeti kullanmayı bırakma olasığı yüksek olan müşterileri tespit edip, bu … Okumaya devam et Rastgele Ormanlar(Random Forests) ile Churn Analizi

Modellerin birleştirilmesi (Ensemble Learning) – 3

Rastgele Ormanlar (Random Forests) Karar ağaçları yazımızda (Link), karar ağaçlarının, rastgele ormanlar algoritmasının temel bileşeni olduğunu belirtmiştik. Rastgele ormanlar, çok sayıda karar ağacının bagging ya da pasting metodları ile bir araya getirilmesinden oluşur. Şimdi Scikit-Learn ile basit bir örnek yapalım. İlk olarak gerekli fonksiyonları içeri aktardık. Iris verisetini kullanıyoruz. RandomForestClassifier oluşturduk, verilerimizi sınıflandırıcıya besledik. Bir … Okumaya devam et Modellerin birleştirilmesi (Ensemble Learning) – 3

Modellerin birleştirilmesi (Ensemble Learning) – 2

Bagging ve Pasting Başka bir ensemble learning metodu ise, aynı algoritmayı verinin farklı altkümeleri üzerinde çalıştırmaktır. Altkümeleri oluştururken, örnekleme (sampling - kısaca verisetinden noktalar seçimi) işlemi yerine koyma (aynı nokta birden fazla kere seçilebilir) ile yapılırsa, bu yöntem bagging (bootstrap aggreating) olarak, yerine koyma ile yapılmıyor ise de, bu yöntem pasting olarak adlandırılır. Tüm tahmin ediciler eğitildikten … Okumaya devam et Modellerin birleştirilmesi (Ensemble Learning) – 2

Modellerin birleştirilmesi (Ensemble Learning) – 1

Karmaşık bir soruyu binlerce insana soralım ve verdikleri cevapları birleştirelim. Çoğu durumda, bu birleştirilmiş cevap, tek bir uzmanın verdiği cevaptan çok daha iyi olacaktır. Bu "Wisdom of the crowd" olarak adlandırılır (Daha fazla bilgi için tıklayınız). Benzer olarak, birden fazla tahmin edicinin (predictor) tahminlerini bir araya getirirsek, tek bir tahmin ediciden daha iyi sonuç elde … Okumaya devam et Modellerin birleştirilmesi (Ensemble Learning) – 1