t-SNE ile Manifold Learning

Manifold learning algoritmaları, asıl olarak veri görselleştirme için kullanılır. t-SNE (t-Distributed Stochastic Neighbor Embedding), en kullanışlı manifold learning algoritmalarından biridir. t-SNE algoritmasının ana fikri, noktalar arasındaki uzaklıkları olabildiğince koruyacak bir şekilde düşük boyutlu bir temsil bulmaktır. t-SNE, her bir veri noktası için rastgele bir düşük boyutlu temsil ile başlar ve, orjinal uzayda yakın olan noktaları birbirine yakın, uzak … Okumaya devam et t-SNE ile Manifold Learning

Reklamlar

Boyut İndirgeme (Dimensionality Reduction) – 5

Locally Linear Embedding (LLE) LLE, bir nonlineer boyut indirgeme ve manifold learning tekniğidir. LLE, ilk olarak eğitim setindeki herbir veri noktasını en yakın komşuları ile doğrusal olarak nasıl ilişkilendireceğini ölçer ve daha sonra, bu yerel ilişkileri en iyi şekilde koruyacak (eğitim setinin) bir düşük boyutlu temsilini arar. Diğer boyut indirgeme teknikleri Multidimensional Scaling (MDS), boyut indirgeme yaparken, … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 5

Boyut İndirgeme (Dimensionality Reduction) – 4

Kernel PCA Destek vektör makinelerinde, nonlineer sınıflandırma yapmamızı sağlayan çekirdek hilesini görmüştük. Çekirdek hilesi benzer şekilde PCA algoritması ile de kullanılabilir ve PCA ile karmaşık nonlineer izdüşümler yapabiliriz. Çekirdek ve parametrelerin belirlenmesi için iki yol izleyebiliriz:  Boyut indirgeme, çoğunlukla bir gözetimli öğrenme görevinin hazırlık aşamalarındandır. O halde, parametreleri, sınıflandırma veya regresyon hatasını minimum yapacak şekilde seçebiliriz. … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 4

Boyut İndirgeme (Dimensionality Reduction) – 3

Explained Variance Ratio Her bir temel bileşen için, 'Explained Variance Ratio' bilgisine, kodu ile ulaşabiliriz. 'Explained Variance Ratio', kabaca, her bir temel bileşen üzerinde, verisetinin varyansının ne kadarının yer aldığını açıklar. d sayısının seçimi İndirgeyeceğimiz boyutu (d) keyfi olarak belirlemek yerine, verisetinin varyansının büyük ksımını koruyacak şekilde seçmeliyiz. Ancak, boyut indirgemeyi veri görselleştirme için yapıyorsak, … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 3

Boyut İndirgeme (Dimensionality Reduction) – 2

Temel Bileşen Analizi (Principal Component Analysis - PCA) Verisetini düşük boyutlu bir hiperdüzleme indirgemeden önce, doğru hiperdüzlemi seçmemiz gerekiyor. Örneğin, yukarıdaki grafikte, verisetindeki noktaların üç farklı eksen üzerine izdüşümleri alınmıştır. Sağda, en üstteki izdüşümde maksimum varyans, en alttakinde ise minimum varyans vardır. Boyut indirgemede amacımız, maksimum varyans elde edilecek hiperdüzlemi belirlemektir. PCA algoritmasının ana fikri … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 2

Boyut İndirgeme (Dimensionality Reduction) – 1

Birçok makine öğrenimi probleminde, verisetindeki herbir gözlem için yüzler, binler ve belki milyonlarca öznitelik bulunabilir. Bu kadar çok öznitelik olması hem oluşturulan modelin eğitimini yavaşlatmakta hem de iyi bir model oluşturmayı zorlaştırmaktadır. Neyse ki, çoğu zaman, öznitelik sayısını "başedebileceğimiz" bir sayıya indirgeyebiliriz. Örneğin, MNIST verisetinde, resimlerin çerçevelerindeki pikseller neredeyse hep beyazdır, dolayısıyla bu pikselleri çok … Okumaya devam et Boyut İndirgeme (Dimensionality Reduction) – 1

Spark ile Film Tavsiye Sistemi

Veriseti olarak MovieLens  verisetini kullanacağız. Bu örnekte kullanmak için küçük olan verisetini indirdim. Tavsiye sistemi için Alternating Least Squares (ALS) metodunu kullanacağız. İlk olarak, herzamanki gibi, gerekli fonksiyon ve modülleri içeri aktardık: Yeni bir Spark oturumu oluşturuyoruz: Kullandığımız işletim sistemi Türkçe ise, bir lokalizasyon problemi ortaya çıkmaktadır. Bu sorunu aşmak için aşağıdaki kodları programımıza ekliyoruz: … Okumaya devam et Spark ile Film Tavsiye Sistemi

Ağaç yapılı öbekleme (Hierarchical Clustering) ve DBSCAN

Hierarchical Clustering Elimizde N-tane nokta olsun. Ağaç yapılı öbekleme algoritmasını aşağıdaki gibi özetleyebiliriz: Her bir nokta, ayrı bir öbek olarak işaretlenir. Yani, elimizdeki N-tane nokta için N-tane öbek elde ederiz. En yakın 2 öbek bulunur ve birleştirilir. Elimizdeki öbek sayısı 1 azalmış olur. Yeni elde ettiğimiz öbekle diğer öbekler arasındaki uzaklıklar hesaplanır. Tüm noktalar tek … Okumaya devam et Ağaç yapılı öbekleme (Hierarchical Clustering) ve DBSCAN

Gözetimsiz Öğrenme (K-Merkezli Öbekleme)

Şimdiye kadar incelediğimiz makine öğrenmesi algoritmaları, etiketli (labeled) eğitim kümeleri üzerinde çalışıyorlardı. Ancak, etiketli veri setleri elde etmek her zaman mümkün olmayabilir. Peki eğitim kümelerimiz etiket içermiyorsa ne olacak? Gözetimsiz öğrenme, konsept olarak gözetimli öğrenmeden çok daha farklıdır. Regresyon işlemi gerçekleştiremeyiz, çünkü giriş verilerimize karşılık gelen hedef verilerimiz yok. Sınıflandırma işlemini de Öbekleme (Clustering) algoritmalarıyla gerçekleştireceğiz. … Okumaya devam et Gözetimsiz Öğrenme (K-Merkezli Öbekleme)