R ile Uygulamalı İstatistik

Editör: Doç. Dr. İbrahim DEMİR

Doç. Dr. İbrahim DEMİR, Dr. Erhan ÇENE, Hasan Aykut KARABOĞA, Ersin ŞENER, Serkan AKOĞUL, Ömer BOZKIR, Batuhan ÖZKAN

 

 

 

 

 

 

ISBN: 978-605-9594-21-9, Ağustos 2017

384 sayfa, (16,5x24 cm2), 80 gr 1. hamur kağıt


R ile Uygulamalı İstatistik PDF içindekiler


Veri bilimi, büyük veri analitiği ve veri görselleştirme gibi alanlarda kullanımı günden güne artan  R programlama dili son yıllarda istatistiksel analizlerde en çok tercih edilen programlama dillerinden biri olmuştur. Ücretsiz ve açık kaynak olması, hem hazır yazılmış paketleri kullanmaya olanak sağlaması hem de kullanıcıya kendi kodunu yazma imkânı vermesi bu programlama dilinin en büyük avantajları olarak görülmektedir.

Bu kitap, okuyucuların hiçbir R programlama dili geçmişi olmadığını varsayarak pek çok istatistik ve veri bilimi konularını kapsamaktadır. Hem R programlama dilinin temelini vermesi hem de giriş üstü seviye programlama yöntemlerini içermesi bu kitabı benzerlerinden ayırmaktadır. Kitap bu yönüyle hem R programlama dilini yeni öğrenmek isteyenler için bir başvuru kılavuzu niteliği görecek, hem de giriş seviyesinde R kullanabilen kişiler için güzel bir kaynak kitap olacaktır.

Bunun yanında istatistik biliminin birçok bilim ile etkileşim halinde olması bu kitabın çok geniş bir kitleye hitap edeceğinin göstergesidir. Özellikle tıp, sosyal bilimler ve mühendislik, bankacılık ve finans, bilişim ve eğitim alanlarında çalışan ve belirli bir yazılım programının imkânlarıyla kısıtlanmak istemeyenler R programının esnek yapısının nasıl kullanacağını bu kitapla öğreneceklerdir.  

Bu kitap veri bilimi ile ilgilenen ve istatistiğin temellerini R programı dili ile öğrenmek isteyen herkese hitap etmektedir ve R programlama dili öğrenmek isteyenler için sağlam bir başvuru kitabı niteliğindedir.



İçindekiler

Önsöz

Bölüm 1. R’a Giriş: Tanımlar ve Genel Bilgiler    15

İbrahim DEMİR (Doç. Dr)

1.1. Neden R? 15

1.2. R’ın Kurulumu16

1.2.1. Programı Başlatma ve Sonlandırma     18

1.3. R’ı Güncelleme   18

1.4. Veri Girişi      19

1.4.1. Ondalıklı Sayıyı Yuvarlama          20

1.4.2. Değişkenler          21

1.4.3. Fonksiyonlar        22

1.4.4. Yaklaşık Değer Hataları   23

1.4.5. Kütüphaneler        24

1.4.5. Dosyalar   25

1.4.6. Paketler25

1.5. Fonksiyon Bulma25

1.6. Yardım Alma  26

1.7. Veri Türleri    28

1.7.1. Mantıksal Karşılaştırma İşlemleri 29

1.8. Özet        31

1.9. Sorular    32

 

Bölüm 2. Veri Yapıları      33

İbrahim DEMİR (Doç. Dr)

2.1. Veri Yapıları   33

2.1.1. Vektör, Matris ve Diziler   33

2.1.1.1. Vektör Oluşturma     34

2.1.1.1.1. Vektörlerde bazı verilerin elde edilmesi         36

2.1.2. Matris ve Dizi oluşturma   37

2.2. Veri Çerçevesi ve Listeler40

2.2.1. Veri Çerçevesi ve Liste Oluşturma 40

2.2.2. Veri Okuma ve Kaydetme  43

2.2.2.1. Veri Okuma      43

2.2.2.2. Veri Kaydetme  47

2.3. Matris ve Vektörler Üzerinde İşlemler    48

2.3.1. Aritmetik Operatörler ve Koşul ifadeleri   48

2.3.2. Aritmetik Fonksiyonlar 49

2.3.3. Betimsel fonksiyonlar   50

2.3.1.1. Eksik veri ile işlem yapma      51

2.3.1.2. Matris işlemi 52

2.3.1.3. Mantıksal operatörler ve aritmetik işlemler  53

2.4. Faktörler 54

2.4.1. Faktör oluşturma  55

2.4.2. Faktörler üzerinde işlemler56

2.5. İndeksleme     57

2.5.1. İsimle indeksleme  57

2.5.2. Faktörlü indeksleme     58

2.5.3. Sayı ile indeksleme58

2.5.4. Veri seti ekleme    59

2.5.5. Veri çerçevesine veri ekleme ve silme    59

2.5.6. Koşul indeksleme  60

2.6. Sıralama  61

2.7. Yeniden düzenleme         62

2.7.1. Sütunları birleştirme veya ayrıştırma    62

2.7.2. Yeniden şekillendirme   63

2.7.3. Birleştirme64

2.8. Özet        65

2.9. Sorular    66

 

Bölüm 3. Kontrol Deyimleri ve Fonksiyonlar     67

 İbrahim DEMİR (Doç. Dr)

3.1. Koşul deyimleri   67

3.1.1. if deyimi          67

3.1.2. if –else deyimi  68

3.1.3. if-elseif deyimi 68

3.1.4. ifelse deyimi    69

3.2. Kontrol deyimleri69

3.2.1. for deyimi        69

3.2.2. while deyimi    70

3.2.3. repeat deyimi   71

3.3. Fonksiyonlar   71

3.4. Özel Fonksiyonlar          76

3.4.1. Karakter Fonksiyonları 76

3.4.2. İstatistiksel fonksiyonlar78

3.4.2.1. Olasılık fonksiyonları ile veri üretme          78

3.4.3. Tarih ve zaman Fonksiyonları      80

3.5. Hazır fonksiyon uygulamaları 82

3.5.1. apply fonksiyonu   82

3.5.2. lapply fonksiyonu  83

3.5.3. sapply fonksiyonu  83

3.5.4. tapply fonksiyonu  84

3.5.5. mapply fonksiyonu84

3.5.6. aggregate fonksiyonu    84

3.6. Özet        84

3.7. Çalışma Soruları  85

 

Bölüm 4. Betimsel (Özet) İstatistikler     87

Erhan ÇENE (Dr.)

4.1. Betimsel İstatistikler Üzerine Kısa Bir Hatırlatma88

4.1.1.  Frekans Tabloları88

4.1.2.  Betimsel İstatistikler    88

4.1.2.1.  Aritmetik Ortalama  88

4.1.2.2.  Medyan ve Kartiller 89

4.1.2.3.  Mod  90

4.1.2.4.  Varyans ve Standart Sapma    90

4.1.2.5.  Değişim Genişliği   91

4.1.2.6.  Kartillerarası Fark92

4.2. R Programlama Dilinde Frekans Tabloları ve Betimsel İstatistikler         92

4.3. Özet        104

4.4. Çalışma Soruları  105

 

Bölüm 5. Veri Görselleştirme  107

   Erhan ÇENE (Dr.)

5.1. Temel Grafik Yöntemler 107

5.2. R da Grafik Çizimiyle İlgili Temel Bilgiler    108

5.2.1.  plot() fonksiyonu  108

5.2.2.  par() fonksiyonu  113

5.3. R da Temel Grafik Yöntemler 114

5.3.1.  Saçılım Grafiği    114

5.3.2.  Nokta Grafiği      121

5.3.3.  Çizgi Grafiği        128

5.3.4.  Sütun Grafiği      134

5.3.5.  Histogram Grafiği141

5.3.6.  Pasta Grafiği      143

5.3.7.  Kutu Grafiği        146

5.4. Özet        148

5.5. Çalışma Soruları  149

 

Bölüm 6. Olasılık Dağılımları      151

   Erhan ÇENE (Dr.)

6.1. Kesikli Dağılımlar          151

6.1.1.  Bernoulli Dağılımı      151

6.1.2.  Binom Dağılımı   153

6.1.3.  Geometrik Dağılım      157

6.1.4.  Hipergeometrik Dağılım  160

6.1.5.  Negatif Binom Dağılımı   163

6.1.6.  Poisson Dağılımı 165

6.1.7.  Kesikli Uniform Dağılım  166

6.2. Sürekli Dağılımlar          168

6.2.1. Uniform (Tekdüze) Dağılım          168

6.2.2. Normal Dağılım    172

6.2.3.Üstel Dağılım        177

6.2.4. Gama Dağılımı     180

6.2.5. Beta Dağılımı       183

6.2.6.  Dağılımı        186

6.2.7.  Dağılımı187

6.2.8.  Dağılımı         189

6.2.9. Weibull Dağılımı  192

6.3. Özet        195

6.4. Çalışma Soruları  197

 

Bölüm 7. Parametrik Testler199

 Hasan Aykut KARABOĞA

7.1. Hipotez Testleri ve İstatistiksel Hatalar    199 

7.2. Tek Örneklem T-Testi     201

7.3. Bağımsız Örneklem T-Testi    205

7.4. Bağımlı Örneklem T-Testi      211

7.5. Oran Testleri   217

7.6. Ana Kütle Oranı Testi     217

7.7. İki Ana Kütle Oranı Arasındaki Farkın Testi   219

7.8. Özet        223

7.9.  Çalışma Soruları 224

 

Bölüm 8. Varyans Analizi    227

 Ersin ŞENER

8.1. Tek Yönlü ANOVA        228

8.1.1. Tek Yönlü Varyans Analizin adımları   229

8.1.2. Varyansların Homojenliğinin Testi229

8.1.2.1. Levene Testi     229

8.1.2.2. Bartlett Testi   230

8.1.3. Tek Yönlü Varyans Analizi için Formüller230

8.2. İki Yönlü ANOVA         244

8.3. Tekrarlı Ölçümlerde Tek Yönlü ANOVA251

8.3.1. Varsayımları        251

8.4. Çoklu Karşılaştırma Testleri (Post-Hoc)  255

8.5. Özet        265

8.6. Çalışma Soruları  266

 

Bölüm 9. Parametrik Olmayan Testler       267

 Hasan Aykut Karaboğa

9.1. Tek Örneklem Verilerinin Analizi          267

9.1.1.  İşaret Testi          268

9.1.2. Binom Testi          271

9.1.3.Ki-kare Testi         273

9.1.3.1. Ki-kare Uygunluk Testi       273

9.1.3.2. Ki-kare Bağımsızlık Testi   276

9.1.3.3. Ki-kare Homojenlik Testi   279

9.1.4. Kolmogorov Smirnov Tek Örneklem Testi  281

9.1.5. Dizi Parçaları (Runs) Testi          283

9.2. Bağımsız İki Örneklem Verilerinin Analizi     285

9.2.1. Man-Witney U Testi     285

9.2.2. Kolmogorov – Smirnov İki Örneklem Testi288

9.3. Bağımlı İki Örneklem Verilerinin Analizi      293

9.3.1. İki Örneklem İşaret Testi   293

9.3.2. İki Örneklem Wilcoxon İşaretli Sıra Sayıları Testi 296

9.4. Özet        299

9.5.  Çalışma Soruları 300

 

Bölüm 10. Parametrik Olmayan Varyans Analizi       303

Ersin ŞENER

10.1. Kruskal-Wallis Sıralamalar Testi          303

10.2. Cochran Q-Testi305

10.3. Friedman Sıralamalar Testi   306

10.4. Özet      308

10.5. Çalışma Soruları309

 

Bölüm 11. Kategorik Veri Analizi   311

   Ömer BOZKIR

11.1. Ki-Kare Testleri 311

11.1.1. Ki-Kare Bağımsızlık Testi311

11.1.2. Ki-Kare Homojenlik Testi313

11.1.3. Ki-Kare Uygunluk Testi  316

11.2. İlişki Ölçüleri318

11.2.1. Nominal Ölçekli Değişkenler Arasındaki İlişki Ölçüleri   318

11.2.1.1. Phi Katsayısı (Phi Coefficient)   319

11.2.1.2. Pearson ’ın Kontenjans Katsayısı (Contingency Coefficient)    319

11.2.1.3. Cramer’s V    319

11.2.1.4. Theil’s Belirsizlik Katsayısı (Uncertainity Coefficient)  319

11.2.1.5. Cohen’in Kappa Katsayısı (Cohen’s Kappa)          320

11.2.1.6. McNemar’s Katsayısı       321

11.2.2. Ordinal Ölçekli Değişkenler Arasındaki İlişki Ölçüleri322

11.2.2.1. Kendall’ın Tau-b Katsayısı (Kendall’s Tau-b)  322

11.2.2.2. Kendall’ın Tau-c Katsayısı (Kendall’s Tau-c)  322

11.2.2.3. Goodman-Kruskal’ın Gamma Katsayısı          323

11.2.2.4. Somers’ in d Katsayısı ( Somer’s d)323

11.3. Özet      324

11.4. Çalışma Soruları324

 

Bölüm 12. Korelasyon Analizi     327

    Serkan AKOĞUL

12.1. Pearson Korelasyon Analizi  328

12.2. Spearman Korelasyon Analizi   331

12.3. Kendall Tau Korelasyon Analizi 334

12.4. Özet      340

12.5. Çalışma Soruları   341

 

Bölüm 13. Regresyon Analizi      343

Batuhan Özkan

13.1. Basit Doğrusal Regresyon Analizi         345

13.1.1. Regresyon Formülleri 345

13.1.2. Basit Doğrusal Regresyon Uygulaması   348

13.2. Çoklu Doğrusal Regresyon Analizi       354

13.2.1. Çoklu Regresyon Formülleri       354

13.2.2. Çoklu Regresyon Uygulamsı       356

13.3. Regresyon Denklemi Tahminlerinin Formüller Kullanılarak

        Hesaplanması 361

13.3.1. “Cars” veri seti için formüllerin hesaplanması   362

13.3.2. “trees” veri seti için formüllerin hesaplanması   366

13.4. Özet      369

13.5. Çalışma Soruları   370

 

Kaynakça   371

Dizin   379

 


Önsöz. Son yirmi yıldır en çok geliştirilen ve kullanılan istatistik analiz programı R dilidir. Ücretsiz bir program olması akademik çevrenin yanı sıra sektörde de kullanımını yaygınlaştırmıştır. R programlama dili istatistiksel ve ekonometrik çalışmalar, matematiksel analizler, veri madenciliği, büyük veri analizi, fonksiyonel ve nesneye dayalı programlama, simülasyon uygulamaları, ağ teorisi, yapay zeka, yapay öğrenme ve yapay sinir ağları gibi geniş kullanım alanlarına sahiptir.

R ülkemizde yoğun olarak kullanılsa da Türkçe başvuru kaynakları yok denecek kadar azdır. Bu sebeple elinizdeki kitap, ülkemizde kullanımı her geçen gün artan R programlama dilinin hızlı bir şekilde öğrenilmesini sağlamak amacı ile tasarlanmıştır. Ayrıca kitap, istatistiksel analizleri kolayca anlama ve R programlama dili uygulama yapabilme becerisi de kazandırmayı amaçlamaktadır.

Kitabın içeriği konuya ilgi duyan öğrenciler, akademisyenler ve istatistiksel, matematiksel, finansal ve ekonometrik modeller geliştiren, tahminler yapan, kurum içi raporlar hazırlayan profesyoneller için başlangıç ve orta seviyede faydalı bir başvuru kaynağıdır.

Kitaptaki tüm konular en az birer örnekle açıklanmıştır. Örneklerin bir kısmının sonuçları özellikle kitabın içine konmamıştır. Bu şekilde yapılmasının sebebi öncelikle öğrencilerin ve uygulayıcıların verilen kodları çalıştırıp sonuçları irdelemeleri, verilen kodlarda gerekirse bazı değişikler yaparak kendi verilerine uygun hale getirmeleri amaçlanmıştır. Bu sebeple kitap bir uygulama kitabıdır.

Kitap on dört bölümden oluşmaktadır. ilk üç bölüm R programlama dili ile ilgili genel konuları ele almaktadır. Birinci bölümde; R’ın kurulumu, özellikleri ve kullanımı anlatılmıştır. İkinci bölümde; veri türlerinden bahsedilmiş, çeşitli örneklerle farklı veri yapılarının R’da nasıl tanımlanacağı incelenmiş, dış ortamdan R’a ve R’dan dış ortama veri aktarımı anlatılmıştır. Üçüncü bölümde programlamanın temelini oluşturan karar deyimleri ve kontrol fonksiyonları tanıtılmış, algoritma geliştirme mantığı anlatılmış, R programının temel fonksiyonlarının nasıl kullanılacağı gösterilmiştir. Bununla birlikte istatistiksel fonksiyonların algoritma yöntemleri ve hazır fonksiyonlarla nasıl çözüleceği gösterilmiştir. Dördüncü ve beşinci bölümde betimsel istatistik konuları ele alınmıştır. Dördüncü bölümde merkezi eğilim ve dağılım ölçüleri anlatılmış ve bu konular hem R’daki hazır fonksiyonlarla, hem de programlama kodları kullanılarak çözülmüştür. Beşinci bölümde veriyi tanımlamada kullanılan pasta, çubuk, çizgi, nokta, histogram, saçılım vb., grafikleri detaylı bir şekilde nasıl çizileceği anlatılmıştır. Altıncı bölümde kesikli ve sürekli olasılık dağılımlar anlatılmış ve bu konular hem R’daki hazır fonksiyonlarla, hem de programlama kodları kullanılarak çözülmüştür. Yedinci ila onuncu bölümlerde parametrik ve parametrik olmayan hipotez testleri ele alınmıştır. Bu bölümlerde; tek örneklem t testi, bağımsız örneklem t testi, eşleştirilmiş örneklem t testi, Varyans analizi (ANOVA) ve bunların parametrik olmayan karşılıkları incelenmiştir. On birinci bölümde iki ve ikiden fazla kategorik değişkenin analizinde kullanılan kikare analizi ve bunun türevleri ele alınmıştır. On ikinci bölümde parametrik ve parametrik olmayan korelasyon analiz yöntemlerine değinilmiş olup on üçüncü bölümde basit ve çoklu regresyon analizi ise anlatılmıştır ve bu konular hem R’daki hazır fonksiyonlarla, hem de programlama kodları kullanılarak çözülmüştür. Son bölümde ise eksik veri incelenmesi ve analizi ele alınmıştır. Bölümlerde konular açıklayıcı bir şekilde örneklerle desteklenmiş ve bölüm sonu alıştırmaları ile de okuyucuların konuları pekiştirmeleri amaçlanmıştır.

Bölümde kullanılan örneklerin ve bölüm sonu alıştırmalarının R kodları kitabın ve yayınevinin web sayfasında sunulmuştur.

Bizlerin bu günlere gelmesini sağlayan bütün hocalarımıza ve ailemize teşekkürü bir borç biliriz.

Kitabın okuyuculara yararlı olması dileğiyle…

Doç. Dr. İbrahim Demir


Akademik bilimsel ve üniversite kitapları; Papatya Bilim; farkımız, kitaplarımızda...