R’ın İsveç Çakısı: Tidyverse

İlk defa R kurduğunuzda, beraberinde bir çok temel işlemi yapmanızı sağlayacak çok sayıda fonksiyon ile birlikte gelir. Bu çekirdek (core) fonksiyonlar veri görselleştirmeden, tablo birleştirmeye kadar çok sayıda işlemi yapabilmenizi sağlar. Ancak, çoğu zaman bu çekirdek fonksiyonların çıktıları sizi görsel açıdan tatmin etmeyebilir veya gerekli kodların oluşturulması zor olabilir. Bu durumlarda R paketleri devreye girer. R’ın istatistik ve veribilimindeki gücü, sahip olduğu bu ek paketlerden gelir.

İlk yükleme ile birlikte gelen çekirdek (core) fonksiyonlarının sayısı 1317 iken, dış paketler ile fazladan 100.000 kadar yeni fonksiyon eklenebilir. CRAN üzerinde bu amaçla jeoloji alanından biyoinformatik’e kadar çeşitli alanlar için yayınlanmış 11.204 paket paket bulunmaktadır. Bunlara her yıl binlercesi daha ekleniyor. Öyle ki, R, benzer bir istatistik programı olan SAS’tan 150 kat daha fazla fonksiyonu içinde barındırıyor.

Paket sayısındaki bu artış, bazı paketlerin örtüşen özellikler sunmasını da kaçınılmaz kılıyor. Örneğin, R ortamına bir .xlsx dosyası aktarımı için 50’den fazla paket bulunuyor. Bu durumda kullanıcılar hangi paketin öğrenilmesi için çaba gösterecekleri konusunda karar veremeyebiliyor. Hangi paketin seçileceği konusunda birden fazla parametre önemlidir.

  • Paketin geniş bir geliştirici ağı ile desteklenmesi
  • Başka paketler ile birbirine operatorler “%>%” ile bağlanabilmesi
  • Geniş sayıda kullanıcı tarafından kullanılması
    • Diğer kullanıcılardan destek alınabilmesi
    • Çalışmaların başkaları tarafından tekrar edilebilirliğinin kolay olması

Her kullanıcı aynı amaç için farklı paket kullandığında çalışmanın tekrar edilebilirliği de haliyle azalıyor. Bu sebeple, tüm kullanıcıların ortak bir paket setini kullanması önem kazanıyor.

Ortak Paket Seti: Tidyverse

İstatistik ve veri biliminde yaşanan bu karar verme zorluklarının önüne geçmek için geliştirilen bir paket setinden bahsedeceğim. Tidyverse.

Tidyverse, veri işlemede en sık kullanılan tüm paketleri, tek seferde R ortamınıza yüklemenizi sağlıyor. ggplot2 ve dplyr gibi popüler paketleri içinde barındırıyor. Paketi yüklediğinizde, temel veri analizlerin, (veri içe aktarımı, düzenleme, değiştirme, görselleştirme, modelleme ve programlama) yapmanızı sağlayacak tüm paketler ile birlikte geliyor.

En başta Hadley Wickham tarafından geliştirilen paket, artık daha geniş bir yazılımcı grubu tarafından geliştirilmeye devam ediyor. Paketin amacı, istatistikçi ve veri bilimcilerin ortak kullanacağı “paketler bütünü” oluşturarak, çalışmaların tekrar edilebilirliğini arttırmak ve ortak bir analiz akışı oluşturabilmek.

Kurulum

# Install from CRAN
 install.packages("tidyverse")

Kurulum sonrasında library(tidyverse) komutunu kullandığınızda otomatik olarak şu çekirdek paketlerin yüklemesini sağlıyor.

  • ggplot2, veri görselleştirme için .
  • dplyr, veri dönüştürme.
  • tidyr, veri düzenleme
  • readr, veri içe aktarımı.
  • purrr, fonksiyonel programlama.
  • tibble, tibble (data frame’in modernize edilmiş hali) oluşturma.

Bu çekirdek paketlere ek olarak, her analizde olmasa da çoğu zaman kullanabileceğiniz başka paketleri de kurulumunu sağlar.

Belli vektör tipleri ile çalışırken,

  • hms, zaman vektörleri için,
  • stringr, string içeren vektörler için,
  • lubridate, gün ve zaman vektörleri için,
  • forcats, faktörler için,

Diğer veri türlerini içeri aktarırken

  • feather, for sharing with Python and other languages.
  • haven, for SPSS, SAS and Stata files
  • httr, web api’leri için
  • jsonlite, JSON dosyaları için
  • readxl, .xls ve .xlsx dosya tiplerini aktarmak için
  • rvest, for web scraping
  • xml2, XML dosyaları için

Modelleme yaparken,

  • modelr, for modelling within a pipeline
  • broom, for turning models into tidy data

paketlerini kullanabilirsiniz.

Daha Fazlası İçin:

Paketin kullanımı ile daha fazla ilgilenirseniz, Hadley Wickham ve Garrett Grolemund tarafından hazırlanmış “R for Data Science” kitabını edinebilirsiniz. Şu anda Türkiye’de satışı bulunmuyor. Ancak Pandora Kitabevi’nden sipariş edebilirsiniz. Tüm harcamalar dahil 140,00 TL’ye kitabı getirebiliyorlar. Kitabın tamamen ücretsiz çevrimiçi versiyonu da bulunuyor. Ona da R for Data Science adresinden ulaşabilirsiniz.

Moleküler Biyolog ve Genetikçi.İstanbul Teknik Üniversitesi'nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor. Genetik ve biyoinformatik üzerine Variant adlı blogda yazıyor.

Yorum bırakın:

Your email address will not be published.

Site Footer

Sliding Sidebar

Hakkımda

Hakkımda

Moleküler Biyolog ve Genetikçi. İstanbul Teknik Üniversitesi'nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor.

Tweets

Message: Invalid or expired token., Please check your Twitter Authentication Data or internet connection.