MillionSong: En Büyük Müzik Veriseti

R dili ile ister profesyonel, isterse hobi olarak uğraşın; başlangıç yapacağınız iyi bir veriseti’ne ihtiyaç duyarsınız. Bu veriseti ne kadar kapsamlı ve ilgi çekici olursa, sonuçta da o kadar “vay be” dedirtecek görseller ve istatistiksel analizler yaratılır. Ne yazık ki, bunun gibi kapsamlı verilere ulaşmak her zaman kolay olmayabiliyor. Bu sebeple, internet üzerinden ulaşabileceğiniz ilginç verisetlerini tanıtacağımız “Veri Kaynakları” yazı dizisine başlıyoruz. İlk konuğumuz ise bir müzik veritabanı olan MillionSong.

Dünyanın Müzik Arşivi

Kişisel erişime açık en büyük müzik arşivi olan MillionSong‘un ilk ortaya çıkışı 2011’de gerçekleşti. University of Columbia’da yer alan ve ses-konuşma tanıma sistemleri geliştiren LabROSA laboratuvarı ile bireylerin müzik tercihlerine göre karar verme mekanizması geliştiren The Echo Net adlı firmanın ortak çalışması ile MillionSong doğmuş oldu.

The Echo Net’in veritabanında bulunan 30 milyondan fazla parçadan en popüler 1 milyon parça seçildi ve bunlara ait onlarca metaveri derlenerek açık erişime sunuldu. Metaveriler içinde ise yok yok. Bazılarına örnek verirsek:

  • Parça ve albümün adı
  • Parçanın çıkış yılı
  • Sanatçının adı
  • Çıkış yaptığı coğrafi konum
  • Parçanın maksimum desibel değeri ve genel ses yüksekliği
  • Parçanın tahmini temposu (BPM)
  • Parçanın toplam süresi ve temponun başladığı süre
  • Dans edilmeye uygun olup olmadığı
  • Hangi türe ait olduğu
  • Benzer türde diğer 100 sanatçının kaydı
  • Popülaritesi,

ve benzeri şekilde her parçaya ait 54 parametre yer alıyor. Elbette bu veriler içinde parçaların audio dosyaları bulunmuyor. Diğer tüm metaverilerin neler olduğuna şu adresten; bu parametrelerin örnek bir parçadaki değerlerine ise şuradan göz atabilirsiniz. Ufak bir dipnot olarak The Echo Net firmasının sonradan Spotify tarafından satın alındığını da ekleyelim.

Nasıl İndirilir?

Erişime açık en büyük bu müzik veritabanında 44,745 sanatçıya ait 1 Milyon parça; her birine de ait onlarca metaveri yer alıyor. Toplam verisetinin boyutunun büyük olacağını tahmin ediyorsunuzdur. 200 GB‘a yakın bu devasa veriyi, doğrudan Open Science Data Cloud (OSDC) üzerindeki Million Song Dataset bağlantısından indirebilirsiniz. (AKK var iken nasıl indiriyorsanız artık). Alternatif olarak, bulut üzerinde yüklü bir sanal makinanız var ise ilgili veriyi Amazon Web Services üzerindeki Amazon Public Dataset bağlantısından da çekebilirsiniz.

Bu noktada, hobi olarak uğraşacak insanların şevkinin biraz kırılacağını da tahmin etmiş olacaklar ki, bir çözüm daha sunmuşlar. Tüm verinin %1’ini kapsayacak (10,000 parça ve 1.8 GB) bir altküme oluşturarak indirip oynamanıza olanak tanımışlar. Bu verisetinin doğrudan indirme bağlantısı şudur.

Neler Yapılabilir?

Bu kadar veri ile neler yapılacağı, ne tür istatistiksel ve görsel çalışmalar yapılacağı tamamen size kalmış. Yine de yapılmış bir kaç çalışmadan örneklere göz atmak bir fikir verebilir.

Aşağıda, @iamreddave adlı kullanıcı tarafından MillionSong veriseti kullanılarak oluşturulan ilgi çekici grafikler yer alıyor. Grafiklere bakılarak müziğin giderek belli kalıplara girdiğini net bir şekilde görebiliyorsunuz.

Elbette veri görselleştirmeye ek olarak, geliştireceğiniz algoritmaların ve istatistiksel analizlerin de sınırı yok. https://labrosa.ee.columbia.edu/millionsong/ adresinden veriseti ile daha fazla bilgi edinebilirsiniz. Verileri inceledikten sonra aklınızda uçuk ve farklı fikirler muhakkak canlanacaktır. Bu kadar parametre ile makine öğrenmesi kullanarak neler yapabileceğinizi hayal etmeniz yeterli.


Umarım, bu yazı dizisi ilginizi çekmiştir. Açıkçası kapsamlı ve ilgi çekici bir verinin, her zaman R kullanmayı daha da teşvik edeceğine inanıyoruz. Bu sebeple ara sıra, benzeri ilginç veritabanlarının tanıtımını yapacağız.

Moleküler Biyolog ve Genetikçi.İstanbul Teknik Üniversitesi'nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor. Genetik ve biyoinformatik üzerine Variant adlı blogda yazıyor.

Yorum bırakın:

Your email address will not be published.

Site Footer

Sliding Sidebar

Hakkımda

Hakkımda

Moleküler Biyolog ve Genetikçi. İstanbul Teknik Üniversitesi'nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor.

Tweets

Message: Invalid or expired token., Please check your Twitter Authentication Data or internet connection.