Project: Data Scientist Assessment Using R (Fundamental R)
Membuat Data Frame
df <- data.frame(a = c(1, 2, 3), b = c(4, 5, 6), c = c(7, 8, 9))
df[,2]
df[1,1]
df[3,2]
Baris pertama adalah perintah untuk membuat dataframe dengan variabel df. Output yang dihasilkan dari perintah baris kedua adalah untuk menampilkan data frame pada kolom kedua, yaitu 4, 5, dan 6; baris ketiga menampilkan data frame pada baris 1 dan kolom 1, yaitu 1; dan baris keempat untuk menampilkan data frame pada baris 3 dan kolom 2, yaitu 6. Hasil output pada project “Membuat Data Frame” sebagai berikut:
Membuat Vector dan Index Position
x <- c(“red”,”blue”,”yellow”,”orange”,”green”,”purple”)
y <- x[c(2,3,4)]
y
Pada variabel x, terdapat beberapa data bertipe string dari “red” hingga “purple”. Variabel y akan menampilkan hasil “blue”, “yellow”, dan “orange”. Berikut hasil outputnya:
Mengisi Syntax Factor
Kadang kali terdapat analisis yang mengharuskan datanya bertipe factor. Berikut ini cara mengisi syntax factor:
x <- as.factor(c(‘grape’,’apples’,’pear’,’cherry’,’mango’,’panda’))
x
x <- as.factor(c(‘grape’,’apples’,’pear’,’cherry’,’mango’,’apples’))
x
Berikut hasil output yang ditampilkan:
Menggunakan Function
Jika terdapat function untuk menambahkan suatu bilangan, bisa dengan menggunakan syntax di bawah ini:
add_numbers <- function(x, y){
x+y}
Misalnya, kita akan menjumlahkan x = 3 dan y = 3 dengan menggunakan syntax berikut setelah menggunakan function di atas.
add_numbers(3,3)
Berikut ini hasil output yang ditampilkan:
Mengganti Missing Value
Project terakhir dalam assessment fundamental R adalah mengganti missing value dari suatu vector dengan nilai mean dari vector tersebut. Vector yang dimaksud adalah sebagai berikut dengan menjalankan syntax di bawah ini.
df <- c(1,2,3,4,5,6,NA,7,8,9,NA)
df
Jika berhasil dijalankan, variabel df akan menampilkan hasil berikut:
Pada data ke-7 dan ke-11 terdapat tulisan “NA” merupakan singkatan dari “Not Available”, sehingga data tersebut harus diganti dengan nilai rata-rata(mean) dari data numerik lainnya. NA dapat dihilangkan dengan cukup menjalankan function berikut.
mean_replace <- function(df){
df[is.na(df)] <- mean(df, na.rm = TRUE)
return (df)}
df <- mean_replace(df)
df
Jika berhasil, output yang ditampilkan adalah mengganti “NA” menjadi nilai 5.
Seperti output di atas yang sudah dihighlight, nilai 5 yang merupakan rata-rata dari data numerik sebelumnya akan menggantikan data bertuliskan “NA”.
Berikut ini syntax keseluruhan dari 5 subbab yang tersedia.
Project yang dijalankan bersumber dari DQLab, yaitu Chapter 1 Project: Data Scientist Assessment Using R. Lagi-lagi ini merupakan project bukan dari hasil belajar, sehingga code di atas bersumber dari hasil try and error dari berbagai sumber untuk menyelesaikan project yang tersedia pada chapter 1 ini. Untuk menampilkan syntax yang ada pada project ini, tentu ada banyak cara penyelesainnya.
Demikian project chapter 1 pada assessment using R.
Selamat Belajar.