PENGENALAN DATA SAINS

MATEMATIKA UNTUK DATA SCIENCE

1.      Definisi Standard deviatio ?

Deviasi Standar adalah suatu nilai yang dimanfaatkan dalam keperluan untuk menunjukkan ukuran variasi atau suatu dispersi.

 

2.      Untuk mengetahui spread / penyebaran data, dapat menggunakan spread atau standard deviation ?

Ada pengukuran yang berbeda, disebut statistik deskriptif yang menjawab pertanyaan-pertanyaan ini. Misalnya, pusat data, juga dikenal sebagai rata-rata , dapat digambarkan dalam hal mean, median atau modus. Statistik lainnya, yang kurang terkenal, dapat digunakan seperti midhinge atau trimean tersebut.

Untuk penyebaran data, bisa menggunakan jangkauan, rentang interkuartil atau standar deviasi. Deviasi standar dipasangkan dengan mean untuk mengukur penyebaran data kami. Kita kemudian dapat menggunakan nomor ini untuk membandingkan beberapa set data. Semakin besar deviasi standar kami, maka semakin besar spread.

 

3.      Semakin tinggi standard deviation, bagaimana datanya ?

Sementara jika nilai standar deviasi semakin tinggi maka semakin lebar rentang variasi data yang ada. Sehingga pada akhirnya standar deviasi merupakan besar perbedaan dari nilai sampel atas rata – rata yang ada.

 

4.      Semakin kecil standard deviation, bagaimana datanya ?

Hal tersebut berarti bahwa semakin rendah standar deviasi, maka akan semakin mendekati rata – rata.

 

5.      Mengapa lebih baik menggunakan standard deviation dari pada range untuk mengetahui spread / penyebaran data ?

Hal ini penyebabnya karena nilai standar deviasi memiliki satuan ukuran yang sama dengan satuan ukuran dari data sumber yang ada. Jadi semisal terdapat suatu sampel data dengan menggunakan satuan meter, maka suatu nilai standar deviasinya juga memiliki satuan meter. Begitu sebaliknya.

Ketika suatu sampel data menggunakan satuan centimeter, maka suatu nilai standar deviasi dari suatu sampel data tersebut juga menggunakan satuan centimeter. Sementara varian memiliki nilai satuan ukuran kuadrat, sehingga pada akhirnya nilai akhir menjadi meter kuadrat juga.

 

6.      Normal distribution?

Distribusi normal merupakan salah satu jenis distribusi dengan variabel acak yang kontinu.

Pada distribusi normal terdapat kurva/grafik yang digambarkan menyerupai bentuk lonceng.

Distribusi normal dapat disebut juga sebagai distribusi Gauss. Persamaan yang terdapat dalam distribusi normal salah satunya yaitu terkait fungsi densitas. Bentuk kurva dari data berdistribusi normal yaitu sebagai berikut:

 

Kurva normal distribution

 

 

Rumus normal distribution

 

Keterangan:

·         π : konstanta dengan nilai 3,14159. . .

·         e  : bilangan eksponensial dengan nilai 2,7183 . . .

·         µ  : rata-rata (mean) dari data

·         σ  : simpangan baku data berdistribusi normal

Bagaimana cara untuk menghitung nilai z? Nilai z dapat dihitung dengan rumus berikut.

z = (x – µ)/σ

Keterangan:

·                      µ  : rata-rata (mean) dari data

·                      σ  : simpangan baku data berdistribusi normal

 

7.      Jelaskan tentang probabilitas ?

PROBABILITAS  (PELUANG KEJADIAN)

P(A) = Probabilitas / peluang kejadian A terjadi :

0 £ P(A) £ 1

P(A) =                         a = banyak cara (kemungkinan) A terjadi

n = semua cara yang mungkin

Probabilitas adalah ukuran peluang terjadinya suatu kejadian dalam suatu percobaan.

 

1.      Sebuah dadu dilempar, maka probabilitas muncul genap adalah : {2,4,6}:

P(genap) =

 KOMBINASI  (urutan tidak diperhatikan  ®Tidak perlu ada tempat duduk  )

 PERMUTASI  (urutan diperhatikan  ® Ada tempat duduk  )

 

2.      Kombinasi 2 huruf dari 3 huruf (A,B,C) vs permutasi 2 huruf dari 3 huruf (A,B,C)

 

8.      Jelaskan tentang standard deviation 1, 2 dan 3, dalam kaitannya dengan probabilitas ?

Merupakan salah satu konsep yang banyak dibahas dalam distribusi normal. Ketiga standard deviasi tersebut akan membagi kurva lonceng ke dalam tiga range data dan setiap range akan menentukan berapa selisih atau seberapa jauh data dari rata-rata (mean). Semakin banyak data yang jauh dari mean, maka semakin sedikit probabilitasnya. Sebaliknya semakin banyak data yang dekat dengan mean, maka semakin banyak probabilitasnya.

 

9.      Bagaimana aturan 68, 95 dan 98 membantu dalam menghitung probabilitas ?

 

 

 

 

 

 

 

 

 

 


Angka di atas menggambarkan ketiga komponen empirical rule. Alasan mengapa begitu banyak (sekitar 68%) nilai berada dalam 1 standar deviasi mean dalam empirical rule adalah karena ketika data berbentuk lonceng, sebagian besar nilai digumpalkan di tengah, dekat dengan berarti (seperti yang ditunjukkan oleh gambar).

Menambahkan standar deviasi lain di kedua sisi mean meningkatkan persentase dari 68 menjadi 95, yang merupakan lompatan besar dan memberi gambaran bagus tentang "sebagian besar" data berada. Sebagian besar peneliti tetap dengan kisaran 95% (bukan 99. 7%) untuk melaporkan hasilnya, karena meningkatkan jangkauan ke 3 standar deviasi di kedua sisi mean (bukan hanya 2) tampaknya tidak bermanfaat, hanya untuk memilih naik lagi 4. 7% dari nilai.

Empirical rule memberitahu Anda tentang berapa persentase nilai berada dalam kisaran rata-rata tertentu.Hasil ini hanya perkiraan saja, dan hanya berlaku jika data mengikuti distribusi normal. Namun, empirical rule merupakan hasil penting dalam statistik karena konsep "keluar sekitar dua standar deviasi untuk mendapatkan sekitar 95% nilai" adalah hal yang Anda lihat sering disebut dengan interval kepercayaan dan tes hipotesis.

 

10.  Bagaimana cara menghitung probabilitas dgan menggunakan standard deviation

Dengan melihat dimana posisi sebuah nilai terhadap ketiga standard deviasi. Misalkan sebuah nilai berada pada standard deviasi pertama, maka probabilitas nilai tersebut adalah 34%. Persentase ini diperoleh dengan membagi 68 menjadi 2 bagian, karena kurva lonceng terdiri dari bagian kanan dan kiri. Sehingga bisa jadi nilai tersebut berada pada 34% sebelah kiri atau 34% sebelah kanan.

Contoh 1 :

Berapa probabilitas munculnya nilai 20?

Nilai 20 berada antara 10-25 dimana terdapat pada standard deviasi pertama sebelah kiri kurva lonceng, sehingga bisa dipastikan probabulitasnya adalah 34%, seperti sudah disebutkan di atas.

Contoh 2 :

Berapa probabilitas nilai antara 40-60?

Range tersebut berapa pada kanan kurva lonceng dan berada pada standard deviasi kedua dan ketiga. Sehingga probabilitas pada standard deviasi kedua adalah (95%-68%)/2 = 27%/2 = 13.5%. Probabilitas pada standard deviasi ketiga adalah 50%-34%-13.5% = 2,5%. Maka probabilitasnya adalah persen Standard Deviasi Ke-2 ditambah persen Standard Deviasi Ke-3, yaitu 13.5% + 2.5% = 16%.

 

11.  Berapa besar probabilitas / kemungkinan untuk munculnya nilai 20? 34%

12.  berapa besar probabilitas / kemungkinan untuk nilai 40 sampai 60? 13,5% + 2,5% = 16%

 

13.  Zscore definisi?

 

Nilai suatu Z-score adalah merupakan suatu ukuran yang menentukan seberapa besar jarak suatu nilai (dari observasi suatu set sample) terhadap rata-ratanya dalam satuan standar deviasinya.

Nilai Z-score akan berada pada suatu titik pada sumbu datar dari kurva normalnya.

Keberadaan nilai z-score akan menentukan posisinya dalam sumbu datar kurva normal yang juga mencerminkan seberapa jauh keberadaan suatu nilai observasi (x) terhadap rata-ratanya.

Apabila z-score bernilai negative(-) maka dia ada pada posisi sebelah kiri rata-rata nya dalam kurva normal (dilihat dari hadapan kita). Sementara bila bernilai positive(+), maka ada di posisi sebelah kanan rata-ratanya.

 

 

 

Rumus Zscore?

 

 

 

 


14.  Bagaimana menghitung probability dengan menggunakan zscore?

Contoh Penghitungan :

Masih sama untuk dataset diatas, telah diketahui standar deviasi nya adalah 5.51. Misalnya, dalam sampel tinggi badan siswa, kita ingin mencari berapa z-score dan peluang siswa yang tinggi badan nya dibawah 167.

P(x < 167 ; x(mean) = 170 & s = 5.51)

Maka, sesuai rumus diatas, anda akan menghitung: 167 – 170 = -3

Maka, z-score dalam kasus ini adalah -3/5.51 = -0.544

Artinya nilai z-score nya adalah sebesar -0.544 dimana berarti posisinya berada di sebelah kiri nilai rata-rata dalam kurva normal (karena nilainya negative). Nilai ini juga dapat diartikan bahwa umur anda yaitu 20 tahun adalah 1,25 kali standar deviasi dibawah rata-rata popuasinya.

Langkah berikutnya, perhatikan nilai z-score terhadap z-table dalam kurva normal.

Carilah nilai probabilitas nilai -0,544 dalam kurva normal dengan cara:
Nilai negative hanya menunjukkan posisi saja sehingga dapat diabaikan dalam mencari besarnya probabilitas dalam kurva normal

Nilai 0,544 dipecah jadi 2 bagian -0,5 dan 4

 

 

 

 

 

 

https://www.dosenpendidikan.co.id/rumus-standar-deviasi/

http://mychipmunks.blogspot.com/2017/09/perbedaan-simpangan-rata-rata-simpangan.html

https://quipper.co.id/distribusi-normal/

https://www.youtube.com/watch?v=uXtPhKWi5cY&t=34s

https://id.no-dummy.com/applying-empirical-rule-68-95-99

 

Komentar