Kategori
Opinion Statistics

Deciphering the Tweet: Kesalahan Rumus dan Syarat Quick Count

Tidak bosan saya menulis artikel tentang tweet ini, karena sepertinya belum ada jawaban dan klarifikasi. Mari kita bedah kembali tweet dari Dr. Ronnie Higuchi Rusli, dosen program pascasarjana Universitas Indonesia. Pembedahan ini dilakukan untuk menguji pernyataan Dr. Ronnie Rusli tentang kesahihan Quick Count.

twit2

Dr. Ronnie Higuchi Rusli juga menuliskan syarat Quick Count sebagai berikut:

SyaratQuickCount

Pembahasan Tujuh Statement Dr. Ronnie

Ada delapan hal yang disampaikan pada link Tweet di atas yaitu terdiri dari:

  1. Dua buah persamaan, satu persamaan untuk Margin of Error dan satu lagi persamaan jumlah sampel TPS
  2. Lima pernyataan tentang masing-masing variabel untuk mencapai syarat Quick Count yang benar
  3. Satu grafik perpotongan 2 kurva distribusi normal

Saya akan mengupas ketujuh hal di atas, kecuali grafik, di mana grafik kurang jelas sumbu X dan Y nya menyebabkan grafik tersebut menjadi sulit dimengerti.

Persamaan Jumlah Sampel TPS

Persamaan jumlah sampel TPS ini sudah saya bahas sebelumnya di Statistika 101: Ukuran Sampel untuk Data Proporsi, di mana saya membahas kesalahan dari persamaan ini. Namun sekali lagi kita anggap persamaan Dr. Ronnie benar sehingga kita dapat menggunakan persamaan:

\displaystyle n_{tps} = \frac{p(1-p)}{MoE/(Z_{99\%})^2} + \frac{p(p-1)}{N}

Persamaan Margin of Error

Persamaan Margin of Error yang disampaikan adalah persamaan dasar untuk menghitung Margin of Error berdasarkan Confidence Level dan Standard Deviation:

\displaystyle MoE = \bigg[\frac{S_D}{\sqrt{n_{tps}}}\bigg]Z_{99\%}

Kelima Pernyataan Syarat Quick Count

Standard Deviasi wajib 1 persen
Margin of Error (MoE) 0,02-0,03%
Nilai Koefisien Z_{99\%} harus terpenuhi
Probabilitas masing-masing sama 50%
Jumlah sampel TPS yang dipakai tepat

Mari kita uji persamaan kedua (Margin of Error) dengan kalimat pertama dan kedua di pernyataan syarat Quick Count yang dijabarkan oleh Dr. Ronnie:

\displaystyle MoE = \bigg[\frac{S_D}{\sqrt{n_{sd}}}\bigg]Z_{99\%}

Masukkan margin of error 0.02%, standard deviasi 1% dan Z_{99\%} = 2.58 harus terpenuhi.

\displaystyle 0.02\% = \bigg[\frac{1\%}{\sqrt{n_{sd}}}\bigg]2.58

\displaystyle n_{tps} = \bigg(\frac{1\%}{0.02\%}*2.58\bigg)^2 = 16641

Mari kita uji persamaan pertama dengan variabel yang sama, seharusnya kedua persamaan menghasilkan nilai yang sama

\displaystyle n_{tps} = \frac{p(1-p)}{MoE/(Z_{99\%})^2} + \frac{p(p-1)}{N}

\displaystyle n_{tps} = \frac{0.25}{0.0002/(2.58)^2} + \frac{(-0.25)}{809497} = 8320.5

Terlihat jelas hasil jumlah TPS di persamaan pertama dan persamaan kedua berbeda. Hal ini patut dipertanyakan, seharusnya persamaan pertama dan kedua menghasilkan nilai yang sama. Untuk pembanding dapat dilihat penggunaan persamaan yang saya turunkan di Statistika 101: Ukuran Sampel untuk Data Proporsi:

\displaystyle n_{tps} = \frac{z^2\hat{p}(1-\hat{p})}{e^2}

Persamaan ini dapat disebut juga persamaan Cochran.

\displaystyle n_{tps} = \frac{2.58^2(0.5)(0.5)}{0.01^2} = 16641

Mengetahui bahwa standard deviasi dari sebuah data proporsi sebagai berikut:

\displaystyle \sigma = \sqrt{pq} = \sqrt{0.5(0.5)} = 0.5

Maka dapat kembali dimasukkan kepada persamaan MOE:

\displaystyle 0.01\% = \bigg(\frac{50\%}{n_{tps}}\bigg)Z_{99\%}

\displaystyle n_{tps} = \bigg(\frac{50\%}{1\%}*2.58\bigg)^2 = 16641

Jelas terlihat bahwa persamaan dari Dr. Ronnie salah, karena kedua persamaan tersebut tidak menghasilkan nilai yang sama.

Kesalahan Perlu Diklarifikasi

Kesalahan pertama yang sudah saya bahas adalah kesalahan rumus, di mana harusnya hasil penurunan rumus jumlah sampel TPS adalah

\displaystyle n_{tps} = \frac{z^2\hat{p}(1-\hat{p})}{e^2}

Kesalahan kedua yang nampak pada pernyataan Dr. Ronnie adalah standard deviasi wajib 1% dan probabilitas masing-masing adalah 50%. Keduanya tidak kompatibel di mana jika kita memasukkan nilai probabilitas 50%, nilai standard deviasi adalah:

\sigma = \sqrt{\hat{p}\hat{q}} = \sqrt{(50\%)(1-50\%)} = 50\%

Dengan artikel ini, sekali lagi saya mohon kepada Dr. Ronnie Rusli untuk mengklarifikasi persamaan dan syarat yang dituliskan di depan khalayak umum agar tidak ada misinformasi.

Bagi Anda yang membaca artikel ini, mohon sampaikan dan mention Dr. Ronnie mengenai masalah ini, semoga beliau berkenan untuk memperbaiki dan memberikan penjelasan kepada masyarakat tentang syarat Quick Count yang benar.

Kategori
Statistics Uncategorized

Statistika 101: Ukuran Sampel untuk Data Proporsi

Background

Saya menulis artikel singkat ini tentang ukuran sampel dan data proporsi karena melihat rumus yang beredar oleh Dr. Ronnie Rusli tentang rumus Quick Count, menurut saya rumus ini memiliki permasalahan, seperti yang saya jabarkan di artikel sebelumnya: https://josefmtd.com/2019/05/04/statistika-101-memberikan-pengertian-hasil-quick-count-pilpres-2019/

Rumus yang disampaikan Dr. Ronnie di-retweet oleh 2778 akun dan diberi like oleh 4808 akun. Menurut saya keanehan ini perlu dijawab dengan sebuah artikel dan klarifikasi, maka saya menulis kembali artikel ini.

Artikel ini juga bertujuan untuk merapihkan catatan statistik dari mata kuliah Probabilitas dan Stokastik yang saya terima pada tanggal 25 Maret 2015, diampu oleh Bapak M. Firdaus S. Lubis, S.T., M.T., sekaligus memberikan contoh kasus pada sebuah data proporsi yakni dalam aplikasi Quick Count.

Central Limit Theorem dan Distribusi Normal

Dasar dari Random Sampling adalah Central Limit Theorem. Central Limit Theorem adalah sebuah teori statistik di mana jika diambil banyak sampel dari sebuah populasi dengan variansi data yang berhingga (finite), mean dari sampel yang diambil pada populasi yang sama akan sesuai dengan mean dari populasi. Central Limit Theorem menunjukkan bahwa semakin bertambahnya jumlah sampel yang diambil secara acak, maka distribusi kemungkinan letak nilai mean dari sampel tersebut akan mengikuti distribusi normal.

normaldistribution
Gambar 1. Persebaran mean dengan distribusi normal

Asumsi distribusi normal dapat kita pakai ketika jumlah sampel yang kita ambil sudah mencapai batas nilai tertentu. Jika distribusi normal dapat dicapai dengan sampel yang kita ambil, maka persamaan-persamaan ini menjadi valid:

\displaystyle S_x = \frac{\sigma_x}{\sqrt{n}}

S_x adalah standard error dari mean
\sigma_x adalah standard deviasi
n adalah jumlah sampel (tps)

\displaystyle moe = z(S_x)

moe adalah margin of error
z adalah nilai dari tabel distribusi normal sesuai dengan Confidence Level
S_x adalah standard error dari mean

Data Proporsi

Data proporsi menunjukkan perbandingan atau persentase dari sebuah populasi dengan karakteristik tertentu. Data proporsi ini memiliki kemungkinan binomial, antara ya atau tidak. Hal ini dapat diaplikasikan juga pada polling maupun quick count karena data yang diambil merepresentasikan persentase dipilihnya suatu kandidat atau partai politik. Nilai p (proportion of interest dari populasi) ini yang ingin dihitung dengan cepat dengan sampel untuk mendapatkan estimasi nilai p: \hat{p}. Untuk mendapatkan simpangan baku (standard deviasi) dari data hasil proporsi ini, kita perlu mengetahui proporsi populasi sesungguhnya, hal ini tidak memungkinkan pada aplikasi Quick Count, umumnya rumus standard error dari proporsi yang dipakai:

\displaystyle S_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

S_{\hat{p}} adalah standard error dari estimasi proporsi hasil sampel
\hat{p} adalah estimasi proporsi hasil sampel

Proporsi adalah data dengan distribusi binomial, namun seiring dengan bertambahnya sampel acak yang diambil pada populasi yang sama, maka distribusi kemungkinan nilai \hat{p} akan menuju distribusi normal, sehingga rumus sebelumnya kembali dapat dipakai.

\displaystyle moe_{\hat{p}} = z(S_{\hat{p}})

moe_{\hat{p}} adalah margin of error dari estimasi proporsi hasil sampel

Untuk memastikan bahwa sampel yang kita ambil sudah cukup untuk mendekati distribusi normal terdapat beberapa rule of thumb sebagai berikut:

\displaystyle np > 5
\displaystyle nq > 5

Mengambil Jumlah Sampel

Mengetahui syarat-syarat untuk mencapai jumlah sampel yang tepat, yaitu data proporsi (data binomial) harus merupakan sampel acak dengan jumlah yang dapat memenuhi syarat np > 5 dan nq > 5. Setelah itu dapat digunakan persamaan yang merupakan substitusi nilai S_{\hat{p}} pada persamaan moe_{\hat{p}} dan mengubah fungsi untuk mendapatkan nilai n maka didapatkan rumus:

\displaystyle n = \frac{\displaystyle z^2 [\hat{p}(1-\hat{p})]}{\displaystyle moe_{\hat{p}}^2}

Menggunakan persamaan ini dapat dihasilkan jumlah sampel yang sesuai dengan dasar Central Limit Theorem bahwa sampel memiliki distribusi normal untuk random sampling, dan kaidah binomial dan pendekatannya menuju distribusi normal jika sampel memadai.

Efek Populasi Berhingga terhadap Jumlah Sampel

Rumus di atas adalah rumus yang didefinisikan untuk sebuah populasi yang tak berhingga (infinite), namun pada kondisi riil, atau dalam konteks Pemilu, jumlah populasi TPS adalah berhingga, sehingga terdapat faktor pengali koreksi terhadap populasi yang berhingga pada standard deviasi. Hal ini disebabkan oleh pilihan sampel TPS tidak boleh overlap dari keseluruhan TPS populasi, (sampling without replacement). Hal ini menyebabkan nilai proporsi yang diambil menjadi dependen terhadap jumlah sampel dan populasi, sehingga standard error dari sampling perlu dikalikan dengan faktor koreksi populasi:

\displaystyle S_{\hat{p} finite N} = S_{\hat{p}} \sqrt{\frac{N_{tps}-n_{tps}}{N_{tps}-1}}

S_{\hat{p} finite N} adalah standard error sampling pada populasi berhingga
N_{tps} adalah jumlah populasi
n_{tps} adalah jumlah sampel

Perlu digarisbawahi bahwa rumus ini hanya berlaku jika sampel yang diambil sudah melebihi 5% dari populasi, jika tidak, nilai faktor koreksi ini akan mendekati 1, sehingga pengaruhnya tidak lagi besar.

Menurunkan rumus untuk mencari jumlah TPS (n_{tps} dengan pengaruh jumlah populasi ini didapatkan:

\displaystyle MOE = z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\sqrt{\frac{N-n}{N-1}}

Kuadratkan kedua sisi menjadi:

\displaystyle MOE^2 = z^2 \frac{\hat{p}(1-\hat{p})}{n} \frac{N-n}{N-1}

Lalu tukar posisi masing-masing variabel sehingga berbentuk:

\displaystyle \frac{N-n}{n} = \frac{(N-1)(MOE)^2}{\hat{p}(1-\hat{p})z^2}

Lalu ubah persamaan di atas sehingga dapat menghasilkan fungsi n_{tps}

\displaystyle n_{tps} = \frac{N}{\displaystyle 1 + \frac{MOE^2(N-1)}{z^2 \big( \hat{p}(1-\hat{p} \big)}}

Persamaan di atas adalah persamaan yang mungkin harusnya di unggah dan di cuit oleh Dr. Ronnie Higuchi Rusli.

EDIT: Penambahan penurunan rumus pencarian jumlah sampel TPS

Appendix: Postingan Dr. Ronnie Rusli

capture.png