Statistika 101: Ukuran Sampel untuk Data Proporsi

Background

Saya menulis artikel singkat ini tentang ukuran sampel dan data proporsi karena melihat rumus yang beredar oleh Dr. Ronnie Rusli tentang rumus Quick Count, menurut saya rumus ini memiliki permasalahan, seperti yang saya jabarkan di artikel sebelumnya: https://josefmtd.com/2019/05/04/statistika-101-memberikan-pengertian-hasil-quick-count-pilpres-2019/

Rumus yang disampaikan Dr. Ronnie di-retweet oleh 2778 akun dan diberi like oleh 4808 akun. Menurut saya keanehan ini perlu dijawab dengan sebuah artikel dan klarifikasi, maka saya menulis kembali artikel ini.

Artikel ini juga bertujuan untuk merapihkan catatan statistik dari mata kuliah Probabilitas dan Stokastik yang saya terima pada tanggal 25 Maret 2015, diampu oleh Bapak M. Firdaus S. Lubis, S.T., M.T., sekaligus memberikan contoh kasus pada sebuah data proporsi yakni dalam aplikasi Quick Count.

Central Limit Theorem dan Distribusi Normal

Dasar dari Random Sampling adalah Central Limit Theorem. Central Limit Theorem adalah sebuah teori statistik di mana jika diambil banyak sampel dari sebuah populasi dengan variansi data yang berhingga (finite), mean dari sampel yang diambil pada populasi yang sama akan sesuai dengan mean dari populasi. Central Limit Theorem menunjukkan bahwa semakin bertambahnya jumlah sampel yang diambil secara acak, maka distribusi kemungkinan letak nilai mean dari sampel tersebut akan mengikuti distribusi normal.

normaldistribution
Gambar 1. Persebaran mean dengan distribusi normal

Asumsi distribusi normal dapat kita pakai ketika jumlah sampel yang kita ambil sudah mencapai batas nilai tertentu. Jika distribusi normal dapat dicapai dengan sampel yang kita ambil, maka persamaan-persamaan ini menjadi valid:

\displaystyle S_x = \frac{\sigma_x}{\sqrt{n}}

S_x adalah standard error dari mean
\sigma_x adalah standard deviasi
n adalah jumlah sampel (tps)

\displaystyle moe = z(S_x)

moe adalah margin of error
z adalah nilai dari tabel distribusi normal sesuai dengan Confidence Level
S_x adalah standard error dari mean

Data Proporsi

Data proporsi menunjukkan perbandingan atau persentase dari sebuah populasi dengan karakteristik tertentu. Data proporsi ini memiliki kemungkinan binomial, antara ya atau tidak. Hal ini dapat diaplikasikan juga pada polling maupun quick count karena data yang diambil merepresentasikan persentase dipilihnya suatu kandidat atau partai politik. Nilai p (proportion of interest dari populasi) ini yang ingin dihitung dengan cepat dengan sampel untuk mendapatkan estimasi nilai p: \hat{p}. Untuk mendapatkan simpangan baku (standard deviasi) dari data hasil proporsi ini, kita perlu mengetahui proporsi populasi sesungguhnya, hal ini tidak memungkinkan pada aplikasi Quick Count, umumnya rumus standard error dari proporsi yang dipakai:

\displaystyle S_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

S_{\hat{p}} adalah standard error dari estimasi proporsi hasil sampel
\hat{p} adalah estimasi proporsi hasil sampel

Proporsi adalah data dengan distribusi binomial, namun seiring dengan bertambahnya sampel acak yang diambil pada populasi yang sama, maka distribusi kemungkinan nilai \hat{p} akan menuju distribusi normal, sehingga rumus sebelumnya kembali dapat dipakai.

\displaystyle moe_{\hat{p}} = z(S_{\hat{p}})

moe_{\hat{p}} adalah margin of error dari estimasi proporsi hasil sampel

Untuk memastikan bahwa sampel yang kita ambil sudah cukup untuk mendekati distribusi normal terdapat beberapa rule of thumb sebagai berikut:

\displaystyle np > 5
\displaystyle nq > 5

Mengambil Jumlah Sampel

Mengetahui syarat-syarat untuk mencapai jumlah sampel yang tepat, yaitu data proporsi (data binomial) harus merupakan sampel acak dengan jumlah yang dapat memenuhi syarat np > 5 dan nq > 5. Setelah itu dapat digunakan persamaan yang merupakan substitusi nilai S_{\hat{p}} pada persamaan moe_{\hat{p}} dan mengubah fungsi untuk mendapatkan nilai n maka didapatkan rumus:

\displaystyle n = \frac{\displaystyle z^2 [\hat{p}(1-\hat{p})]}{\displaystyle moe_{\hat{p}}^2}

Menggunakan persamaan ini dapat dihasilkan jumlah sampel yang sesuai dengan dasar Central Limit Theorem bahwa sampel memiliki distribusi normal untuk random sampling, dan kaidah binomial dan pendekatannya menuju distribusi normal jika sampel memadai.

Efek Populasi Berhingga terhadap Jumlah Sampel

Rumus di atas adalah rumus yang didefinisikan untuk sebuah populasi yang tak berhingga (infinite), namun pada kondisi riil, atau dalam konteks Pemilu, jumlah populasi TPS adalah berhingga, sehingga terdapat faktor pengali koreksi terhadap populasi yang berhingga pada standard deviasi. Hal ini disebabkan oleh pilihan sampel TPS tidak boleh overlap dari keseluruhan TPS populasi, (sampling without replacement). Hal ini menyebabkan nilai proporsi yang diambil menjadi dependen terhadap jumlah sampel dan populasi, sehingga standard error dari sampling perlu dikalikan dengan faktor koreksi populasi:

\displaystyle S_{\hat{p} finite N} = S_{\hat{p}} \sqrt{\frac{N_{tps}-n_{tps}}{N_{tps}-1}}

S_{\hat{p} finite N} adalah standard error sampling pada populasi berhingga
N_{tps} adalah jumlah populasi
n_{tps} adalah jumlah sampel

Perlu digarisbawahi bahwa rumus ini hanya berlaku jika sampel yang diambil sudah melebihi 5% dari populasi, jika tidak, nilai faktor koreksi ini akan mendekati 1, sehingga pengaruhnya tidak lagi besar.

Menurunkan rumus untuk mencari jumlah TPS (n_{tps} dengan pengaruh jumlah populasi ini didapatkan:

\displaystyle MOE = z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\sqrt{\frac{N-n}{N-1}}

Kuadratkan kedua sisi menjadi:

\displaystyle MOE^2 = z^2 \frac{\hat{p}(1-\hat{p})}{n} \frac{N-n}{N-1}

Lalu tukar posisi masing-masing variabel sehingga berbentuk:

\displaystyle \frac{N-n}{n} = \frac{(N-1)(MOE)^2}{\hat{p}(1-\hat{p})z^2}

Lalu ubah persamaan di atas sehingga dapat menghasilkan fungsi n_{tps}

\displaystyle n_{tps} = \frac{N}{\displaystyle 1 + \frac{MOE^2(N-1)}{z^2 \big( \hat{p}(1-\hat{p} \big)}}

Persamaan di atas adalah persamaan yang mungkin harusnya di unggah dan di cuit oleh Dr. Ronnie Higuchi Rusli.

EDIT: Penambahan penurunan rumus pencarian jumlah sampel TPS

Appendix: Postingan Dr. Ronnie Rusli

capture.png

Published by josefmtd

Electronics Engineer

4 thoughts on “Statistika 101: Ukuran Sampel untuk Data Proporsi

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: