REGRESI
Bentuk yang paling umum digunakan adalah regresi linier regresi, dan jenis yang paling umum dari regresi linier biasa disebut regresi kuadrat terkecil.
Regresi linier menggunakan nilai dari data yang ada set terdiri dari pengukuran nilai dari dua variabel, X dan Y, untuk mengembangkan sebuah model yang berguna untuk memprediksi nilai variabel dependen, Y untuk nilai X.
ELEMEN DARI PERSAMAAN REGRESI Persamaan regresi ditulis sebagai Y = a + bX + e
Y adalah nilai dari variabel Dependent (Y), apa yang diprediksi atau dijelaskan
atau Alpha, sebuah konstanta, sama dengan nilai Y ketika nilai dari X = 0
b atau Beta, koefisien X; kemiringan garis regresi; berapa banyak perubahan Y untuk setiap perubahan satu unit X.
X adalah nilai dari variabel Independen (X), apa yang meramalkan atau menjelaskan nilai Y
e adalah istilah kesalahan; kesalahan dalam memprediksi nilai Y, diberi nilai X (tidak ditampilkan dalam persamaan regresi yang paling).
Sebagai contoh, katakanlah kita tahu apa yang rata-rata kecepatan mobil di jalan bebas hambatan ketika kita memiliki 2 patroli jalan raya dikerahkan (kecepatan rata-rata = 75 mph) atau 10 patroli jalan raya dikerahkan (kecepatan rata-rata = 35 mph). Tapi apa yang akan menjadi kecepatan rata-rata mobil di jalan bebas hambatan ketika kita menyebarkan patroli jalan raya 5?
Kecepatan rata-rata di Freeway (Y) | Jumlah Mobil Patroli Dikerahkan (X) |
75 | 2 |
35 | 10 |
Dari data kami dikenal, kita dapat menggunakan rumus regresi (perhitungan tidak ditampilkan) untuk menghitung nilai-nilai dan dan mendapatkan persamaan berikut: Y = 85 + (-5) X, dimana
Y adalah rata-rata kecepatan mobil di jalan bebas hambatan
a = 85, atau kecepatan rata-rata ketika X = 0
b = (-5), dampak pada Y dari setiap mobil patroli tambahan dikerahkan
X adalah jumlah mobil patroli dikerahkan
Artinya, kecepatan rata-rata mobil di jalan bebas hambatan ketika ada patroli jalan raya tidak bekerja (X = 0) akan 85 mph. Untuk masing-masing bekerja patroli jalan raya mobil tambahan, kecepatan rata-rata akan turun sebesar 5 mph Selama lima patroli (X = 5), Y = 85 + (-5) (5) = 85 -. 25 = 60 mph
Mungkin ada beberapa variasi pada bagaimana persamaan regresi ditulis dalam literatur. Misalnya, Anda kadang-kadang dapat melihat istilah variabel dependen (Y) ditulis dengan "topi" kecil (^) di atasnya, atau disebut Y-topi. Hal ini mengacu pada nilai prediksi Y. Y polos mengacu pada nilai-nilai Y yang diamati dalam data set digunakan untuk menghitung persamaan regresi.
Anda dapat melihat simbol untuk alfa (a) dan beta (b) ditulis dalam huruf Yunani, atau Anda mungkin melihat mereka ditulis dalam huruf bahasa Inggris. Koefisien variabel independen mungkin memiliki subscript, sebagaimana istilah untuk X, misalnya, b 1 X 1 (ini adalah umum dalam regresi berganda).
PERSAMAAN REGRESI MENILAI Kami sekarang memiliki persamaan regresi. Tapi bagaimana yang baik adalah persamaan untuk memprediksi nilai Y, untuk nilai X? Untuk penilaian itu, kita beralih ke ukuran asosiasi dan ukuran signifikansi statistik yang digunakan dengan persamaan regresi.
r 2
r 2 adalah ukuran dasar; itu mewakili persen dari varians dalam nilai-nilai Y yang dapat dijelaskan dengan mengetahui nilai r 2 X. bervariasi dari rendah dari 0,0 (tidak ada varians dijelaskan), ke tinggi dari 1,0 (semua varians dijelaskan).
SEB
SEB adalah kesalahan standar dari nilai yang dihitung dari b. Sebuah t-test untuk signifikansi statistik dari koefisien dilakukan dengan membagi nilai b oleh kesalahan standar. Dengan aturan praktis, t-nilai yang lebih besar dari 2,0 biasanya statistik signifikan tetapi Anda harus berkonsultasi dengan t-tabel untuk memastikan. Jika nilai t-menunjukkan bahwa koefisien b adalah signifikan secara statistik, ini berarti bahwa variabel independen atau X (jumlah mobil patroli dikerahkan) harus disimpan dalam persamaan regresi, karena memiliki hubungan statistik yang signifikan dengan variabel dependen atau Y (kecepatan rata-rata dalam mph). Jika hubungan tidak signifikan secara statistik, nilai koefisien b akan (statistik berbicara) tidak dapat dibedakan dari nol.
F
F adalah tes untuk signifikansi statistik dari persamaan regresi secara keseluruhan. Hal ini diperoleh dengan membagi varians dijelaskan oleh varians dijelaskan. Dengan aturan praktis, F-nilai yang lebih besar dari 4,0 biasanya statistik signifikan tetapi anda harus berkonsultasi dengan F-tabel untuk memastikan. Jika F adalah signifikan, dari persamaan regresi membantu kita untuk memahami hubungan antara X dan Y.
Sebagai contoh kita di atas, katakanlah kita memperoleh nilai-nilai berikut:
r 2 = 0,9
Mengetahui nilai X (jumlah mobil patroli dikerahkan), kita dapat menjelaskan 90% dari varians dalam Y (kecepatan rata-rata pengendara di jalan raya).
SEB = 1,5
Membagi b dengan SEB, kita mendapatkan nilai t = -5/1.5 = -3,3. Konsultasi t-tabel, kita menemukan bahwa koefisien secara statistik signifikan. Ini berarti bahwa variabel bebas X (jumlah mobil patroli dikerahkan) harus disimpan dalam persamaan regresi, karena memiliki hubungan statistik yang signifikan dengan variabel terikat Y (kecepatan rata-rata dalam mph).
F = 8.4
Dari tabel F-, kita melihat bahwa persamaan regresi secara keseluruhan adalah signifikan secara statistik. Ini berarti bahwa persamaan regresinya adalah membantu kita untuk memahami hubungan antara X dan Y.
LANGKAH-LANGKAH DALAM REGRESI LINEAR 1. Negara hipotesis.
2. Negara hipotesis nol
3. Kumpulkan data.
4. Hitung persamaan regresi
5. Periksa tes signifikan statistik dan ukuran asosiasi
6. Menghubungkan temuan statistik untuk hipotesis. Menerima atau menolak hipotesis nol.
7. Menolak, menerima atau merevisi hipotesis asli. Membuat saran-saran untuk desain penelitian dan aspek manajemen masalah.
Contoh: pool kendaraan ingin tahu apakah itu biaya lebih untuk menjaga mobil yang didorong lebih sering.
Hipotesis: biaya pemeliharaan dipengaruhi oleh jarak tempuh mobil
Null hipotesis: tidak ada hubungan antara jarak tempuh dan biaya pemeliharaan
Variabel dependen: Y adalah biaya dalam dolar pemeliharaan tahunan pada kendaraan bermotor
Independen variabel: X adalah jarak tempuh tahunan pada kendaraan motor yang sama
Data dikumpulkan pada mobil masing-masing di kolam motor, tentang jumlah mil didorong di tahun tertentu, dan biaya pemeliharaan untuk tahun itu. Berikut adalah contoh dari data yang dikumpulkan.
Nomor Mobil | Miles Driven (X) | Biaya Perbaikan (Y) |
1 | 80,000 | $ 1.200 |
2 | 29,000 | $ 150 |
3 | 53,000 | $ 650 |
4 | 13,000 | $ 200 |
5 | 45,000 | $ 325 |
Persamaan regresi dihitung sebagai (perhitungan tidak ditampilkan): Y = 50 + .03 X
Sebagai contoh, jika X = 50.000 maka Y = 50 + .03 (50.000) = $ 1.550
a = 50 atau biaya pemeliharaan bila X = 0, jika tidak ada jarak tempuh pada mobil, maka biaya tahunan pemeliharaan = $ 50
b =. 03 nilai bahwa Y meningkat untuk setiap kenaikan satu unit X; untuk setiap mil didorong tambahan (X), biaya pemeliharaan tahunan meningkat dengan $ 0,03
SEB = 0,0005; nilai b dibagi dengan SEB = 60,0; t-tabel menunjukkan bahwa koefisien b X adalah signifikan secara statistik (ini berhubungan dengan Y)
r 2 =. 90 kita dapat menjelaskan 90% dari varians dalam biaya perbaikan untuk kendaraan yang berbeda jika kita tahu jarak tempuh kendaraan untuk setiap mobil
Kesimpulan: Tolak hipotesis nol tidak ada hubungan dan menerima hipotesis penelitian, jarak tempuh yang mempengaruhi biaya perbaikan.
ASUMSI DARI REGRESI LINEAR Secara teori, ada beberapa asumsi penting yang harus dipenuhi jika regresi linier yang akan digunakan. Ini adalah:
1. Baik independen (X) dan (Y) tergantung variabel diukur pada interval atau tingkat rasio.
2. Hubungan antara independen (X) dan (Y) variabel tergantung adalah linier.
3. Kesalahan dalam prediksi nilai Y didistribusikan dengan cara yang mendekati kurva normal.
4. Kesalahan dalam prediksi nilai Y adalah semua independen satu sama lain.
5. Distribusi kesalahan dalam prediksi nilai Y adalah konstan terlepas dari nilai X.
Ada sejumlah tes statistik canggih yang dapat digunakan untuk memeriksa apakah atau tidak asumsi ini adalah benar untuk setiap persamaan regresi yang diberikan. Namun, ini adalah di luar cakupan diskusi ini.
Regresi linier berguna untuk mengeksplorasi hubungan variabel independen yang menandai berlalunya waktu ke variabel dependen ketika hubungan linier, yaitu, bila ada ke bawah jelas, atau ke atas, tren dalam data dari waktu ke waktu.
Namun, jika tren variabel dependen dari waktu ke waktu tidak linear, maka regresi linear tidak akan menangkap hubungan. Regresi linier gagal untuk menangkap tren musiman, siklis, dan kontra-siklus dalam data time series. Juga tidak regresi linier menangkap efek dari perubahan arah data time series, maupun perubahan dalam tingkat perubahan dari waktu ke waktu. Untuk regresi time series, penting untuk mendapatkan plot data dari waktu ke waktu dan memeriksa untuk memungkinkan non-linear tren.
Ada juga masalah jika nilai-nilai pada satu titik dalam time series yang ditentukan atau sangat dipengaruhi oleh nilai-nilai pada waktu sebelumnya. Hal ini disebut auto-korelasi. Hal ini terjadi ketika nilai-nilai variabel dependen dari waktu ke waktu tidak terdistribusi secara acak.
Regresi linier dapat digunakan dengan desain penelitian time series terganggu. Misalnya, kebijakan diimplementasikan untuk mengurangi jumlah kecelakaan antara driver remaja.
1. Data yang dikumpulkan selama paling sedikit 20 atau 30 periode waktu (bulan atau kuartal) sebelum kebijakan tersebut diterapkan, dan kemudian selama 20 atau 30 periode waktu setelah kebijakan diimplementasikan.
2. Satu regresi linier dilakukan untuk data kecelakaan pada tingkat pra-kebijakan periode waktu.
3. Lain regresi linier dilakukan untuk tingkat data kecelakaan pada periode waktu pasca-kebijakan.
4. Harus ada perbedaan dalam nilai-nilai, konstanta koefisien b, SEB, dan r 2 untuk dua persamaan.
Jika ada perbedaan antara dua persamaan, maka kebijakan tersebut memiliki efek. Jika semua titik data (baik pra-dan pasca-) telah dimasukkan dalam persamaan regresi, jumlah perbedaan dijelaskan (r 2) akan cukup rendah. Hal ini karena, jika ada perubahan setelah kebijakan diperkenalkan, tren tidak lagi linier. Sebaliknya, ada dua kecenderungan linier yang berbeda, satu sebelum kebijakan itu diperkenalkan, dan satu lagi, yang berbeda setelah itu diperkenalkan.
Dalam menyiapkan data untuk regresi time series, peneliti harus ingat untuk nomor tahun (atau periode waktu lainnya) berturut-turut dari 1 sampai n. Berikut ini adalah nilai untuk variabel (X) independen. Nilai dari variabel dependen adalah tingkat kecelakaan. Sebagai contoh,
Variabel Independen (X) - Tahun | Dependent Variabel (Y) - Tingkat Kecelakaan |
1 | 50,000 |
2 | 51,000 |
3 | 52,000 |
4 | 53,000 |