4. Demografski podaci

Kako je kampanja i istraživača javnog mnijenja upotrebljavalo komercijalne popise birača, tako su se proširile i ponude podataka koje pružaju dobavljači datoteka. Povrh standardnih političkih ponuda, mnogi dobavljači sada pružaju mnoštvo dodatnih demografskih podataka i podataka o životnom stilu generiranih kroz prediktivne modele ili prikupljenih iz drugih izvora. Ovo poglavlje uspoređuje demografske podatke u biračkim spisima sa samoizvještajima panelista.

Prediktivni modeli koriste podatke kombinacije neovisnih komercijalnih dobavljača i podatke ankete kako bi pokušali predvidjeti brojne karakteristike, od rase osobe do obrazovnog postignuća. Međutim, za neke modelirane varijable velik dio osnovnih podataka dostupan je samo u dijelu država. Na primjer, dobavljači se oslanjaju na kombinaciju podataka iz evidencije birača i dodatnih podataka kako bi predvidjeli rasu ili etničku pripadnost pojedinca. U 16 država ili dijelovima država, uglavnom na jugu, Zakon o biračkim pravima iz 1965. nalaže da države popisuju utrku birača na državnim biračkim spiskovima. Međutim, u državama u kojima ove informacije nisu dostupne, dobavljači pokušavaju koristiti podatke iz drugih izvora, poput identificiranja uobičajenih prezimena ili ako netko živi na području koje je gusto naseljeno određenom rasom.

Pored državnih evidencija birača i komercijalnih podataka, neki dobavljači datoteka birača koriste podatke ankete za poboljšanje i izgradnju svojih modela. Partizanski dobavljači često u modele unose podatke anketa partnerskih organizacija kako bi poboljšali njihovu točnost.

Rasa i nacionalnost općenito se dobro mjere u datotekama

S obzirom na središnju važnost rase i etničke pripadnosti u američkoj politici, dobavljači dosjea birača pokušavaju identificirati rasu pojedinaca u spisu. Prodavači mogu koristiti utrku kako je zabilježena u državnim evidencijama birača na mjestima na kojima su države dužne prikupiti je. Na drugim mjestima, rasa se može modelirati pomoću podataka poput prezimena ili zemljopisne koncentracije.

Modelirana rasa i etnička pripadnost panelista uspoređivana je s onim kako su to panelisti opisivali kad su bili regrutovani u panel (ili u sljedećim anketama profila). Sve u svemu, većina dobavljača može točno identificirati rasu bijelih ispitanika, pri čemu stope točne identifikacije variraju između 81% za Datoteku 3 do 97% za Datoteku 2. Međutim, kada je riječ o preciznom prepoznavanju rase samoprijavljenih crnaca i Latinoamerički panelisti, neki su dobavljači precizniji od drugih.

Među panelistima koji se samoizvještavaju da su crni u anketi, otprilike tri četvrtine u datotekama 2 i 5 (74% u datoteci 5 i 76% u datoteci 2) odgovarajući su modeli ispravno klasificirani kao crni. Međutim, model u datoteci 1 identificira mnogo manje crnih panelista (56%).



Pri klasificiranju samohranih hispanskih panelista, postoji manja razlika u datotekama, koja se kreće od niskih 64% Hispanoamerikanaca ispravno klasificiranih u Datoteci 3 do 75% u Datotekama 1 i 5.

Sveukupno, stopa ispravne klasifikacije prema rasi kreće se od 74% za datoteku 3 do 85% za datoteku 2.

Ostale se demografske varijable jako razlikuju u točnosti

Pored podataka koje pružaju državni birački spiskovi, mnogi dobavljači spiskova birača uključuju i podatke iz drugih javnih i komercijalnih izvora podataka. Ti bi podaci mogli potjecati iz različitih izvora, poput pretplata na časopise ili kreditnih ureda, s ciljem pružanja dodatnih informacija o Amerikancima izvan onoga što je dostupno izravno s državnih biračkih popisa.

Prisutnost komercijalnih podataka u biračkim spisima je široko rasprostranjena; međutim, određene dostupne varijable razlikuju se ovisno o dobavljaču. Mnogi dobavljači posjeduju financijske podatke kreditnih ureda ili tvrtki koje izdaju kreditne kartice, uključujući stvari poput cijene kuće i iznosa hipoteke. Pored toga, neki dobavljači pružaju informacije poput zanimanja, prihoda i broja odraslih ili djece u kućanstvu. Prisutnost dozvola za lov ili ribolov jedna je od najprisutnijih komercijalnih varijabli.

Ovi se komercijalni podaci također predstavljaju na nekoliko načina. Neke od ovih varijabli stoje samostalno kao zastave, poput prisutnosti lovne dozvole, dok su druge uključene u modele za predviđanje određenih ishoda ili demografskih podataka. Na primjer, nekoliko dobavljača nudi modele za osobne interese, poput vlasnika oružja ili ljubitelja plovidbe - informacije koje se modeliraju na temelju izvora poput pretplata na časopise.

Analiza triju komercijalnih varijabli koje su češće dostupne - obrazovanja, dohotka i vjerske pripadnosti - pokazuje da su neki modeli točniji od drugih. Sve u svemu, većina dobavljača imala je veću stopu točnosti u predviđanju obrazovanja od prihoda. Kad je riječ o vjerskoj pripadnosti, prodavači većinom ispravno predviđaju velike religije u SAD-u, poput protestantizma, ali imaju manje uspjeha s religijama manje učestalosti poput budizma.

Jedno od uobičajenih problema mnogih modela je prevladavanje nedostajućih podataka, s velikim dijelovima podudaranja koji su na nekim varijablama navedeni kao nerazvrstani. Na primjer, u procjeni modela proizvedenih za predviđanje obrazovnog postignuća, više od polovice (57%) podudaranja u datoteci 4 i jedna četvrtina (25%) podudaranja u datoteci 5 navode se kao nerazvrstani.

Međutim, kad se izuzmu oni kojima nedostaje procjena obrazovanja, mnogi modeli imaju relativno visoku stopu ispravnog razvrstavanja panelista sa svojim statusom obrazovanja koji su sami prijavili. Potpuno šest u deset ili više diplomanata točno je klasificirano kao diplomirani student u datotekama 1, 4 i 5.12

Prihod kućanstva možda je najteža od demografskih varijabli za procjenu. Na točnost anketnih mjerenja dohotka mogu utjecati mnogi čimbenici, uključujući nedostatak znanja ispitanika (od ispitanika se obično traži da se prisjete ukupnog dohotka kućanstva iz prethodne godine). Uz to, prihod je osjetljiva tema, a ispitanici u anketi vjerojatnije će odbiti osigurati svoj prihod nego s ostalim demografskim varijablama. Možda je iznenađujuće što se modelirani prihod u datotekama - čak i tamo gdje je osiguran - ne podudara s izvještajima ankete o prihodima. Sveukupno, četiri dosjea koji su osigurali ispravak procijenjenog dohotka svrstali su samo 30% do 46% ispitanika u jednu od četiri kategorije.

Datoteke su imale problema s klasifikacijom ispitanika s visokim i niskim primanjima. Četiri u deset ili više koji se sami prijave da imaju prihod od 100 000 USD ili više ispravno su klasificirani u datoteci 4 (41% ispravno klasificirano) i datoteci 5 (45%). A otprilike jedna trećina odraslih s najnižim primanjima (manje od 30 000 USD godišnje) ispravno je klasificirana u svakoj od četiri datoteke koje prijavljuju prihod.

Modeli koji se koriste za predviđanje vjerske pripadnosti znatno se razlikuju u stopama ispravno klasificiranih panelista. Svakako da svi modeli najbolje uspijevaju u preciznom predviđanju protestanata, najveće vjerske skupine u Sjedinjenim Državama. U datotekama 1, 4 i 5 otprilike tri četvrtine (72%, 77% i 75%) samoidentificiranih protestanata ispravno je klasificirano. Datoteka 2 ispravno klasificira otprilike šest u deset (62%) protestanata. (Kao početna vrijednost, nešto manje od polovice Amerikanaca trenutno se identificira kao protestant.)

Unutar manjih vjerskih skupina u SAD-u vjerojatnije je da će neke biti pravilno modelirane od drugih. Na primjer, većina datoteka bolje obavlja posao ispravne klasifikacije hindusa od klasifikacije budista, iako su obje skupine približno jednako rijetke u SAD-u

Datoteke ne pokušavaju kategorizirati osobe koje nisu povezane s nekom religijom, ali njihova rezidualna kategorija 'nerazvrstanih' pruža dokaze da neke osobe nisu vjerski identificirane. Sveukupno, neklasificirana grupa varira od 5% do 21% u svim datotekama. Ali ti nerazvrstani pojedinci nisu nužno vjerski nepovezani - samo 28% onih koji nisu uvršteni u Datoteku 1 su ljudi koji se u panelu identificiraju kao ateisti, agnostičari ili 'ništa posebno', a to raste na 36% među tim Datotekom 2 S obzirom na to da je gotovo jedna četvrtina odraslih vjerski nepovezana, preostala kategorija 'nekategorizirani' ne čini naročito dobar posao u njihovom pronalaženju.

Ukupni postotak ispravno klasificiranih, uključujući one koji nedostaju ili nisu klasificirani za određenu varijablu, daje usporedbu između različitih modeliranih demografskih podataka. Mnoge su datoteke mogle ispravno klasificirati velik udio panelista u svoju religiju o kojoj su se sami izjavili. Ipak, izdvojilo se nekoliko datoteka, posebno datoteka s najnižom stopom podudaranja (datoteka 5), ​​zbog mogućnosti ispravne klasifikacije značajnih udjela u obrazovanju i prihodu ispitanika.

Facebook   twitter