B papildinājums: Sintētiskā populācijas datu kopa

Vairākām šajā pētījumā izmantotajām korekcijas pieejām nepieciešama datu kopa, kas ļoti reprezentē ASV pieaugušos iedzīvotājus. Šī datu kopa būtībā kalpo par atsauci, lai pašreizējo aptauju (piemēram, tiešsaistes izvēles paraugus) padarītu reprezentatīvākus. Izvēloties populācijas datu kopu, pētnieki parasti izmanto lielu, federālu etalonu datu kopu, piemēram, American Community Survey (ACS) vai Current Population Survey (CPS), jo šiem apsekojumiem ir augsts atbilžu līmenis, augsts iedzīvotāju pārklājuma līmenis un stingra, uz varbūtību balstīta izlase dizainparaugiem.

Viens ierobežojums, izmantojot vienu apsekojumu, piemēram, ACS, ir tas, ka vienīgie mainīgie, kurus var izmantot korekcijai, ir tie, kas izmērīti ACS. Tas nozīmē, ka pētnieks varētu pielāgoties tādām pazīmēm kā vecums, ienākumi un izglītība, bet ne politiskajai partijai, reliģiskajai piederībai vai vēlētāju reģistrācijai. Viens no risinājumiem ir ņemt vairākas etalonu datu kopas, kas mēra nedaudz atšķirīgus mainīgos, un apvienot tos, lai izveidotusintētisksiedzīvotāju datu kopa.25

Jautājumi, kas ACS ir kopīgi ar citiem etalonu apsekojumiem, tiek izmantoti, lai statistiski modelētu iespējamās atbildes uz jautājumiem, kas netika uzdoti ACS. Turpmākajās sadaļās sīki aprakstīts, kā sintētiskā populācijas datu kopa tika veidota šim pētījumam.

Sintētiskās populācijas datu kopas uzbūve

Sintētiskās populācijas datu kopa tika izveidota trīs galvenajos posmos:

Pētnieki lejupielādēja publiskas lietošanas datu kopas deviņiem etalonu apsekojumiem un pēc tam pārkodēja kopējos mainīgos (piemēram, vecumu un izglītību), lai tie būtu konsekventi visos apsekojumos. Pēc tam viņi mainīja katra aptaujas svaru, lai summētu nominālo izlases lielumu.

Katra datu kopa pēc tam tika sakārtota atbilstoši katra ieraksta svaram un sadalīta 20 slāņos, pamatojoties uz aptaujas svaru kumulatīvo summu tā, lai katrs slānis pārstāvētu 5% no kopējā iedzīvotāju skaita. Pēc tam no katra slāņa nejauši izvēlējās 1000 gadījumu (intervijas) izlasi ar aizstāšanu un ar varbūtību, kas proporcionāla lietas svaram. Tā rezultātā tika “atcelti” svari un katram apsekojumam tika izveidota 20 000 gadījumu datu kopa, kas reprezentēja visu iedzīvotāju skaitu.

Pēc tam šīs 20 000 gadījumu datu kopas tika apvienotas vienā lielā datu kopā. Izmantojot šo kombinēto datu kopu, pētnieki, izmantojot ķēdes vienādojumu pieeju, izveidoja 25 reizinātas impulsētās datu kopas.



Pēc ieskaitīšanas tika glabāti tikai 20 000 gadījumu, kas cēlušies no ACS, un visi pārējie tika izmesti. Tas tika darīts, lai nodrošinātu, ka galveno demogrāfisko mainīgo lielumu sadalījums precīzi sakrīt ar ACS sadalījumu, savukārt aprēķinātie mainīgie atspoguļo sadalījumu, kas būtu sagaidāms, pamatojoties uz ACS demogrāfisko profilu.

Katra no šīm darbībām ir detalizēti aplūkota tālāk.

Datu kopas izvēle un pārkodēšana

Sintētiskās populācijas datu kopas izveidošanai tika izmantotas deviņas datu kopas: 2015. gada ACS, 2015. gada CPS ikgadējais sociālais un ekonomiskais papildinājums (CPS ASEC), 2013. gada CPS Civic Engagement papildinājums (CPS CivEng), 2015. gada CPS datoru un interneta lietošanas papildinājums (CPS Internet ), 2015. gada CPS brīvprātīgo papildinājums (CPS Volunteer), 2014. gada CPS balsošanas un reģistrācijas papildinājums (CPS Voting), 2014. gada Vispārējais sociālais pētījums (GSS), 2014. gada Pew Research Center reliģisko ainavu pētījums (RLS) un 2014. gada Pew Research Center Politiskās polarizācijas un tipoloģijas apsekojums (Pol.). Katrs apsekojums ietvēra vairākus mainīgos lielumus. Kopumā ietvarā ir 37 mainīgie, un daudzi no šiem mainīgajiem ir iekļauti vairākās aptaujās.

Visās deviņās datu kopās bija iekļauti vairāki kopīgi demogrāfiskie mainīgie, piemēram, dzimums, vecums, rase un spāņu tautība, izglītība, tautas skaitīšanas nodaļa, ģimenes stāvoklis, mājsaimniecības lielums, bērnu skaits, ASV dzimšana, pilsonības statuss un ģimenes ienākumi. Pārējie mainīgie tika mērīti tikai apsekojumu apakškopā. Piemēram, brīvprātīgais darbs ir iekļauts tikai CPS brīvprātīgo papildinājumā, savukārt partijas identifikācija ir tikai GSS, RLS un Pew Research Center polarizācijas pētījumā, no kuriem neviens nav federālās valdības apsekojums.

Mainīgie, kas dažādās aptaujās tika izmērīti vai kodēti atšķirīgi, tika pārkodēti pēc iespējas salīdzināmāki. Tas bieži nozīmēja, ka mainīgie mainījās. Piemēram, CPS top-kodu vecums ir 85 gadi vai vairāk, tāpēc viena un tā pati kodēšanas shēma tika piemērota arī visiem pārējiem apsekojumiem. Citos gadījumos tas ietvēra nekonsekventu vērtību uzskatīšanu par pazudušu. Piemēram, gan ACS, gan dažādās CPS aptaujas respondentiem jautā, cik stundas viņi parasti strādā nedēļā. Tomēr CPS aptaujas ļauj respondentiem arī norādīt, ka stundu skaits, ko viņi parasti strādā nedēļā, ir atšķirīgs, savukārt ACS nav šīs iespējas. Iepriekš minētajā tabulā trūkst datu par nostrādātajām stundām nedēļā CPS apsekojumos. drīzāk tas sastāv no cilvēkiem, kuri norādīja, ka viņu stundas atšķiras. Tomēr šie dati tiek uzskatīti par trūkstošiem, lai nodrošinātu konsekvenci ar to, kā tie tiek pieprasīti ACS. Aprēķinātās vērtības var interpretēt kā tādu, kas paredz, kā šie indivīdi būtu atbildējuši, ja viņiem vietā būtu uzdots ACS jautājums.

Stratificēta paraugu ņemšana

Etalona datu kopas atšķīrās pēc parauga noformējuma un izlases lieluma. Lai novērstu šīs atšķirības, mēs izvēlējāmies tieši 20 000 novērojumus katrā datu kopā, pirms tos pievienojām kopā. Paraugi tika veikti ar nomaiņu un ar varbūtību, kas proporcionāla lietas svaram. Izlases lielums tika izvēlēts, lai sniegtu pietiekami daudz datu izmantotajām korekcijas metodēm, lai gan tās joprojām ir skaitļošanas ziņā viegli vadāmas. Attiecībā uz CPS interneta papildinājumu, GSS un polarizācijas aptauju tas garantēja, ka novērojumi tiks atlasīti vairākas reizes.

Katrai datu kopai mēs izmantojām attiecīgos svarus. Cilvēka līmeņa svars tika izmantots ACS, personas papildsvars - CPS ASEC un pašatbildes papildsvars - CPS Civic Engagement papildinājums. CPS interneta papildinājums tika filtrēts līdz respondentiem, kuriem bija nejaušs respondentu svars, jo īsziņu sūtīšanas un sociālo tīklu mainīgie tika mērīti tikai šiem respondentiem. Bezatbildes svars tika izmantots CPS brīvprātīgo papildinājumam, savukārt bezatbildes svara uzskaite gan šķērsgriezuma, gan paneļa gadījumiem tika izmantota GSS. RLS un polarizācijas aptaujā tika izmantoti pilni paraugu svari. Visbeidzot, CPS balsošanas papildinājumam otrā posma svari tika noregulēti, kā to ieteica Hur un Achen26labot neobjektivitāti, kas rodas, ja vienuma neatbildēšana tiek uzskatīta par nebalsotu. Katrs no šiem svariem tika mainīts, lai summētu katras attiecīgās datu kopas parauga lielumu.

Lai nodrošinātu, ka paraugos bija pareiza gadījumu proporcija gan ar lielu, gan ar mazu svaru, katra datu kopa tika sakārtota atbilstoši svariem un sadalīta 20 slāņos, no kuriem katrs veidoja 5% no svērtā parauga.

Imputācija

Pēc tam deviņas datu kopas tika apvienotas vienā datu kopā, un visas trūkstošās vērtības tika aprēķinātas, izmantojot “ķēdes vienādojumu” pieeju, kas atkārtojas, modelējot katru mainīgo kā visu pārējo funkciju.27Piemēram, ja vecums, dzimums un izglītība bija vienīgie mainīgie, ķēdes vienādojumu pieeja vispirms varētu attiecināt vecumu, pamatojoties uz dzimumu un izglītību, pēc tam dzimumu, pamatojoties uz vecumu un izglītību, pēc tam izglītību, pamatojoties uz vecumu un dzimumu, un atkārtotu šo ciklu daži atkārtojumi, lai panāktu stabilitāti. Visa šī procedūra tiek atkārtota arī 25 reizes neatkarīgi viena no otras, lai izveidotu vairākus sintētiskos rāmjus, kurus var salīdzināt viens ar otru, lai novērtētu imputācijas procesa radītās dispersijas. Katrs kadrs izgāja 10 atkārtojumus.

Ir dažādi modeļi, kurus var izmantot, lai aprēķinātu katru atsevišķo mainīgo atkarībā no visiem citiem, piemēram, regresijas modeļi vai “hot-deck” metodes, kur katra trūkstošā vērtība tiek aizstāta ar novērotu atbildi no “līdzīgas” vienības. Sintētiskās populācijas datu kopai katrs mainīgais tika aprēķināts, izmantojot nejaušas meža “karstā klāja” metodi.28

Pēc imputācijas galīgā sintētiskās populācijas datu kopa tika izveidota, izdzēšot visus gadījumus, izņemot gadījumus, kas sākotnēji bija ACS. Tas nodrošina, ka demogrāfiskais sadalījums cieši sakrīt ar sākotnējo ACS, savukārt aprēķinātie mainīgie atspoguļo kopīgo sadalījumu, kas būtu sagaidāms, pamatojoties uz mainīgajiem, kas katrai datu kopai bija kopīgi.

Piešķiršanas kvalitātes novērtēšana

Mēs veicām vairākus pasākumus, lai nodrošinātu, ka imputācijas procedūra radīja rezultātus, kas precīzi atspoguļoja sākotnējās datu kopas. Pirmkārt, mēs sakrustojām visus ieskaitītos mainīgos (piemēram, vēlētāju reģistrāciju un partijas identifikāciju) ar pilnībā novērotajiem mainīgajiem (piemēram, vecumu, dzimumu un izglītību) un katrai šūnai salīdzinājām šūnas lielumu ACS datu kopā sākotnējā datu kopā, no kura tas tika attiecināts. Kopumā aprēķinātie sadalījumi bija diezgan tuvu oriģināliem. Vidējā absolūtā atšķirība starp aprēķināto un sākotnējo vērtību katrai savstarpējai klasifikācijai bija 2 procentpunkti. Tas nozīmē, ka vidēji aprēķinātās vērtības atbilst ne tikai visu iedzīvotāju sadalījumam, bet arī sadalījumam demogrāfiskajās apakšgrupās.

Lai gan daudzkārtējās imputācijas procedūra izveidoja 25 sintētiskās populācijas datu kopas versijas, korekciju veikšanai šajā pētījumā tika izmantota tikai viena no tām. Viena no šīs pieejas bažām ir iespēja, ka rezultāti var ievērojami atšķirties atkarībā no tā, kura no 25 sintētiskajām populācijām tika izmantota. Kaut arī skaitļošanas ziņā nebija iespējams atkārtot visu analīzi katrai no uzskaitītajām datu kopām, mēs atkārtojām vienu no pielāgošanas procedūrām visās 25 datu kopās, lai novērtētu pakāpi, kādā attiecināšanas procedūra varētu ietekmēt pētījuma rezultātus.

Katrai no 25 uzskaitītajām datu kopām mēs veicām grābšanu gan ar demogrāfiskajiem, gan politiskajiem mainīgajiem lielumiem uz 1000 bootstrap paraugiem n = 3500, izmantojot to pašu procedūru, kas tika izmantota šī ziņojuma pamattekstā. Katrai pamatkategorijai 24 etalona mainīgajos mēs aprēķinājām svērto procentuālo daudzumu katram sāknēšanas paraugam. Tad mēs aprēķinājāmkopējā dispersija(vidējā kvadrātiskā kļūda) katrai aplēsei kopā ar visiem 25 000 sāknēšanas siksnas paraugiem. Visbeidzot, mēs aprēķinājām dispersiju katram no 25 aprēķinu komplektiem atsevišķi un ņēmām vidējo. Tas iriekšējā imputācijas dispersija. Šis process tika atkārtots visiem trim pārdevējiem.

Ja kopējā dispersija ir daudz lielāka par iekšējās imputācijas dispersiju, tad par zemu tiktu novērtēta aplēstā mainība un kļūdu robežas, kurās tiek izmantota tikai viena imputācija (kā tika darīts šajā pētījumā). Šajā gadījumā kopējā dispersija bija tikai 1,002 reizes lielāka nekā vidējā imputācijas dispersija. Tas nozīmē, ka aprēķinātais mainīgums, kas aprakstīts ziņojumā, visiem praktiskajiem mērķiem ir tāds pats kā tad, ja analīze būtu atkārtota visām 25 attiecībām.

Iemesls, kāpēc abi ir tik tuvu, iespējams, ir saistīts ar faktu, ka attiecināšana tikai netieši ietekmē apsekojuma novērtējumu mainīgumu un veido tikai nelielu daļu no apsekojuma mainīguma. Ja mēs salīdzinātu kopējo un iekšējo svārstību mainīgumu pašām aprēķinātajām vērtībām (kā mēs varētu, ja sintētiskā populācijas datu kopa būtu galvenā analīzes uzmanības centrā, nevis vienkārši ievadīšana svēršanā), iespējams, atšķirība būtu lielāka.

Pētījumā izmantotie korekcijas mainīgie

Pētījumā izmantotie galvenie demogrāfiskās korekcijas mainīgie bija 6 kategoriju vecums, dzimums, 5 kategorijas izglītības līmenis, rase un Hispanic etniskā piederība un tautas skaitīšanas sadalījums. Paplašinātie politiskie mainīgie palielina šo 3 kategoriju politisko partiju piederību, 3 kategoriju politisko ideoloģiju, vēlētāju reģistrāciju un to, vai respondents identificē sevi kā evaņģēlisku kristieti.

Šajā tabulā salīdzināts sintētiskās populācijas datu kopas korekcijas mainīgo lielumu sadalījums salīdzinājumā ar vienu no oriģinālajām augstas kvalitātes aptaujas datu kopām, kas izmantota sintētiskās datu kopas izveidošanai. Visi demogrāfiskie mainīgie ACS tika pilnībā novēroti, tāpēc sintētiskais ietvars no sākotnējā avota atšķirsies tikai no izvērsto politisko mainīgo kopas.

Lielākā atšķirība starp avota aptauju un sintētisko ietvaru bija politiskajā ideoloģijā. Paredzētais pašu aprakstīto konservatīvo īpatsvars GSS bija 32% salīdzinājumā ar 35% sintētiskajā ietvarā. Pēdējais novērtējums ir līdzīgs Pew Research Center reliģisko ainavu pētījuma un politiskās polarizācijas un tipoloģijas apsekojuma pasākumiem, kas arī tika izmantoti rāmī. Precīzs šīs neatbilstības iemesls nav skaidrs, taču ir vairāki iespējamie faktori. Atšķirībā no centra pasākumiem, kas tiek savākti, izmantojot tiešās intervijas pa tālruni, GSS jautājums tiek administrēts personīgi, izmantojot izstāžu karti. Turklāt GSS jautājumā tiek izmantota septiņu punktu skala, savukārt centra jautājumos - piecu punktu skala. Visbeidzot, var būt būtiskas atšķirības starp GSS respondentu un ACS respondentu demogrāfisko sastāvu.

Facebook   twitter