數(shù)據(jù)時代的社會研究(計算社會學)_第1頁
數(shù)據(jù)時代的社會研究(計算社會學)_第2頁
數(shù)據(jù)時代的社會研究(計算社會學)_第3頁
數(shù)據(jù)時代的社會研究(計算社會學)_第4頁
數(shù)據(jù)時代的社會研究(計算社會學)_第5頁
已閱讀5頁,還剩237頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章簡介1.1一處墨跡1.3研究設計1.4本書的主題1.5本書梗概第2章觀察行為2.1簡介2.2大數(shù)據(jù)2.3大數(shù)據(jù)的10個共同特征2.4研究策略2.5結論第3章提問3.1簡介3.2提問與觀察3.4向誰提問3.5提問的新方法3.7結論第4章開展實驗4.1簡介4.6建議4.7結論第5章進行大規(guī)模協(xié)作5.1簡介5.2人本計算5.3公開征集5.6結論第6章道德倫理6.1簡介6.2三個事例6.4四項原則6.6困難面6.7實用技巧6.8結論第7章未來7.2未來主題7.3回到開始第1章簡介1.1一處墨跡成對財富與貧困的研究,這個數(shù)據(jù)庫中有150萬名客戶。布盧門和同事還擁有這150萬人的完整通話記錄。他們將這兩部分數(shù)據(jù)結這個模型評估數(shù)據(jù)庫中150萬名客戶的財富狀況,還利用通話記錄150萬名客戶的居住位置。最后他們將所有這些信息——估算的財富狀況以個街區(qū)(該國的最小行政單位)中每一個街區(qū)的財富狀況。調查的方法快了差不多10倍,成本為后者的1/50左右。這些明顯更快、更節(jié)省成本的預測東西現(xiàn)在變成智能的了。也許你曾經用的是帶膠數(shù)據(jù)”。在數(shù)字數(shù)據(jù)爆炸式增長的同時,有條件使用計算機的人的數(shù)量也在不斷增加(圖0普及程度在不斷增加。從20世紀80年代開始,每10年就會有一種新型的計算機誕生:個人計算機、筆記本電腦、智能手機以及現(xiàn)在“物聯(lián)網”中的嵌入式處理們的交流途徑也曾有過其他一些重大的進步,例如電報(Gleick2011),而且自20世紀60懷疑論者所忽略的是,在某種程度上,多個相同的東西合起來會變成一個不同的東西所有東西都應該被摒棄。正如攝影的原理會影響拍電影的原理一樣,那展起來的社會研究理論也會對未來100年的社會研究產生影響。1.3研究設計究設計就是“結締組織”,它能將問題和答案聯(lián)系起來。而建立正確的聯(lián)系是設計出令人信服的研究的關鍵。本書將重點介紹4種方法1.4本書的主題本書的兩個主題分別是:(1)將現(xiàn)成品和定制物結合起來;(2)道德倫理。意到。第一個主題可以通過對比馬塞爾·杜尚(MarcelDuchamp)和米開朗琪羅(Michelangelo)這兩位偉人來闡述。杜尚主要是因為他的現(xiàn)成品藝術作品(例如《泉》)品,而是一個非現(xiàn)成品藝術作品(圖1.2)。也是最重要的,我希望這本書能告訴你將這兩種數(shù)據(jù)結合起來使用的價值。例如,喬舒成數(shù)據(jù))用于不同的用途,同時又創(chuàng)建了自己的調查數(shù)據(jù)(一個非現(xiàn)成數(shù)據(jù))。在整本書中,現(xiàn)成品藝術作品非現(xiàn)成品藝術作品(J?rgBittnerUnna)攝于2008年(來源:Galleriadell'Accademia,Florence/WikimediaCommons)。研究人員(經常與公司和政府合作)對實驗參與者的生活擁有越來越強的控制力。我所說的能幫助你們發(fā)現(xiàn)新機會(需要冒險的機會)。最后,同時也是最重要的,我希望這本書能幫1.5本書梗概本書主要圍繞4種廣泛的研究方法展開:觀這4種方法在50年前就都被以某些形式采用了,我相信,在從現(xiàn)在起的50年里,它們仍將在第2章(觀察行為)中,我將闡述研究人員通過觀察人們的行為能了解到什么以及如何通在第3章(提問)中,我首先將介紹,當研究人員不局限于以前的大數(shù)據(jù)時能夠了解到什么。在第4章(開展實驗)中,我首先將介紹,當研究人員不局限于觀察行為和提問時能夠了解在第5章(進行大規(guī)模協(xié)作)中,我將介紹研究人員怎樣才能進行諸如眾包和公眾科學這樣在第6章(道德倫理)中,我將論述的觀點是:研究人員對參與者的控制力正在迅速增強,基于原則的方法。也就是說,研究人員應該根據(jù)現(xiàn)有的規(guī)則條例(如果有的話)以及更普遍最后,在第7章(未來)中,我將回顧貫穿全書的主題,然后通過它們預測未來重要的主題。第2章觀察行為2.1簡介在獲取數(shù)據(jù)的過程中不涉及與人交談(例如第3章的主題——提問)或改變人們所處環(huán)境(例如第4章的主題——實驗)的數(shù)據(jù)。因此,除了商家和政府所擁有的數(shù)字記錄外,觀察本章包含三個部分。首先,在2.2節(jié)中,我將更詳細地介紹大數(shù)據(jù)研究通常采用的數(shù)據(jù)的根本區(qū)別。緊接著,在2.3節(jié)中,我將介紹大數(shù)的新資源。最后,在2.4節(jié)中,我將介紹三個主要的研究策略:計數(shù)、預測和近似實驗。你2.2大數(shù)據(jù)含了3個“V”:Volume(大量)、Variety(多樣)、Velocity(高速)。粗略地說,大數(shù)語,例如Veracity(真實性)和Value(價值),而批評者則增加了諸如Vague(模糊)和Vacuous(空洞)這樣的詞語。但就社會研究這一目的來說,我認為相比于上述幾個“V”,么時間)以及Why(為什么)。事實上,我認為大數(shù)據(jù)資源帶來的許多挑戰(zhàn)和機會都源于最而將其用于研究?;叵胍幌碌?章中的藝術類比,就像杜尚通過對挑戰(zhàn)。就以社交媒體(例如推特)以及傳統(tǒng)的民意調查(例如綜合社會調查)為例。推特的主要目的是通過為用戶提供某種服務來獲取利潤,而綜合社會調查則主要是為社會研究(尤其是民意調查)搜集通用數(shù)據(jù)。盡管這兩種數(shù)據(jù)都可被用來研究民民在一個小時內的情緒狀態(tài)(例如GolderandMacy2011),那么推特將是最好的選擇。但如果你想了解美國民眾態(tài)度兩級分化的長期變化(例如DiMaggio,Evans,andBryson1996),那么綜合社會調查將是最好的選擇??偟膩碚f,這一章將試圖闡明大數(shù)據(jù)資源更適記錄,包括稅收記錄、學校記錄以及重要的統(tǒng)計記錄(例如出生和死亡登記)等。政府一直 在更具體地討論大數(shù)據(jù)資源的屬性(2.3節(jié))以及如何在研究中使用這些資源(2.4節(jié))之前,也是本章剩余部分所要探討的。在2.3節(jié)中,我將介紹大數(shù)2.3大數(shù)據(jù)的10個共同特征有幫助的。因此,我將介紹大數(shù)據(jù)資源的10個一般性特征,而不是采用一種平臺化的方法·通常情況下不利于研究的:不完整性、難以獲取、不具代表性、漂移、算法干擾、臟數(shù)2.3.1海量性大數(shù)據(jù)資源最被廣為討論的特征就是其數(shù)據(jù)量是“海量的”。時是吹噓)其分析了多少數(shù)據(jù)作為開篇。例如在《科學》(Science)雜志上發(fā)表的一篇研究谷歌圖書(GoogleBooks)語我們的語料庫包含了超過5000億個單詞,有英語(3610億)、法語(450億)、西班牙語(450億)、德語(370億)、漢語(130億)、俄語(350億)以及希伯來語(20億),最幾十萬。到1800年,語料庫每年的單詞量增加到9800萬;到1900年,達到18億;2000年則達到110億。語料庫中的內容一個人是無法讀完的。就算只閱讀2000年的英語詞條,以每分鐘200個單詞的合理速度計算,即便一個人不吃不睡也將需要和月球之間往返10次。據(jù)。(事實上,本書末尾的一些“活動”就利用了這一數(shù)據(jù)。)但是,每當看到類似的數(shù)據(jù)時,你都應該提出這樣的問題:這些數(shù)據(jù)真的有用嗎?如果數(shù)據(jù)的長度只夠從地球到月球往返一次,那么人們還能做同樣的實驗嗎?如果數(shù)據(jù)的長度只能到達珠穆朗瑪峰的頂部或者埃會把大數(shù)據(jù)資源的規(guī)模大小當作一種目的,旨在告訴別人“看我能處流動的研究(2014)。在過去,許多研究人員通過對比父母和孩子的人生成就來研究社會流度也是不同的(HoutandDiPrete2006)。最近,切蒂和同事利用4000萬人的繳稅記錄對個小孩來自收入水平最低的家庭(共分為5個等級),那么他成為全國收入水平最高的1/5人口的概率約為13%,而在北卡羅來納州的夏洛特,這一概率僅為4%。你可能會有這樣的疑問,為什么有些地方的代際流動要高于其他地方呢?切蒂和同事也有同樣的疑問,而且他們使用的是4萬人而不是4000萬人的繳稅記錄,就無法對區(qū)域異質性的水平進行估算,也完全這樣細微的差異可能就不是特別重要了,即便它們具有重要的統(tǒng)計學意義(Prenticeand2.3.2持續(xù)性典型研究中的數(shù)據(jù)集布達克和瓦茨的事后縱向數(shù)據(jù)(2015)前(2012年1月1間(2013年5月28后(2013年8月1日—2013年5月28日日—2013年8月1日)日—2014年1月1日)懷疑論者可能會指出,即便沒有不間斷的數(shù)據(jù)采集資源,上述某些評估(例如長期內的態(tài)度變化)也是可以進行的。這一觀點是正確的,盡管搜集30000人的數(shù)據(jù)成本相當高昂,但只要有足夠的預算,這一問題便能解決。然而我想不出有什么辦法能讓研究人員穿梭到過去,直接觀察參與者在過去的行為。最接近的辦法可能是搜集有關參與者行為的回顧性報告,但這些報告的粒度是有限的,準確度也不高。表2.1列出了一些利用持續(xù)運行的大數(shù)據(jù)系統(tǒng)進除了研究突發(fā)事件以外,持續(xù)運行的大數(shù)據(jù)系統(tǒng)還能讓研究人員進行實時評估。對政府或各行業(yè)的決策者來說,當他們想要依據(jù)態(tài)勢感知確定應對措施時,這一點就會變得很重要。例如,利用社交媒體數(shù)據(jù)指導對自然災害的應急響應(Castillo2016),利用各種不同的大數(shù)據(jù)資源對經濟活動進行實時評估(ChoiandVarian2012)。綜上所述,持續(xù)運行的大數(shù)據(jù)系統(tǒng)能讓研究人員對突發(fā)事件進行研究,也能為決策者提供實時信息。但如果要追蹤很長一段時間內的變化,我認為這些系統(tǒng)就不適用了。因為很多大數(shù)據(jù)系統(tǒng)是不斷變化的,我把這一過程稱為漂移,并將在后面的2.3.7小節(jié)中具體介紹。土耳其蓋齊公園示威活動紐約市警察遭槍擊事件攔截盤查報告Magdy,Darwish,andWe傳呼機信息Back,Küfner,andEglo(2010),Pury(2011),Back,2.3.3不反應性大數(shù)據(jù)資源中的測量對象不太可能改變行為。們會比在現(xiàn)場研究中表現(xiàn)得更慷慨,因為在實驗室中,他們非常清楚自己正在被觀察 -達維多維茨(Stephens-Davidowitz)就利用這一點衡量了美國不同地區(qū)的種族敵意。搜索數(shù)據(jù)的不反應性和海量性這兩個屬性使很多通過其他方法(例如調查)難以進行的測量成為問的研究中,一位受訪者說:“我并不是沒有問題,只是沒有把它們發(fā)在臉譜網上而已。”不知情的情況下追蹤其行為的做法,也會帶來一些道德倫理2.3.4不完整性力呢?霍華德·加德納(HowardGardner)曾提出,智力實際上有8種不同的形式。那有沒有能夠精確測量這些智力的程序呢?盡管心理學家在這方面做了大研究結果構念效度的快速且有效的方法。例如,假設有兩個旨在證明“越聰明的人掙錢越多”無論第二個研究是基于100萬條推文,1000萬條推文,還是1萬億條推文,我們對其結果都應持懷疑態(tài)度。對不熟悉構念效度的研究人員來說,可以參閱表2.2表2.2使用數(shù)字痕跡測量理論構念的實例一所大學的郵件日志(僅元數(shù)據(jù))社會關系一個公司的郵件日志(元數(shù)據(jù)及全文)一個組織中的文化契合度決方案是實際搜集自己所需的數(shù)據(jù),在第3章談到多個數(shù)據(jù)資源。這一過程被稱為記錄鏈接。我最喜歡的有關這一過程的比喻說法出自艾伯但其實它所記錄的要遠超過這些,因此,如果將這些不同的書頁(即我們的數(shù)字痕跡)整合來說是非常好的資源。但正如我在第6章中將描述的那樣,它也可以被用于各種不道德的用2.3.5難以獲取2014年5月,美國國家安全局在猶他州的一個小鎮(zhèn)開設了一個名字很長的數(shù)據(jù)中心——情報據(jù)資源是研究人員難以獲取的。更普遍地講,許多有用的大數(shù)據(jù)資源都被政府(例如稅收數(shù)據(jù)和教育數(shù)據(jù))和公司(例如搜索引擎記錄和通話記錄元數(shù)據(jù))控制和限制。因此,盡管這公眾的反應會如何?類似這樣的數(shù)據(jù)外泄,如果嚴重的話,甚至可能威脅到公司的生存。因的故事。2006年,時任AOL(美國在線)研究主管的喬杜里,有意向研究人員公布他認為是在本章后面部分介紹,而我現(xiàn)在提及它是因為它具備我在成功的伙伴作最終以失敗告終,其原因就是研究人員或其合作對象(公司或政府)不具備上述某一要素。2.3.6不具代表性一些社會科學家習慣于處理從明確的總體(例如某個國家的所有成年人)中抽取的隨機樣本讓我們通過一個經典的科學研究,即約翰·斯諾(JohnSnow)對1853—1854年倫敦霍亂暴比了由兩家不同的公司——蘭姆博斯(Lambeth)以及薩瑟克-沃克斯霍爾(Southwark&Vauxhall),供水的家庭的霍亂發(fā)病情開始的前幾年,從倫敦的主要污水排放處向上游移動了它的進水亡率時發(fā)現(xiàn),飲用由薩瑟克-沃克斯霍爾提供的被排泄物污染的癌癥方面發(fā)揮了重要的作用。在這項研究中,理查德·多爾(RichardDoll)和布拉德福德·希爾(A.BradfordHill)對約25000名男性醫(yī)生進行了多年的追蹤,并根據(jù)研究開始時他們吸煙的數(shù)量比較其晚年的健康狀況。多爾和希爾發(fā)現(xiàn)了一個很強的“暴露-反應關系”:抽煙越多的人,死于肺癌的可能性就越大。當然,英國男性工人、德國女性工人或其他許多群體所構成的樣本中,適用程度如何?這種問題很關在一個群體中所發(fā)現(xiàn)的規(guī)律到另一個群體的可移植性的問題則基本上不屬于統(tǒng)計問題(PearlandBareinboim2014律具有多大的可移植性呢?這最終還是一個取決于理論和證據(jù)的科學問題。這些規(guī)律不應被本科生能對人類行為有多少了解的爭論(Sears1986,Henrich,Heine,andNorenzayan黨的推文比例與該政黨在議會選舉中的得票比例是相匹配的(圖2.2)。換句話說,基本免左翼黨,基社盟綜上所述,許多大數(shù)據(jù)資源都不是從明確的總體中抽取的具有代表性的樣本。對那些需要將研究結果從樣本泛化到抽取樣本的目標總體上的研究來說,這無疑是一個嚴重的問題。但對需要進行樣本內比較的研究來說,不具代表性的數(shù)據(jù)又可以是非常有效的,只要研究人員清楚他們的樣本特征,并能為其研究結果的可移植性提供相應的理論或實驗證據(jù)即可。事實上,我希望大數(shù)據(jù)資源能讓研究人員在許多不具代表性的群體中進行更多的樣本內比較,我的猜測是,與基于一個隨機樣本而得出的單一結論相比,基于多個不同群體所得出的多個結論更2.3.7漂移用戶漂移、行為漂移以及系統(tǒng)漂移使利用大數(shù)據(jù)資源研究長期趨勢變得困難。許多大數(shù)據(jù)資源的一大優(yōu)點是,它們搜集的是一段時間內的數(shù)據(jù)。社會科學家把這種一段時間內的數(shù)據(jù)稱為縱向數(shù)據(jù)。這種數(shù)據(jù)對研究變化當然是非常重要的。但是,要想準確地測量變化,就必須保證測量系統(tǒng)的穩(wěn)定性。引用社會學家奧蒂斯·達德利·鄧肯(OtisDudleyDuncan)的話就是:“你如果想測量變化,就不要改變測量過程?!?Fischer2011)移”。具體而言,這些系統(tǒng)主要從三個方面發(fā)生變化:用戶漂移(使用系統(tǒng)的人的變化)、行為漂移(人們使用系統(tǒng)的方式的變化)以及系統(tǒng)漂移(系統(tǒng)本身的變化)。這三種漂移意2.3.8算法干擾盡管許多大數(shù)據(jù)資源是不反應的,因為用戶不知道他們的數(shù)據(jù)正在被記錄(2.3.3小節(jié)),一個相對簡單的算法干擾的例子是,在臉譜網上,擁有約20個好友的用戶異常多,正如約翰·烏甘德(JohanUgander)和同事在2行程序中。臉譜網有一項功能是“可能認識的人”,旨在向用戶推薦新的朋友,而決定向你流感趨勢(GoogleFluTrends)逐漸失靈的原因之一(2.4.2小節(jié)),但這一說法很難得到2.3.9臟數(shù)據(jù)我在本章前面章節(jié)中簡要提及的米蒂亞·巴克(MitjaBack)和同事關于人們對2001年9月這使他們能研究更小時間單位內的情緒反應。他們根據(jù)與(1)悲傷(例如“哭泣”和“悲痛”),(2)焦慮(例如“擔憂”和“恐懼”)以及(3)憤怒(例如“憎恨”和“批評”)的2001年9月11日的情緒時間表。他們發(fā)現(xiàn),與悲傷和焦慮相關詞匯的出現(xiàn)比例全天都在急),【日期和時間】。”憤怒情緒就沒有原來那么明顯的上漲趨勢了(圖2.3)。換句話說,米蒂亞·巴克、阿爾布每條信息中與憤怒相關詞匯的數(shù)量每條信息中與憤怒相關詞匯的數(shù)量★不包括一個自動傳呼機的重啟信息H06:0008:0010:0012:0014:0016:0018:0020:0022:0000:00(時間)Pury2011;Back,Kofner,andEgloff2011)上述自動傳呼機所產生的重啟信息并不是有意創(chuàng)建的臟數(shù)據(jù),就這樣的數(shù)據(jù)而言,比較細心的研究人員還是可以發(fā)現(xiàn)的。但還有一些在線系統(tǒng)吸引的是有意的垃圾數(shù)據(jù)發(fā)送者。這些人會積極制造臟數(shù)據(jù),而且努力保證其臟數(shù)據(jù)的隱蔽性。(通常是在利益的驅使下。)例如,為了讓某些政治目的看起來比實際更受歡迎,推特上的政治活動至少會給用戶推送一些適度的宣傳廣告(Ratkiewiczetal.2011)。不幸的是,要想移除這些有意制造的臟數(shù)據(jù)卻可2.3.10敏感性要研究,但如果將其公之于眾,就可能導致情感傷害(例如尷尬)或經濟傷害(例如失業(yè))。不幸的是,事實證明,想確定哪些信息屬于敏感信息是非常棘手的(Ohm2015),網飛獎(NetflixPrize)就是一個例子。2006年,網飛(Netflix)公開了近50萬會員的一億條了姓名等所有明顯的個人信息。但僅在數(shù)據(jù)公開兩周后,阿爾溫德·納拉亞南(Arvind息的技巧,這個技巧我將在第6章進行介紹。取向的女同性戀者加入了針對網飛的集體訴訟。以下是這起訴訟中對這一問題的表述個人興趣和/或所面臨的各種高度個人化的困擾(包括性、精神疾病、酗酒康復),以及亂倫、被認為是侵犯隱私一樣,在未經當事人同意的情況下搜集敏感數(shù)據(jù)(是何其之難)也可能引發(fā)隱私問題。我將在第6章再回到這一話題。1.構念(Constructs)是對某一學科研究領域內的模糊(抽象)要素進行概括或概念化的途徑,是旨在探究研究對2.4研究策略考慮到大數(shù)據(jù)資源的上述10個特征,以及即便是完美的觀測數(shù)據(jù)也存在的固有局限性,我認為以下三個主要策略能讓我們從大數(shù)據(jù)資源中獲取有用的信息:計數(shù)、預測和近似實驗。這些策略可以被稱作“研究策略”或“研究秘訣”,我將對每種策略進行描述,并通過舉例來闡明這些策略。這些策略并不相互矛盾,也并非詳盡全面的。2.4.1計數(shù)如果你能將好的問題和好的數(shù)據(jù)結合起來,那么簡單的計數(shù)也會變得有趣。雖然表述社會研究的語言聽起來很復雜,但許多社會研究實際上就是計數(shù)而已。在大數(shù)據(jù)時代,研究人員所能統(tǒng)計的數(shù)字要比以往任何時候都多,但這并不意味著他們就可以隨意計數(shù)。相反,研究人員應該考慮這樣的問題:哪些事情是值得計數(shù)的?這似乎是一個完全主觀的問題,但其實也有一些規(guī)律?!拔乙獙e人從未統(tǒng)計過其數(shù)量的東西進行計數(shù)”,這經常會成為學生們進行計數(shù)研究的出發(fā)點。例如,一個學生可能會說,許多人研究過移民,也有許多人研究過雙胞胎,但沒有人研究過雙胞胎移民。我將這種策略稱作由缺位引起的動機。但根據(jù)我的經驗,這一動機通常相比于將別人未計數(shù)過的事情作為研究對象,我認為更好的策略是尋找重要的或有趣的問題(或兩者兼?zhèn)涞睦硐肭闆r)進行研究。重要和有趣這兩個術語都有點難以界定,但判斷研究重要性的一個方法是看它是否對決策者的重要決定有顯著影響或是否能為其提供可觀的信息。例如,統(tǒng)計失業(yè)率就是重要的,因為它是推動政策制定的一項重要經濟指標。一般來說,我認為研究人員對什么是重要的都有著很好的認識。因此,在本節(jié)剩余部分,我將舉兩個我認為其計數(shù)符合有趣這一標準的事例。在每個例子中,研究人員都不是在隨意地進行計數(shù);相反,他們是在特定的背景下進行計數(shù)的,并且提出了關于“社會系統(tǒng)如何運作”這種更加普遍的問題的重要見解。換句話說,這些特定的計數(shù)研究之所以有趣,在很大程度上是因為這些更加普遍的問題,而不是因為數(shù)據(jù)本身。其中一個能體現(xiàn)計數(shù)作用的事例是亨利·法伯(HenryFarber)在2015年對紐約市出租車司機行為的研究。盡管出租車司機這一群體本身聽起來可能不是很有趣,但他們是測試勞動經濟學中的兩個對立理論的合適群體。出租車司機的工作環(huán)境中有兩個重要的特征有助于實現(xiàn)法伯的研究目的,它們分別是:(1)出租車司機的小時收入每天都會波動,這部分程度上是由于天氣等因素;(2)他們每天工作的小時數(shù)也會因其個人決定而波動。這些特征引出了一個有趣的問題,即小時收入與工作小時數(shù)之間的關系問題。根據(jù)經濟學中的新古典主義模型,出租車司機的小時收入高時,其一天的工作小時數(shù)也會更高。而根據(jù)行為經濟學中的模型,則得到恰恰相反的結論:如果司機設定一個特定的收入目標,比如每天100美元,然后達到目標就結束工作,那么當他們的小時收入較高時,其一天的工作小時數(shù)會相應地較低。也就是說,如果你是這樣的司機,那么當收入好的時候(每小時25美元),你可能一天就工作4個小時,而當收入不好的時候(每小時20美元),你則一天工作5個小時。那么,出租車司機究竟是在小時收入較高時工作更長時間(符合新古典主義模型),還是在小時收入較低時工作更長時間(符合行為經濟學模型)?為了回答這一問題,法伯拿到了從2009年到2013年紐約市出租車每趟行程的數(shù)據(jù),這些數(shù)及小費(僅限用信用卡支付的小費)。根據(jù)這些電子計量器搜集來的數(shù)據(jù),法伯發(fā)現(xiàn),大多量器搜集的數(shù)據(jù)基本上就是法伯想要的數(shù)據(jù)。(有一個區(qū)別就是,法伯想要的是包括車費和2.4.2預測和臨近預測此,預測并不是目前社會研究的重要組成部分(盡管它是人口學、經濟學、流行病學和政治學的一個小卻重要的組成部分)。但在這里,我想集中介紹的是一種特殊的預測——臨近預測(nowcasting),這個術語來源于“現(xiàn)在”和“預測”的結合。與預測未來不同的是,臨近預測試圖利用預測出的觀點了解世界的現(xiàn)狀:它試圖“預測現(xiàn)在”(ChoiandVarian病毒。例如,1918年的流感暴發(fā)估計造成了5000萬~1億人死亡(MorensandFauci2007)。美國疾病控制與預防中心的職員)想到了一個重要而聰明的方法現(xiàn)這個模型的確可以進行準確的、有用的臨近預測(圖2.4)。這些結果被發(fā)表在了《自然》周周周54543一谷歌流感趨勢的數(shù)據(jù)一美國疾病控制與預防中心的數(shù)據(jù)2040424446485052周數(shù)據(jù)進行線性外插法的簡單模型相比,谷歌流感趨勢的表現(xiàn)并沒有好很多(Goeletal.2010)。而且在某些時間段,谷歌流感趨勢實際上還不如上述簡單模型(Lazeretal.2014)。換句話說,擁有大量數(shù)據(jù)、機器學習和強大計算能力的谷歌流感趨勢,其表現(xiàn)并沒的表現(xiàn)開始逐漸衰退。而找出這一衰退的原因很困難,因為谷歌的搜索算法是專有的,在的搜索詞(現(xiàn)在不會了)。作為一個搜索引擎的運營商,增加這一功能是完全合理的,但這2.4.3近似實驗有的差別所致呢?這是一個難題,而且它不驗中,研究人員隨機研究某些人,而不研究其他人。我將用整個第4章來介紹實驗,所以在(或幾乎隨機)研究某些人而不研究另一些人的事情。第二個策略是對非實驗數(shù)據(jù)進行統(tǒng)計而不研究另一些人。這樣的情況被稱作自然實驗。最能說明自然實驗的例子是1990年喬舒張紙條上,然后每次抽一張來決定征召這些適齡男性的順序(適齡女性不在征兵范圍內)。根據(jù)抽簽結果,9月14日出生的男性為第一批被征召參戰(zhàn)的,4月24日出生的則為第二批,以此類推。最終,在這次抽簽征兵中,有195個不同的日期被選中了,而其余171個日期未Administration)的系統(tǒng),該系統(tǒng)搜集了幾乎所有美國人的就業(yè)收入信息。通隨機(或似乎是隨機的)變化+不間斷運行系統(tǒng)的數(shù)據(jù)=自然實驗圖2.51969年12月1日,國會議員亞歷山大·皮爾尼(AlexanderPirnie)正在進行義務兵役征兵的第一次抽簽。喬實質性的研究課題自然實驗的來源不間斷運行的數(shù)據(jù)系統(tǒng)同儕效應對生產力水平的影響工作時間的安排結賬數(shù)據(jù)友誼的建立颶風臉譜網情緒的蔓延下雨臉譜網點對點貨幣轉移地震移動支付數(shù)據(jù)個人消費行為美國政府關門個人財務數(shù)據(jù)推薦系統(tǒng)的經濟影響多種來源亞馬遜瀏覽數(shù)據(jù)壓力對未出生嬰兒的影響2006年以色列對黎巴嫩真主黨之戰(zhàn)出生記錄實質性的研究課題自然實驗的來源不間斷運行的數(shù)據(jù)系統(tǒng)維基百科上的閱讀行為斯諾登的多次揭秘維基百科的日志同儕效應對運動鍛煉的影響天氣是每個被征召的人都會入伍(有各種各樣的豁免),而且也不是所有服兵役的人都是應征入伍的(人們也可以志愿入伍)。因為被征召的對象是隨機的,所以研究人員可以評估被征召其對“依從者”(被征召時就會去服兵役,不被征召就不去的男性)這一特定群體的影響天真的方法,而考慮開展一個實地實驗,即在特定的條件的方法的主要訣竅是從易貝上已經發(fā)生的事中找到與實地實驗相似的事情。圖31條拍賣信息彼此略有不同,例如不同的起拍價、截止日期或運費。換句話說“budgetgolfer”正在為研究人員做實驗一樣。合并在成千上萬的匹配集內進行比較的結果,埃納維和同事用每個均成交價)對其起拍價和成交價進行了重新表述。例如,如果上述球桿的參考價是100美元(根據(jù)其售價),那么10美元的起拍價就會被表述為0.1,120美元的成交價就被表述為 SarthrmvlshraromsAotWiswa國日目jtatn5onnTAYLORMADEBU附研09DRMER2009.00UFau8NEW105FH1TAYLORMADEBUME09DRMER2009.000FauONEW1051IAYLQFMADEBMER0的9D8MR200900EQueN.IAYLOFMADEBURMNER09DRMEIAYLOFMADEBURNER09DRMR200900Choosemore-TAYLOFMADEBU職09DRMER20090TAYLORMADEBLRNER09DRMER/290471001772=Go_Obshgsh=tem43系是非線性的(圖2.7)。尤其是在0.05~0.85之間的起拍價,其對成交價的影響是很小的,但他們最初的分析完全沒發(fā)現(xiàn)這一點。此外,與評估所有產品起拍價的平均影響不同,埃納維和同事分別評估了23種不同類別商品(例如寵物用品、電子產品和運動類紀念品)起拍價—10美元--100~1000美元起拍價對成交價的影響起拍價對成交價的影響圖2.8研究人員分別針對每類商品進行的評估。實心圓點是將所有類2015)。這些評估表明,對于更具特色的商品,例如運動類紀念品,其起拍價對成交可能性的影響(x軸)較小,對成交價的影響(y軸)則較大。改編自Einavetal.(2015),圖8。不同類別的商品匯集在一起而進行的簡單因果推斷,圖2.7和圖2.8讓我們對易貝有了更豐這4個特征作為精確匹配的條件。如果商品在上述4個特征以外存在差異,就會導致對比的不公平性。例如,如果“budgetgolfer”在冬季(高爾夫球桿的銷售淡季)降低了球桿的起種不同的匹配。例如,埃納維和同事分別以不同的時間為條件對拍賣信息進行了匹配(即分別創(chuàng)建了包含一年內、一個月內以及同期內出售的商品的匹配集),并對所有匹配集進行了例如當(1)影響的異質性不容忽視;(2)已經測量了匹配所需的重要變量時,在大量數(shù)據(jù)中進行匹配可能比開展少量的實地實驗要有效。表2.4是一些有關如何將匹配 (例如匹配)等方法。盡管這些方法在某些情況下會出現(xiàn)嚴重的錯誤,但只要謹慎運用,還是有助于解決一些我將在第4章介紹的實驗方法無法解決的問題的。此外,不間斷運行的大表2.4利用匹配從大數(shù)據(jù)資源中找出合適的比較對象的研究實例的影響攔截盤查記錄投票記錄和捐贈記錄社會感染溝通和產品使用數(shù)據(jù)2.5結論今天的大數(shù)據(jù)資源往往具有以下10個特征,未來的大數(shù)據(jù)資源也可能通常是(但并不總是)有助于研究的:海量性、持續(xù)性以及不反應性。而其余7個則通常是(但并不總是)不利于研究的:不完整性、難以獲取、不具代表性、漂移、算法干擾、臟數(shù)如何通過調整數(shù)據(jù)采集的方法,通過提問(第3章)、開展實驗(第4章),甚至直接選擇一部分人參與研究過程(第5章)這些與人們更直接的互動了解更多不同的東西。今天我們所認可的調查研究起源于20世紀30年代。在調查研究的第一個時代,研究人員會隨機選取地理區(qū)域(如城市街區(qū)),然后前往這些地區(qū),與隨機選取的住戶進行面對面的交如,由于各種技術和社會原因,多年來無回答率(即樣本中未參與調查的受訪者的比例)一查以及使用大數(shù)據(jù)資源進行調查,將成為調查研究第三個時代的特征(表3.1)。表3.1調查研究的三個時代區(qū)域概率抽樣面對面調查單獨調查隨機撥號概率抽樣電話調查單獨調查非概率抽樣計算機管理的調查使用大數(shù)據(jù)資源進行調查查的價值(3.2節(jié))。鑒于這一點,我將總結在調查研究的前兩個時代發(fā)展起來的調查誤差總框架(3.3節(jié))。該框架能讓我們了解有關代表性的新方法,尤其是非概率樣本(3.4節(jié))以及測量的新方法,特別是向受訪者提問的新方法(3.5節(jié))。最后,我將描述兩個將調查數(shù)據(jù)和大數(shù)據(jù)資源結合起來的研究模板(3.6節(jié))。3.2提問與觀察鑒于我們越來越多的行為被大數(shù)據(jù)資源(例如政府和企業(yè)搜集的行政數(shù)據(jù))所獲取數(shù)據(jù)的一種方法,主要原因有兩個。首先,正如我在第莫伊拉·伯克(MoiraBurke)和羅伯特·克勞特(RobertKraut)在2014年的研究可以說要把人們通過臉譜網溝通所產生的影響與通過其他渠道(例如郵件、電話和面對面)溝通所3.3調查誤差總框架估計值(例如對一所學校學生平均身高的估計值)與目標總體的實際值(例如該學校學生平2010)。雖然這個框架的創(chuàng)建工作始于20世紀40年代,但我認為它為我們提供了兩個關于方差是隨機誤差。換句話說,假設我們將同一個抽樣調查重復做了1000遍,然后共得出了1000個估計值,那么偏差就是這1000個估計值的平均值與真實值之間的差異,而方差就是能接近真實的評估(即誤差盡可能小),那么偏差和方差均低的過程可能要比無偏差但方差很高的過程更好(圖3.1)。換句話說,調查誤差總框架表明,在評估調查研究過程時,偏兩個來源分別是:與談話對象是誰相關的問題(代表性)、與你從這些對話中了解到什么相關的問題(測量)。例如,你可能想了解在法國生活的成年人對網絡隱私的態(tài)度,這就需要你進行兩種不同的推斷。第一,你必須根據(jù)是一個測量的問題)。第二,你必須根據(jù)推斷出的受訪者的態(tài)度來推斷目標總體的態(tài)度(這是一個代表性的問題)。如果調查問題沒設計好,那么即便抽樣過程無可挑剔,你也無法得高方差我們可以通過《文學文摘》一項旨在預測1936年美國總統(tǒng)選舉結果的民意調查(簡稱“民調”),了解從受訪者到更大的目標總體的推斷過程中,可能出現(xiàn)的誤差。盡管這項民調距測了1920年、1924年、1928年以及1932年的選舉獲勝者。1936年正值大蕭條時期,《文里,400名工作人員熟練地將印刷好的選票(足夠鋪滿40條街區(qū))放入寫好地址的信封里。實結果之差距將在1%以內。(1936年8月22日)的1000萬張選票,竟然返回了240萬張,這一反饋率大概是現(xiàn)代民意調查的1000倍。根據(jù)這240萬受訪者的答案,結論已經很明確了:阿爾夫·蘭登(AlfLandon)將打敗現(xiàn)任總統(tǒng)有這么多數(shù)據(jù),《文學文摘》怎么會出錯呢?要想清楚地認識抽樣,就需要我們思考4組不同的人群(圖3.2)。第一組是目標總體 覆蓋面誤差抽樣誤差無回答誤差目標總體抽樣框總體抽樣總體受訪者圖3.2代表性誤差。3.3.2測量這是一項實際調查實驗中的兩個問題(SchumanandPresser1996),盡管它們看起來是在測量同一件事情,卻產生了不同的結果。如果采用第一種提問方式,約60%的受訪者稱應歸咎于個體,但如果采用第二種提問方式,則約60%的受訪者稱應歸咎于社會條件(圖3.3)。個體。改編自SchumannandPresser(1996),表8.1。根據(jù)受訪者給出的答案,相比于“福利”,受訪者更支持“援助窮人”(Smith1987;圖3.4一項調查實驗的結果表明,相比于“福利”,受訪認為有些提問方式是明顯錯誤的,但也不存在一個放之四海皆準的方法。也就是說,使用關調查問卷設計的資料(例如Bradburn,Sudman,andWansink2004),針對這一話題的內管這聽起來可能像是剽竊,但復制問題在調查研究中是被鼓勵的(只要注明引自哪項調查即可)。如果你從高質量的調查中復制問題,那么就能確保這些問題已經被測試過了,而且你抽樣框總體中選擇一些人來小規(guī)模地測試你的問題,調查研究人員稱這一過程為預測試3.3.3成本它也是一個不容忽視的限制因素。事實上,成本是整個調查研究的基礎性問題(Groves2004),它是研究人員只采訪樣本而不采訪整個目標總體的原因。一味地關注如何減小誤差8倍。而且研究人員對兩項調查搜集來的答案分別進行分析,最后得出的評估結論基本上也是一致的。該研究項目以及后續(xù)得出相似發(fā)現(xiàn)的重復研究(Keetere調查好呢?是一次基本無瑕疵的調查好呢,還是十次還算不錯的調查好呢?是一次基本無瑕疵的調查好呢,還是一百次還算不錯的調查好呢?在某個點上,成本們將探討調查研究第三個時代的三個主要領域:非概率抽樣的新方法(3.4節(jié))、提問的新方法(3.5節(jié))以及將調查和大數(shù)據(jù)資源結合起來的新策略(3.6節(jié))。3.4向誰提問法,合作國會選舉研究(CooperativeCongressionalElectionStudy)擁有的參與者人數(shù)下相關黨派在態(tài)度和行為上的變化。此外,樣本容量的增加也沒有降低研究的質量回答率一直在平穩(wěn)地上升,即使是高質量的、昂貴的調查也存在這一問題(圖3.5) 憂,質量下降和成本增加這兩個密切相關的趨勢會威脅到調查研究的基礎(National概率抽樣方法有多種類型,但它們有一個共同點,那就是難以 使用在線樣本是特別適合數(shù)字時代的一種非概率抽樣方法。使用在線樣本的研究人員依賴于一些樣本提供者,通常是一個公司、政府或大學去召集愿意回答調查問題的人,創(chuàng)建一個龐大的、多樣化的樣本群。召集的方法通常是在線橫幅廣告等依實際需要而定的方法。然后,研究人員可以付費給樣本提供者,以獲取那些具備特定特征(例如可以代表整個國家的成年人)的受訪者樣本。這些在線樣本屬于非概率樣本,因為不是每個人都有一個已知的、非零的被抽中的概率。雖然社會研究人員已經開始使用非概率在線樣本了(例如合作國會選舉研究),但對利用這些樣本得出評估結論的質量,還是存在一些爭議(Callegaroetal.作“非概率抽樣2.0”,因為這些新的方法與過去容易引發(fā)問題的方法有著很大的區(qū)別。其早期,一些最令人感到尷尬的失敗案例就采用了這類樣本。而通過王偉(WeiWang)、戴的一樣,該樣本偏男性化、年輕化。18~29歲的人在選民中占19%,但在該樣本中占65%;男性在選民中占47%,但在該樣本中占93%(圖3.7)。鑒于上述現(xiàn)象,原始Xbox數(shù)據(jù)很難準及及事后分層的主要思想是利用關于目標總體的輔助信息,幫助改善源于樣本的評估結論。在利用事后分層從他們的非概率樣本中得出評估結論的過程中,王偉和同事將抽樣總體分為不同的小組并評估每組對奧巴馬的支持情況,然后利用各組的評估結果計算出加權平均數(shù),進而得出最終的評估結論。例如,他們可以把抽樣總體分為兩組(男性和女性),分別評估男性和女性對奧巴馬的支持情況,然后在考慮選民中女性比例為53%、男性比例為47%這一事實的基礎上,計算出加權平均數(shù),進而得出有關奧巴馬支持情況的最后評估。粗略地說,通過引入關于小組規(guī)模的輔助信息,事后分層有助于修正不平衡樣本。因為他們的調查是通過計算機管理的(我將在3.5節(jié)中進一步介紹通過計算機管理的調查),總體劃分為幾百個小組,而王偉和同事則按照性別(2類)、種族(4類)、年齡(4類)、教育(4類)、州(51類)、認同黨派(3類)、意識形態(tài)(3類)以及2008年投票支持誰(3類)將抽樣總體分為176256個小組。換句話說,低成本的數(shù)據(jù)采集讓他們擁有了龐大的(圖3.8)。事實上,他們的評估結論要比傳統(tǒng)民調匯總后的結果更加準確。因此,在該研究中,統(tǒng)計調整,特別是“P先生”,在修正非概率數(shù)據(jù)的偏差方面起到了很大的作用。如Xbox加權后Pollster網站8從王偉和同事的研究中,我們主要能學到兩條經驗:首先,未經調整的非概率樣本可能會導致糟糕的評估結論,這是許多研究人員以前就聽過的一條經驗;其次,如果分析得當,根據(jù)非概率樣本實際上也能得出好的評估結論,使用非概率樣本不一定會導致像《文學文摘》慘敗那樣的結果。分別是招募受訪者和向他們提問。在3.4節(jié)中,我介紹了數(shù)字通過計算機管理,而不是由采訪者管理(例如電話和面對面訪談調查)。采訪者不參與數(shù)據(jù)高某類問題答案的準確度以外,采訪者不參與數(shù)據(jù)采研究中最大的成本之一),并且增加了靈活性(受訪者可以按自己的意愿隨時參與調查,而不是受制于采訪者的時間)。就挑戰(zhàn)而言,如果調查是采訪題特別多的調查問卷(可能會很乏味),采訪者還可以保證受訪者的完成度(Garbarski,問:用來在更合適的時間和地點測量內部狀態(tài)的生態(tài)瞬時評估法(3.5.1小節(jié))以及結合了開放式問題和封閉式問題優(yōu)點的維基調查(3.5.2小節(jié))。然而,由計算機管理的、不受地時被稱為游戲化(3.5.3小節(jié))。生態(tài)瞬時評估法主要有4個特征:(1)在現(xiàn)實環(huán)境中搜集數(shù)據(jù);(2)評估的是個體當前或最近的狀態(tài)或行為;(3)評估可能是基于事件的、基于時間的或隨機引發(fā)的(取決于研究問題);(4)隨著時間的推移需進行多次評估(StoneandShiffman1994)。一天中人們可裝有各種傳感器,例如GPS(全球定位系統(tǒng))和加速計,因此研究人員可以通過用戶的活動內奧米·杉江(NaomiSugie)的年代以來,美國的監(jiān)禁人數(shù)開始急劇上升。截至2005年,每10萬美國人中就有約500人在先,她在上午9點和下午6點之間隨機選了一個時間向參與者發(fā)送“體驗抽樣調查”,詢問參與者當下的活動和感受。然后,在晚上7點,她會向參與者發(fā)送一個“每日調查”,詢問重要的異質性。杉江在其樣本中發(fā)現(xiàn)了4個完全不同的群體:“早期退出”(最開始找過工作,但后來退出了勞動力市場)、“持續(xù)尋找”(融入社會前的大部分時間都花在找工作上)、“循環(huán)工作”(融入社會前的大部分時間都花在工作上)以及“低響應”(不會定期回答調查問題)。其中“早期退出”這一群體最開始找過工作,但后來沒找到就市場。因此,杉江通過她的調查還搜集了有關參與者憂。但杉江預先就考慮到了這些擔憂,并在設計過程中采取了應對措施(Sugie2014,2016)。她所在大學的機構審查委員會作為第三方審查了她的數(shù)據(jù)采集程序,認為該程序符合所有現(xiàn)存規(guī)則。此外,杉江的方法與我在第6章所提倡的基于原據(jù)資源相結合時(我認為這會越來越常見,我將在本章后面部分進行論述),就可能引發(fā)額外的道德倫理問題。我將在第6章更詳細地探討研究中的3.5.2維基調查但這些是全部可能的答案嗎?研究人員將答案限制在這5個選項中會不會遺漏了一些重要的盡管這兩個問題看起來很相似,但霍華德·舒曼(HowardSchuman)和斯坦利·普雷瑟(StanleyPresser)的一項調查實驗表明,它們可以產生非常不同的結果:近方式提問而搜集到的答案,都不在研究人員給定的選項中(圖3.9)。開放式問題開放式問題成就感晉升薪酬安全不知道滿足感其他0盡管開放式問題和封閉式問題可以產生完全不同的信息,而且兩種形式的問題在調查研究的早期都很受歡迎,現(xiàn)在處于主導地位的卻是封閉式問題。這并不是因為封閉式問題被證明能產生更好的測量數(shù)據(jù),而是因為封閉式問題使用起來要簡單很多,因為分析開放式問題的過些研究人員事先不知道的信息才是最有價值的信息。辦法。如果我們現(xiàn)在能設計出融合了開放式問題和封閉式問題各自優(yōu)點的調查問題,會怎么其是維基百科(內容主要由用戶生成的動態(tài)開放系統(tǒng)的絕佳案例),它讓我們很受啟發(fā),因此我們稱這個新型調查為維基調查。正如維基百科會基于參與者的想法逐步發(fā)展,我們也設想了一個會基于參與者想法而逐步發(fā)展的調查??▊惡臀艺J為,維基調查應滿足三個特性:貪婪性、協(xié)作性和適應性。然后,我們和一組網站開發(fā)人員一起創(chuàng)建了一個可以開展維基調外展服務(例如“要求所有大型建筑都要進行一定的能效為學校課程的一部分”)列出了25個想法,以此作為這樣一個問題的備選答案:你認為哪一項更有利于創(chuàng)建一個更環(huán)保的、更好的紐約市?然后,計算機會隨機從備選答案中抽取2個(例如“開放紐約市所有學校的操場作為公共體育場”和“增加哮喘發(fā)病率高的社區(qū)的植樹量”),供受訪者選擇(圖3.10)。受訪者做出選擇后,計算機會立即再隨機抽取2個想法AA只要受訪者愿意,通過二選一或選擇“我無法決定”,受訪者可以一直回答他更偏向于哪種為了搜集居民的反饋信息,市長辦公室于2010年10月啟動了該維基調查,同時還開展了一系列的社區(qū)會談。在大約4個月的時間里,1436名受訪者貢獻了31893個答案以及464個新想法。至關重要的是,前10個最受歡迎的想法中有8個是受訪者提出來的,而不是源于市長系統(tǒng):我們已經主辦了超過10000項維基調查,搜集了1500多萬份答案。這種創(chuàng)造可以大規(guī)都免費使用它基本上不會再產生成本(當然,如果我們采取由人類管理的訪談,就無法實現(xiàn)這一點)。此外,這樣的規(guī)??梢允寡芯咳藛T開展不同類型的研究。例如,這1500多萬份答案以及大量的參與者為未來的方法研究提供了一個寶貴的測試場。在第4章介紹實驗時我將進一步描述數(shù)字時代成本結構(尤其是成本不會隨著所搜集數(shù)據(jù)量的增加而增加)所創(chuàng)造的3.5.3游戲化提問,然后再問他們的朋友(這樣可以測得真實的態(tài)度相似度),也可以讓人們猜其朋友的態(tài)度(這樣可以測得感知的態(tài)度相似度)。但可惜的是,既采訪受訪者又采訪其朋友,實施后就該好友的態(tài)度向參與者提問(圖3.11)。在回答有關隨機選擇的朋友的問題時,該參與圖3.11“朋友感覺”的界面(Goel,Mason,andWatts2010)。研究人員把標準的態(tài)度調查變成了一項有趣的、類似游戲的體驗。應用程序向參與者提的問題有嚴肅的也有輕松的。好友頭像經過了模糊處理。經沙拉德·戈埃爾允許轉(你的朋友)更同情以色列人是嗎?”以及“(你的朋友)會為了讓政府能夠提供全民醫(yī)保而繳更多的稅嗎?”除了這些嚴肅的問題以外,研究人員還會設置啤酒,(你的朋友)更喜歡葡萄酒是嗎?”以及“(你的朋友)更希望擁有讀心術而不是會飛是嗎?”這些更輕松的問題會讓參與者覺得這個過程很有趣,同時也讓我們能夠進行一項是很親密的朋友,也在約30%的問題上持不同的觀點;其次,參與者往往高估自己與朋友的3.6與大數(shù)據(jù)資源相結合的調查這種現(xiàn)象將會改變。將調查數(shù)據(jù)與第2章介不同的方法,我稱它們?yōu)樨S富型提問和擴充型提問(圖3.12)。雖然對每種方法我都將通過的視角看待。回想一下第1章的內容,有些人會把這些研究看作“非現(xiàn)成”調查數(shù)據(jù)增強豐富型提問豐富型提問擴充型提問大數(shù)據(jù)資源大數(shù)據(jù)資源調查數(shù)據(jù)用于研究大數(shù)據(jù)資源預測的用于研究3.6.1豐富型提問我在3.2節(jié)中提到的伯克和克勞特針對臉譜網上的互動是否會增進友誼所開展的研究。在該集鏈接起來(這是一個被稱為記錄鏈接的過程)。第二個難題是,大數(shù)據(jù)資源的質量通常很難評估,因為數(shù)據(jù)創(chuàng)建的過程可能是不對外公開的,并且大數(shù)據(jù)資源容易受到第2章所描述重要的研究,正如斯蒂芬·安索拉比赫(StephenAnsolabehere)和埃坦·赫什會記錄每個公民是否投票。(當然,政府沒有記錄每個公民把票投給了誰。)多年來,政府(但也不是不可能)獲得全體選民的投票記錄,并將他們在調查中關于投票所說的內容和實公司Catalist(凱利板)合作,以利用其主投票文件幫助他們更好地了解全體選民因為他們的研究依賴于上述這家公司(該公司在數(shù)據(jù)采集和匯總方面投入了大量的資源)所像第2章的許多大數(shù)據(jù)資源一樣,安索拉比赫和赫什獲得的主投票文件中也沒有太多他們所的投票行為和經過驗證的投票行為(即Catalist數(shù)據(jù)庫中的信息)。因此,安索拉比赫和赫他們把搜集來的數(shù)據(jù)交給了Catalist,Catalist匯總后又將包括經驗證的投票行為(源于Catalist)、自我報告的投票行為(源于合作國會選舉研究)以及受訪者的人口統(tǒng)計資料和態(tài)度在內的數(shù)據(jù)文件返回給了他們(圖3.13)。換句話說,安索拉比赫和赫什的研究只有將投過票,實際上他真正投過票的概率只有80%。其次,過度報告并不是隨機的:過度報告在己投過票的可能性要比沒有的人高約22%,而其實際投票的可能性只高出了10%。事實證明,相比于預測誰會真正投票,現(xiàn)有的以數(shù)據(jù)源為基礎的理論在預測誰會報告稱自己投過票(這也是研究人員過去所使用的數(shù)據(jù))方面,準確度會更高。據(jù)原始投票據(jù)用于鏈接的數(shù)據(jù)郵寄投票很簡單。但Catalist只能通過不完美的標識符(在該事例中是指姓名、性別、出生年份以及家庭住址)進行鏈接。不但對于這些結果我們又能信任多少呢?不要忘了這些結果依賴于一個易于出錯的鏈接過程,決于兩個關鍵步驟:(1)Catalist將許多完全不同的數(shù)據(jù)資源匯總后,形成一個精確的主數(shù)據(jù)文件;(2)將調查數(shù)據(jù)鏈接至上述主數(shù)據(jù)文件。其中每個步驟都很困難,而且任何一個過一系列步驟檢查了上述兩個步驟的結果(盡管有些是不對外開放的),這些檢查對其他想一般來說,研究人員通過該研究能學到什么經驗呢?首先,資源還是利用大數(shù)據(jù)資源豐富調查數(shù)據(jù)(我們可以用任何一種方式看待該研究),都有巨大法是,將匯總后的商業(yè)數(shù)據(jù)資源與其他同樣會有錯誤的可用數(shù)據(jù)資告的投票行為)進行比較。最后,在某些情況下,研究3.6.2擴充型提問往成本高、關注面小(它只包含少量的問題),而且不及時(它按固定的時間表進行,例如每隔10年普查一次)(Kish1979)。與其勉強接受抽樣調查或是人口普查,研究人員還不2009年間約150萬名用戶的匿名記錄。這些記錄含有每次通話和每條短信的相關信息,例如出的是,獲取數(shù)據(jù)這第一步對許多研究人員來說可能是基本上是不可能被“匿名化”的,而且?guī)缀跻欢〞瑓⑴c者認為敏感的信息(Mayer,Mutchler,andMitchell2016;Landau2016)。在布盧門斯護數(shù)據(jù)方面很是謹慎,而且有一個第三方(即他們的機構審查委員會)負責監(jiān)督他們的工作。在第2章中我詳細介紹過這一點。但通話記錄很可能包含一些能間接該模型能通過通話記錄預測某個人在一項調查中會如何作答?如果這是可行的,那么布盧門為了創(chuàng)建和訓練這樣一個模型,布盧門斯托克和來自基加利科學技術研究所(KigaliInstituteofScienceandTechnology)的研究助理隨機抽取了約1000名用戶。研究人員然后向他們提了一系列的問題,以衡量其財富狀況和幸福感,例如“你有收音機嗎?”以及“你有自行車嗎?”(部分問題列表參見圖3.14)。所有參與調查的人都獲得了經濟報酬。學家可能會稱這些特征為“特征”,而社會科學家則可能托克會計算出每個人的總活躍天數(shù)、聯(lián)系過的人(不同的人)的數(shù)量以及通話費等。這一步和國際電話很重要(我們可能會認為打國際電話的人更富有),那么這一工作就必須在特征有固定電話有收音機有冰箱有汽車過去12個月里被解雇過有摩托車室內有自來水有電視有家用電器過去12個月里遭受過洪水或干旱過去12個月里曾病得很重有自行車過去12個月里有家人去世過去12個月里有醫(yī)療開銷精確度圖3.14用通話記錄訓練統(tǒng)計模型的預測精度。改編自Blumenstock(2014),表2。該模型對某些特征的預測精度是很高的(圖3.14),例如預測某人是否有收音機的精確度能達到97.6%。這聽起來可能很不錯,但將一個復雜的預測模型與一個答說自己有收音機,那么他的精確度就是97.3%,這與他更復雜的預測模型的表現(xiàn)(97.6%的精確度)竟驚人地相似。換句話說,所有復雜的數(shù)據(jù)和建模工作只是把預測精確度從97.3%提高到了97.6%。但對其他問題,例如“你有自行車嗎?”,預測精確度就從54.4%提高到了67.6%。更概括地說,圖3.15表明,對某些特征來說,相比于簡單的基線預測(即預測每個人都會給出最常見的回答),布盧門斯托克的模型并沒有明顯提高精確度,但對其他一些特利用通話記錄進行預測的精度改善利用通話記錄進行預測的精度改善簡單的基線預測的預測精度微調整。改編自Blumenstock(2014),表2。和羅伯特·翁(RobertOn),就大大改進了研究結果(Blumenstock,Cadamuro,andOn2015),并在《科學》雜志上發(fā)表了他們的論文。這一改進主要有兩個技術原因:(1)他們采用了更復雜的方法(即在特征工程這一步中采用了新的方法,并創(chuàng)用特征預測回答);(2)他們不再試圖推斷單個調查問題(例如,“你有收音機嗎?”)的測了150萬名用戶的財富狀況。他們還利用通話記錄中的位置信息(通話記錄中有每次通話時用戶離得最近的手機信號塔的位置)評估了每個人大致的居住地(圖3.16)。通過將這兩粒度(指空間粒度)的。例如,他們能夠估算出盧旺達2148個街區(qū)中每一個街區(qū)的平均財富那么這些評估結論與該地區(qū)的真實貧困水平的符合程度如何呢?在回答這個問題之前,我想果相當參差不齊(圖3.17)。此外,也許更重要的一點是,有手機的人與沒有手機的人可能將這兩種評估進行比較后發(fā)現(xiàn),它們非常相似(圖3.17)。換句話說,通過將少量調查數(shù)據(jù)模型調查數(shù)據(jù)特征工程師通話記錄預測人一特征矩陣評估預測的人一特征矩陣居住地地區(qū)層面人口統(tǒng)計和健康調查估算出的地區(qū)平均法,布盧門斯托克和同事得出評估結論所采用的方法要快10倍,成本降為1/50(以可變成本計算)。正如我在上文所論述的一樣,研究人員忽視成本問題可拿布盧門斯托克和同事的研究為例,相比于每隔幾年開展一次(這是該調查的一個標準)的廣而薄的大數(shù)據(jù)資源(即該資源包含許多人,但沒有你需要的關于每個人的信息);(2)窄而厚的調查數(shù)據(jù)(即該數(shù)據(jù)只包含少量人,但其中有你需要的關于這些人的信息)。然后需Molina2015)、填補法(Rubin2004)以及基于模型的事后分層(該領域與我在“P先生”這一方法緊密相關)。鑒于這些很深的關聯(lián)性,我預計擴充型提問的許多方法論方法時,進行以下兩項截然不同的評估是很重要的:(1)該方法在當下的效果如何?(2)盡管研究人員接受過第一類評估的培訓(評估一項特定研究的好壞),但第二類評估往往更3.7結論從模擬時代到數(shù)字時代的轉變正在為調查研究人員創(chuàng)造新的機會。在本章中,我提出大數(shù)據(jù)資源不會取代調查,而且其豐富性還將提升而不是降低調查的價值(3.2節(jié))。然后,我總結了在調查研究的前兩個時代發(fā)展起來的調查誤差總框架,該框架有助于研究人員開發(fā)和評估調查研究第三個時代的方法(3.3節(jié))。我預計會出現(xiàn)令人興奮的機會的三個領域分別是:(1)非概率抽樣(3.4節(jié)),(2)計算機管理的調查(3.5節(jié)),(3)將調查和大數(shù)據(jù)資源結合起來(3.6節(jié))。技術和社會方面的變化驅動著調查研究不斷地向前發(fā)展。我們應該擁抱這一發(fā)展趨勢,并繼續(xù)從之前的時代汲取智慧。4.1簡介本書目前為止所介紹的方法——觀察行為(第2章)和提問(第3章),都是研究人員在并非有意地、系統(tǒng)地改變世界的情況下搜集數(shù)據(jù)的方法。而本章所要介紹的方法——開展實驗,則是完全不同的。當研究人員開展實驗時,他們會系統(tǒng)性地干預世界,以創(chuàng)造出最適合因果關系問題的數(shù)據(jù)。因果關系問題在社會研究中很常見,例如:增加教師工資會讓學生學到更多東西嗎?最低工資對就業(yè)率的影響是什么?一個求職者的種族對其能否獲得一份工作有何影響?除了這些明確的因果問題之外,有時因果問題還會隱藏于關于某些性能指標最大化的更普遍的問題中。例如,在非政府組織的網站上,捐贈按鈕應該是什么顏色呢?像這種有關不同按鈕顏色對捐贈的影響的問題還有很多。解答因果問題的一種方法是從現(xiàn)有數(shù)據(jù)中尋找規(guī)律。例如,回到有關教師工資對學生學習的影響的問題,經過計算你可能會發(fā)現(xiàn),在教師工資高的學校,學生能學到更多東西。但這一相關性就能說明更高的教師工資會讓學生學到更多東西嗎?當然不能。教師工資較高的學校與其他學校可能在其他許多方面也存在著不同。例如,教師工資較高的學校的學生可能來自更富裕的家庭。因此,那些看起來像是因教師才產生的影響,實際上可能是學生自身的差異所致。這些未被測量的學生之間的差異被稱為混雜因素,一般而言,存在混雜因素的可能性會嚴重破壞研究人員通過現(xiàn)有數(shù)據(jù)尋找規(guī)律來解答因果問題的能力。解決混雜因素的一個方法,是通過調整組間可觀察的差異盡量實現(xiàn)公平的比較。例如,你或許能通過多個政府網站下載財產稅數(shù)據(jù),然后找出學生家庭條件(就住房價格而言)相似但教師工資不同的學校,比較其學生的表現(xiàn)。你可能仍然會發(fā)現(xiàn)教師工資較高的學校的學生學到的東西更多。但還是有許多可能的混雜因素,也許這些學生的父母在受教育程度上有差異,也許這些學校在離公共圖書館的距離上有差異,也許教師工資高的學校,其校長的工資也較高,并且校長的工資比教師的工資高,也許這些是使學生學到更多東西的真正原因?你也可以試著測量并調整這些因素,但可能的混雜因素基本上是列舉不完的。因此在很多情況下,你是無法對所有可能的混雜因素進行測量和調整的。為了應對這一挑戰(zhàn),研究人員提出了許多利用非實驗數(shù)據(jù)進行因果推斷的方法,其中一些我在第2章介紹過,但對某些類型的問題來說,這些方法的作用還是有限的,這時實驗便是一個不錯的選擇。實驗能使研究人員不再局限于自然產生的數(shù)據(jù)所呈現(xiàn)出的相關性,而是以更可靠的方式解答某些因果問題。在模擬時代,實驗往往面臨著組織實施方面的難題,而且成本也高?,F(xiàn)在,在數(shù)字時代,組織實施方面的限制正在逐漸消失,我們不僅能更容易地開展與過去類似的實驗,而且還能開展過去沒有的新型實驗。行干預,并且研究人員是通過隨機的方式(例如拋硬幣)來決定干預誰的。隨機對照實驗能得出錯誤的結論(我很快就會講到)。盡管實驗和隨機對照實驗之間存在著上述重要的差異,如何在研究中采用隨機對照實驗。在4.2節(jié)中,我將以維基驗的基本邏輯。然后,在4.3節(jié)中,我將描述實驗室實驗和實地實驗 (嚴格控制)和模擬實地實驗(現(xiàn)實主義)的最佳特征進行論述。接下來,在4.4節(jié)中,我略所涉及的權衡(4.5節(jié))。在最后結束部分,我將給出一些關于如何借助數(shù)字實驗的真正力量進行設計的建議(4.6.1小節(jié)),并介紹一些隨之而來的責任(4.6.2小節(jié))。4.2什么是實驗想了解非正式的同伴獎勵對人們編輯維基百科的影響。具體來說,他們研究了谷倉之星 他們的一個獎勵。于是,雷斯蒂沃和范德里杰特給100個做出杰出貢除了抽取100個杰出貢獻者并向其發(fā)送谷倉之星以外,他們還抽取了另外100個杰出貢獻者要比對照組的多60%左右。換句話說,兩組貢獻者的貢獻都在減少通過雷斯蒂沃和范德里杰特的研究,我們了解了隨機對照實驗的4個與者、隨機分組、實施處理和測量結果。這4個部分一起就能把谷倉之星發(fā)送給任何人,也能很容易地在較長時間內對結果(即編輯次數(shù))進行追蹤 (因為維基百科會自動記錄編輯歷史)。這種無須任何成本就能實施處理并且測量結果的實甚至是20000個其實也是可以的。雷斯蒂沃和范德里杰特沒有抽取20000個人來參與實驗的計空間有助于大家理解不同方法的優(yōu)缺點,并能突出機會最大的領域(圖4.1)。組織實驗的其中一個維度是實驗室-實地。社會科學的許多實模擬實驗室實驗實地實驗圖4.1實驗設計空間示意圖。在過去,實驗的類型集中在實驗室-實地這一維度?,F(xiàn)在,又出現(xiàn)了許多模擬-數(shù)字這的,內容基本相似,只有一點不同,即有些會暗示該應聘者是位母親(如參加了家長教師協(xié)會),有些則不會??评谞柡屯掳l(fā)現(xiàn),學生不太可能推薦是母親的應聘者,就算推薦了,他們是否是由于同樣的原因而做出了類似的決定呢?遺憾的是,我們并不知道。研究人員沒驗室-實地連續(xù)體的兩端,在這兩端之間,還有各種各樣的混合設計,例如將不是學生的參除了過去的實驗室-實地維度,數(shù)字時代意味著研究人員現(xiàn)在有了第二個設計實驗的主要維度:模擬-數(shù)字。正如在第一個維度上有純實驗室實驗、純實地實驗和范德里杰特針對谷倉之星和維基百科的研究采用的就是一個純數(shù)字實驗,因為他們的這4個步驟都是通過數(shù)字系統(tǒng)完成的。同樣,純模擬實驗就是這4個步驟都不會使用數(shù)字基礎設結果。事實上,正如本章后面將描述的,研究人員在針對850萬戶家庭的能源消耗的實驗中數(shù)字系統(tǒng)為實驗室-實地連續(xù)體上的所有實驗都帶來了新的可能4.2)。機器人MTurk連通了有任務需要完成的“雇主”濟報酬),研究人員也通過該基礎設施獲得了一個隨時可用的參與者庫。利用機器人利用機器人MTuk上的數(shù)據(jù)發(fā)表的論文20112012201320142015(年)在不間斷運行的測量系統(tǒng)上進行的(參見第2章)。例如,同樣是關于參與者的預處理信息,S?vje,andSekhon2016)和有針對性地招募參與者(Eckles,Kizilcec,andBakshy2016),還能讓他們進行更有見地的分析,例如評估處理效應的異質性(AtheyandImbens2016a)和進行協(xié)方差調整以提高精確度(Bloniarzetal.2016)。結果進行了長達90天的測量(每天都會測量),而本章后面將提到的實驗之一(Ferraro,間斷運行的測量系統(tǒng)(更多有關不間斷運行的測量系統(tǒng)的內容可參見第2章)開展實驗,是存在諸如環(huán)境依賴、合規(guī)問題和平衡效應(BanerjeeandDuflo雜化因素。數(shù)字實地實驗也放大了由實地實驗引發(fā)的道德倫理問題,我將在本章后面和第64.4超越簡單實驗“起作用”嗎?例如,一個志愿者打來的電話能促使一個人投票嗎?將網站按鈕從藍色換成綠色能增加廣告的點擊率嗎?不過遺憾的是,對于“起作用”的不嚴謹?shù)拇朕o掩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論