?
市場研究協會 會員登錄 | 入會申請 | 協會原網站
  研究智庫
研究文章
理論文庫
行業數據
觀點文章
優秀論文獎
  當前位置:網站首頁 > 研究智庫 > 理論文庫 > 大數據調研、云Panel調研、傳統調研的融合貫通
大數據調研、云Panel調研、傳統調研的融合貫通
發布時間:2018-12-07  訪問量:684
0



摘要:為解決線下傳統調研難度大、成本高,以及網絡訪問固定樣組調研和大數據調研樣本代表性不足難以進行統計推斷等問題,本文重點研究利用數據融合(Data Fusion)方法逐步搭建大數據調研、云Panel調研、傳統線下調研三種方式融合貫通的新型調研模式。具體利用基于傾向得分匹配的樣本匹配(Sample Matching)方法,將來自三種調研方式的樣本及調查數據有效融合,創造三種調研方法相互結合、相互補充、相得益彰的新型調研方式,提高運作效率,提升調研質量。研究表明,基于傾向得分匹配的樣本匹配方法可以實現不同調研方式的融合貫通,在實際市場調查中具備可應用價值。

關鍵詞:大數據調研;云Panel調研;傳統調研;樣本匹配;傾向得分匹配

1引言

市場調研的三大核心問題可以歸結為:第一,數據質量:包括控制抽樣誤差和非抽樣誤差,抽樣誤差主要強調的是樣本代表性,非抽樣誤差指調查中所有其他因素帶來的誤差;第二,執行效率,調研項目成功與否很大程度上決定于項目響應率、問卷的回答率;第三、調查費用,即成本,市場調研行業就是在這三大核心問題上不斷尋找著最優化的組合。而不論包括入戶、街訪的傳統線下調研,還是網絡迅猛發展下,利用基于樣本招募的自有和外部網絡訪問固定樣組的云Panel調研,以及大數據形勢下應運而生的大數據調研,在面臨這三大問題,尋找最優解時,各自體現出了突出的優勢及不足。

線下傳統調查特別是入戶調查,因遵循隨機原則而使樣本能夠準確反映調查總體的信息。實際中,我們有很多推及總體的項目,比如電視觀眾滿意度的項目、居民消費習慣調查基本上都是入戶調查,最后要精準推及到全市、全省乃至全國的總體情況;再有,國內很多權威調研,比如居民收入水平調查,還需在入戶調查前出具最為專業細致的抽樣方案來保證樣本的代表性,從而最終保障調查總體數據的準確可靠。可見樣本數據是調研之本源,樣本是偏的,調查結果無疑將出現不可忽視的偏誤,所以統計抽樣的重要性不言而喻。而網絡調查所依托的網民群體目前來講還不能代表總體,有相當一部分個體沒有入樣,很難實現真正意義上的“隨機原則”從而保障良好的代表性。它們更適合應用在特定人群或者與互聯網使用相關的調查中來提高樣本代表性,所以其應用范圍及應用深度均受到一定的阻礙。圖1表示云Panel抽樣、大數據抽樣與網絡總體、人群總體之間的關系。然而,隨機樣本的觸達是非常困難的,入戶調查會耗費大量的人力、物力、財力;而云Panel調研和大數據調研相較線下傳統調研則非常高效、經濟、便捷,并且大數據調研還有其更加突出的優勢:渠道資源豐富、用戶覆蓋范圍廣用戶畫像精準圈人,而且利用立體鮮活的人群畫像能夠更深層次的挖掘樣本信息以獲得更深層次的調查結論。



綜述所述,這三種調研方式皆是尺有所短,寸有所長。那么,如何在保障數據質量的基礎上,充分利用云Panel、大數據的調查優勢,拓展其在市場調查中的應用,盡可能高效率、低成本、精準地執行我們的調研任務,是我們目前面臨的挑戰和亟待解決的問題。對此,我們將嘗試利用數據融合技術中的樣本匹配法將三種調研方式融合貫通,研究該方法在統計調查中的可應用性,這無論是對豐富調查抽樣領域的研究,還是對解決市場調查中存在的實際問題均具有重要的學術意義和應用價值。

2大數據調研、云Panel調研、傳統線下調研的融合貫通

本文主要研究利用數據融合(Data Fusion)方法逐步搭建大數據調研、云Panel調研、傳統線下調研三種方式融合貫通的新型調研模式。具體利用樣本匹配(Sample Matching)方法,將來自三種調研方式的樣本及調查數據有效融合,創造三種調研方法相互結合、相互補充、相得益彰的新型調研方式,提高運作效率,提升調研質量。

所謂樣本匹配,通常被用于非隨機化的觀察性研究中,特別是在醫學、生物學領域有著廣泛的應用。目前,樣本匹配方法已不乏應用于市場調查中的先例,國內外也有很多的文獻支持,Rivers[1]2006 年首次提出樣本匹配法(Sample Matching)是一種從非概率樣本中選擇代表性樣本的新方法,特別適合于網絡固定樣組調查。Vavreck 和 Rivers[2](2008)針對美國國會選舉研究,選用了一種基于距離函數的樣本匹配法從云Panel中采集與美國社區調查文檔中最近的匹配樣本,通過匹配樣本的數據進行估計,發現與傳統的調查方法相比總體估計的均方誤差(RMSE)更小。Eggers 和 Drake (2011) [3]采用一種基于頻數匹配的樣本匹配方法,從網絡訪問固定樣組中選取了一個以美國綜合社會調查數據為目標樣本的匹配樣本,最終利用匹配樣本的調查數據進行總體推斷。金勇進、劉展(2015) [4][5]在大數據背景下非概率抽樣的統計推斷問題中也探討了基于樣本匹配的抽樣方法以及權數構造與調整的具體解決辦法。

樣本匹配法的核心思想是:首先,從包含一系列協變量(性別、年齡、教育程度、職業、收入等)的目標總體抽樣框中抽樣一個概率樣本作為目標樣本;其次,根據協變量信息,采取一定的匹配方法,從網絡樣本中抽取與目標樣本對象最為近似的單元,稱為匹配樣本;最終,對目標樣本混合匹配樣本展開調查訪問,獲取調查數據進行整體估計。樣本匹配法涉及很多種類型,諸如基于決策樹的樣本匹配、基于最近鄰的樣本匹配、基于預測均值的樣本匹配、基于隨機森林模型的樣本匹配等,本文重點研究傾向得分匹配(Propensity Score Matching)。傾向得分匹配具有將高緯度匹配降為一維的突出優勢,極大降低了計算復雜度,是目前最流行的統計方法之一,因而受到廣泛應用。

2.1傾向得分匹配

傾向得分匹配原本用于因果推論,傾向得分指的是被研究個體在控制可觀察到的混雜變量的情況下,接受某種處理的條件概率[6]。首先指定協變量 Xi,將有無接受處理記作Di(接受時,Di=1 ;反之Di=0 ),則個體i 的傾向得分為:p(Xi)=P(Di=1|Xi)。傾向得分匹配就是假設個體 i 屬于處理組,找到屬于對照組的某個體 j ,使得個體 j與個體 i 的協變量或傾向得分取值最大程度相近,即 X i X j p(Xi)p(Xj)[7]

傾向得分匹配的目的是通過控制混雜變量的影響來有效規避選擇性誤差,從而保證因果結論的可靠性。網絡抽樣中也不可避免地因樣本有不同的參與意愿和傾向產生選擇性偏差,從而損傷樣本代表性,因此這種方法特別適合網絡樣本的代表性抽樣。這里我們定義,Di=1表示單元i在目標樣本中,Dj=0表示單元 j 在網絡樣本中。目標樣本每個單元 i 都有一些協變量(性別、年齡、教育程度等)組成的向量Xi=(Xi1,Xi2,…,Xip)p 為協變量的個數,網絡樣本中每個單元j擁有同樣協變量組成的向量Xj=(Xj1,Xj2,…,Xjp)。匹配具體步驟如下:

2.1.1 估計傾向得分

估計p(Xi)=P(Di=1|Xi)主要選擇參數估計(probit/ logit)或非參數估計來處理,結合現狀來看,logit函數作為常用連接函數,主要把示性變量Di定義成因變量,協變量Xi定義成解釋變量實現 Logistic回歸模型。實踐處理階段,假定Xi全部完成中心變換,那么:



式中,0≤p(Xi)≤1

2.1.2選擇匹配樣本

尋找與目標樣本匹配的網絡,通常兩者之間的相似程度通過距離函數來定義,不同的距離函數定義規則產生不同的匹配方法,常用的匹配方法有最近鄰匹配、卡鉗與半徑匹配、分層或區間匹配、核與局部線性匹配等。本文研究基于最近鄰匹配(Nearest Neighbor Matching,NNM)[8]

最近鄰匹配是將兩組樣本中最近的一個或多個樣本進行匹配的方法。樣本間的距離可采取不同定義,如1-范數、2-范數、∞ -范數等。若一個樣本匹配另一組與其距離最近的一個樣本,這種方法稱為單一最近鄰匹配,若匹配另一組與其最近的多個樣本,在估計模型中對多個樣本賦予不同權重,這種方法稱為多重最近鄰匹配。根據匹配單元是否進行多次匹配可分為有放回的最近鄰匹配和無放回的最近鄰匹配,其區別在于,有放回的最近鄰匹配允許給定的網絡樣本單元(Dj=0)匹配到多個目標樣本單元(Di=1)。本文采取單一無放回最近鄰匹配,距離定義如下:



2.2基于樣本匹配的調研方式融合貫通

由2.1可知,匹配樣本本質上近似于目標樣本,不同調研方式的融合貫通則是指將匹配樣本與目標樣本相混合共同完成調查項目。云Panel調研和線下傳統調研的融合貫通首先需在線下隨機抽樣部分樣本進行訪問調查,再根據當期線下概率樣本為目標樣本在云Panel中選擇匹配樣本,并邀請匹配樣本完成調查,該過程展示如下圖2:


云Panel調研和大數據調研的融合貫通,云Panel是以網民總體結構(CNNIC公布)為基礎建立的,對網民總體具有一定代表性,那么為提高樣本的代表性,我們以云Panel為目標樣本在大數據樣本中選擇匹配樣本,并邀請目標樣本和匹配樣本完成調查,該過程展示如下圖3:


3實證研究

目前為止,我們已在不同類型的市場調查項目中進行了大數據、云Panel、傳統調研間的融合貫通試驗。試驗過程均為,首先,通過兩種調研方式簡單隨機抽樣大樣本量進行同期調查,并利用傾向得分匹配法以其中一種調研方式的樣本為目標樣本選取匹配樣本;其次,進一步檢驗匹配后的目標樣本與匹配樣本在調查結果間是否存在統計學顯著性差異。如果兩者之間存在顯著性差異,則一定程度上說明兩種調研方式的樣本不能相混合,反之,則說明兩種調研方式的樣本可以混合共同完成調研項目,可以融合貫通。

3.1 線下傳統調研與云Panel調研的融合貫通

以*城市電視觀眾滿意度研究為例,其是市場研究中的重要研究類型,通常以0分至100分的評分形式來反映對電視頻道、欄目、主持人整體滿意程度。線下入戶調查樣本600樣本、同期云Panel樣本750個。

3.1.1傾向得分匹配

首先以線下概率樣本為目標樣本進行傾向得分匹配,我們這里選用的是最近鄰法,單一無放回的一對一精確匹配的方法,匹配容差(卡鉗半徑)設為0,選取性別、年齡、教育程度、職業為協變量,精確匹配出的樣本共計250對。傾向得分匹配具體實現過程在R中進行。特別地,對于樣本匹配協變量的選擇問題,由于不同類型的問題涉及的被調查群體的背景信息均存在或大或小的差異,我們不可能以偏概全地就使用某個或某幾個固定的協變量來詮釋所有被調查人群的背景情況,因此我們傾向于利用相應領域的專家咨詢及行業經驗來進行協變量的選擇。


由下面表2可以看到,在樣本匹配之前,網絡訪問固定樣本中隨機抽樣的樣本與線下概率樣本在性別、年齡、教育程度、職業間均存在結構性差異;而在樣本匹配后,匹配樣本與目標樣本在各個背景信息間的分布都更均衡可比。



可見,傾向得分匹配可以有效消除云Panel、線下樣本在性別、年齡、教育程度、職業等混雜變量上存在的偏倚,使匹配樣本與目標樣本間不存在顯著的結構性差異,此時匹配樣本本質上可近似于線下概率樣本。同時看到,匹配樣本的分布取決于網絡訪問固定樣本的分布,網絡訪問固定樣本結構分布越均勻,匹配樣本分布越均勻。目前網絡訪問固定樣本尚未達到覆蓋總體結構的水平,因此會對樣本混合造成一定程度的影響,這種情況可以通過分層抽樣的方法來解決,在此不作贅述。

3.1.2調查結果顯著性差異檢驗

這里我們選用多元統計輪廓分析法對250對樣本的調查結果進行平行輪廓、重合輪廓及水平輪廓檢驗。由于篇幅問題,這里僅對云Panel、線下各20個樣本關于CCTV-4、CCTV-10、旅游衛視、CCTV-9的滿意度評分進行展示。





上表展示的是平行輪廓檢驗的結果,四種不同的檢驗統計量的p值均為0.739,表示在0.05的顯著性水平下均通過檢驗,只有在通過平行輪廓檢驗的情況下才可進行重合輪廓檢驗。



上表展示的是重合輪廓檢驗的結果,四種不同的檢驗統計量的p值均遠大于0.05,表示在0.05的顯著性水平下均通過檢驗,只有在通過重合輪廓檢驗的情況下才可進行水平輪廓檢驗。



水平輪廓檢驗顯示四種不同的檢驗統計量的p值均遠大于0.05,表示在0.05的顯著性水平下均通過檢驗。上述結果依然表明云Panel匹配樣本與線下樣本調查結果不存在顯著性差異。

因此,云Panel中的匹配樣本可以替代部分入戶樣本,實現與線下入戶樣本的有效融合,兩種調研方式融合貫通。這樣則可以在保障調查抽樣具有良好代表性的基礎上,充分利用云Panel的調查優勢,高效高質量地完成調查項目。

3.2 大數據調研與云Panel調研的融合貫通

以*城市中高端白酒消費者研究為例,主要調查消費者中高端白酒的消費認知、消費渠道、消費場景等等。該項目通過外部大數據公司利用豐富的媒體資源、多維度的用戶畫像、以及場景化的投放快速而精準地觸達336個樣本,云Panel同期采集514樣本。

這里我們認為,云Panel是以網民總體結構(CNNIC公布)為基礎建立的,對網民總體具有一定代表性,那么為提高樣本的代表性,我們以云Panel為目標單元,通過傾向得分匹配成功匹配86對樣本,并比較兩種調研方式調查數據的顯著性差異。表3結果說明,來自大數據的匹配樣本與云Panel樣本的調查結果已達到非常接近的程度,調查結果不存在顯著性差異(這里應用卡方檢驗,調查結果雙尾檢驗概率p值大于0.05,即在0.05的顯著性水平下我們沒有足夠的理由拒絕原假設,即兩者的調查結果不存在顯著性差異)。


因此,大數據與云Panel的樣本可以有效融合,兩種調研方式融合貫通。這樣可以充分利用大數據的突出優勢,精準高效觸達目標樣本,更全面、深刻地挖掘用戶特征、洞察研究內容,高效高質量地完成調查項目。

4結論

目前為止,本文通過樣本匹配的方法嘗試了線下傳統調研和云Panel調研之間的融合貫通,以及大數據調研和云Panel調研之間的融合貫通。在保證抽樣調查代表性的基礎上著力解決線下傳統調研面臨的瓶頸,同時拓展大數據、云Panel在市場調研上廣泛和深度應用,促使其在業界獲得更為廣泛的共識,逐步引導大家接受這種融合調研的方式。通過若干項目的試驗論證,大數據、云Panel、傳統調研融合貫通的方式不僅在市場研究理論上站得住腳,而且在調查實踐中具備更強的可應用性。這種嘗試對市場調查行業調查體系的良性發展具有重要應用價值,可以作為一種科學的調研方式在實際調查項目中進行嘗試及推廣。


投稿:王霄 李金玲 羅志亮 劉允強                

央視市場研究(CTR)運作及樣本中心


參考文獻 

[1]Rivers D. Sample matching—representative sampling from internet panels [J].  Polymeric White Paper Series,2006.

[2]Vavreck L,Rivers D. The 2006 cooperative congressional election study [J].  Journal of Elections,Public Opinion & Parties,2008,18(4):35 -66.

[3]Rosenbaum P R,Rubin D B. The central role of the propensity score in observational studies for causal effects [J]. Biometrika,1983,70(1): 41 -55.

[4]劉 展 ,金勇進.大數據背景下非概率抽樣的統計推斷問題[J]. 統計研究,2016.3:11-17

[5]劉 展 ,金勇進.網絡訪問固定樣本調查的統計推斷研究[J]. 統計與信息論壇,2017.2:3-10

[6]Rosenbaum P R, Rubin D B. The Central Role of the Propensity Score in Observational Studies for Causal Effects[J]. Biometrika, 1983, 70(1).

[7]劉 展 ,金勇進. 基于傾向得分匹配與加權調整的非概率抽樣統計推斷方法研究[J]. 統計與決策,2016.21:4-8

[8]Smith J A,Todd P E. Does matching overcome La Londe’s critique of non-experimental estimators? [J]. Journal of Econometrics,2005,125(2): 305 -353.



?
友情鏈接
國家統計局    中國信息協會    中國市場信息調查業協會    涉外調查許可證辦理    中國數據分析師官網    APRC    ESOMAR    GRBN    
 
CMRA微信公眾號   CMRA微信號

關于協會 | 會員專區 | 招聘信息 | 聯系我們

地址:北京市東城區東四十條21號北京一商集團大廈308室 電話:010-64087451,010-64087991

Copyright 2015-2019 www.obenvf.tw All Rights Reserved

中國信息協會市場研究業分會 CMRA 版權所有 京ICP備14025989號-2

中超电视转播