上海大數(shù)據(jù)中心的技術(shù)人員在獲取海量原始數(shù)據(jù)之后,首先會將所有原始數(shù)據(jù)投入“數(shù)據(jù)湖”之中,再針對湖內(nèi)的數(shù)據(jù)設(shè)定特定的規(guī)則,通過規(guī)則進行匹配,最后得出想要的結(jié)果數(shù)據(jù)。
數(shù)據(jù)湖,可以理解成一個存儲各種各樣原始數(shù)據(jù)的大型倉庫,又稱為原始數(shù)據(jù)保存區(qū),技術(shù)人員就相當(dāng)于倉庫管理員,負(fù)責(zé)存取、處理、分析及傳輸數(shù)據(jù)。數(shù)據(jù)湖的包容性非常強,能存儲各種結(jié)構(gòu)及規(guī)模的數(shù)據(jù)。做到輕松地收集和攝入數(shù)據(jù)的同時,它還可以支持不同類型的大數(shù)據(jù)工具對其中的數(shù)據(jù)進行處理,極大地方便技術(shù)人員進行后期分析和利用。所以在處理“隨申碼”的數(shù)據(jù)之前,大數(shù)據(jù)中心的工程師第一步就要將從各渠道所得的原始數(shù)據(jù)統(tǒng)一存儲入數(shù)據(jù)湖內(nèi),再針對湖內(nèi)的數(shù)據(jù)進行比對、清洗工作。
大數(shù)據(jù)中心數(shù)據(jù)資源部部長儲昭武介紹稱:“我們現(xiàn)在的數(shù)據(jù)來源比較多,各個字段的準(zhǔn)確度是不一樣的。那為了獲取準(zhǔn)確的人的數(shù)據(jù),那我們要對人口庫內(nèi)的數(shù)據(jù),以及隨申辦用戶注冊時(填寫)的數(shù)據(jù),包括姓名字段、身份證字段、聯(lián)系電話字段進行計算,找出可信的數(shù)據(jù)。然后合成一條準(zhǔn)確的人的基本信息,這就是通過比對能得到我想要的人的基本信息。
而在清洗這一塊,舉個最簡單的例子,“健康登記”這一塊數(shù)據(jù),由于在道口比較匆忙,登記的數(shù)據(jù)都是五花八門的。有身份證號不對的,有聯(lián)系方式不準(zhǔn)確的,甚至是找不到聯(lián)系地址的。那我們要把這些“臟數(shù)據(jù)”挑出來,我們的工程師是要通過一定的規(guī)則進行編程,讓系統(tǒng)對逐條數(shù)據(jù)進行計算,把這些有問題的數(shù)據(jù)給剔除,得到干凈的數(shù)據(jù),這就是清洗的過程。”
從隨申碼的大數(shù)據(jù)邏輯來看,健康碼的基礎(chǔ),首先是“網(wǎng)絡(luò)實名制”,即理論上我們每一個人在網(wǎng)站和手機軟件上注冊的所有賬號,都是實名即對應(yīng)一個真實的人員。
其次,是市民行為的數(shù)據(jù)化。比如說你的手機導(dǎo)航、通訊使用、進出各省市道口的航空、高鐵信息等。這些行為也是構(gòu)成每個人行動軌跡的重要參考來源。
劍網(wǎng)行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有
全部評論
暫無評論,快來發(fā)表你的評論吧