歡迎來到合肥浪訊網絡科技有限公司官網
  咨詢服務熱線:400-099-8848

香港虛擬主機對SEO網站優(yōu)化的影響

發(fā)布時間:2016-10-25 文章來源:  瀏覽次數:2698
  數據審核匡助我們發(fā)現數據中存在的題目,而這些題目有時候可以利用一些方法就行修正,從而晉升數據的整體質量,數據修正就是為了完成這個任務,可以從以下幾個方面進行修正:
  填補缺失值
  對于記實缺失的題目,最簡樸的辦法就是數據回補。一般而言統計指標數據缺失可以從原始數據中重新統計獲取,而原始數據缺失可以從抽取的數據源或者備份數據中回補。假如原始數據完全丟失,基本就回天無力了。
  對于字段值的缺失,良多資料都會先容使用一些統計學的方法進行修補,實在就是對缺失值的猜測或者估計,一般會使用均勻數、眾數、前后值取均勻等方法,或者使用回歸分析的方法擬合指標的變化趨勢后進行猜測。這些方法在缺失值無法使用其他途徑找回或者重新統計計算,并且在缺失值有變化規(guī)律可循的條件下都是可取的,當某天的指標值丟失機可以通過這類方法根據前幾天的數據來預估該天的數值。但良多時候網站分析中假如底層的日志存在缺失值,我們很難猜測詳細的缺失值,由于訪問的細節(jié)幾乎是無跡可尋的,所以對于訪問記實存在缺失值并且這些字段的缺失會顯著影響一些統計指標的計算時,最簡樸的方法就是舍棄該記實,但這種直接過濾掉缺失記實的方法一些只會用于訪問日志等不需要非常精確的數據上,假如是網站的運營、交易等這些需要保證完全計算正確的數據絕對是不能直接舍棄的,而且對于訪問日志中缺失或者異常記實的過濾也需要基于對這類數據的統計基礎上,一般的原則是不太重要的字段假如缺失或者異常的記實占比小于1%或者5‰的情況下可以選擇過濾這些記實,假如占比比較高,需要進一步排查日志記實是否存在題目。
  刪除重復記實
  數據集里面某些字段的值必定是獨一的,好比按天統計的指標值中的日期字段,用戶信息表的用戶ID等,這些需要保證獨一的規(guī)則可以對數據庫設置獨一約束,但我們在做ETL處理時,有時為了保證數據加載全過程可以不由于違背獨一約束而間斷(有時Load的過程需要較長的時間或處理本錢,ETL需要有容錯能力以保證整個過程不被間斷)會先忽略重復記實,待整個ETL過程結束后再對需要保證獨一的字段進行去重處理。
  這些重復記實可以比對Data Profiling中數據統計信息的獨一值個數和記實總數是否一致進行審核,而進行修正的最簡樸辦法就是重復記實僅留存一條,刪除其他記實。這個需要根據現實情況,有時也可能使用把重復記實的統計量相加的方法進行去重。
  轉化不一致記實
  數據的轉化是數據倉庫抽取數據過程中最常見的處理,由于數據倉庫“集成性”的特征,需要把來自多個數據源的數據集中存入數據倉庫,而不同數據源對某些含義相同的字段的編碼規(guī)則會存在差異,好比用戶ID,固然是相同的用戶,但可能A系統的ID是u1001,B系統是1001,C系統是100100,來源于這三套系統的用戶ID就需要同一,好比我們將A數據源的u前綴去除,C系統ID除100后同一成B系統的編碼方式一起導入數據庫;即使是來源于統一套日志,也可能存在記實的不一致,好比之前碰到較早發(fā)布的產品版本記實的日志中移動操縱系統是Android,而版本更新后記實改成了android,新老版本的日志打到了一起,于是也會涉及數據的轉化,但這種記實的不一致性無疑會增加ETL的處理本錢。
  上面舉例的轉化規(guī)則是比較簡樸的,在數據倉庫的ETL處理數據轉化時可能會碰到一些很BT的規(guī)則,這個時候最樞紐的仍是對數據源記實方式足夠的認識,這樣才能保證進入數據倉庫的數據是一致的。最好的做法就是數據倉庫的開發(fā)工程師與其他前臺系統的開發(fā)職員能事先商定一套同一的數據記實和編碼的方式,這樣可以減少后期的協調溝通和轉化處理本錢。
  處理異常數據
  異常數據大部門情況是很難修正的,好比字符編碼等題目引起的亂碼,字符被截斷,異常的數值等,這些異常數據假如沒有規(guī)律可循幾乎不可能被還原,只能將其直接過濾。
  有些數據異常則可以被還原,好比原字符中參雜了一些其他的無用字符,可以使用取子串的方法,用trim函數可以去掉字符串前后的空格等;字符被截斷的情況假如可以使用截斷后字符推導出原完整字符串,那么也可以被還原,好比移動操縱系統的記實一般包括Symbian、Android、iPhone、BlackBerry等,假如某些記實的是And,那么可以被還原成Android,由于其他的移動操縱系統被截斷不可能泛起And這種記實。數值記實中存在異常大或者異常小的值是可以分析是否數值單位差異引起的,好比克和千克差了1000倍,美元和人民幣存在匯率的差異,時間記實可能存在時區(qū)的差異,百分比用的是小于1的小數仍是已經乘了100等等,這些數值的異常可以通過轉化進行處理,數值單位的差異也可以以為是數據的不一致性,或者是某些數值被錯誤的放大或縮小,好比數值后面被多加了幾個0導致了數據的異常。
  最后,總結一下數據可修正的條件:1) 數據質量的題目可以通過Data Auditing的過程被審核出來;2) 數據的題目必需有跡可循,可以通過趨勢進行猜測或者可以通過一些規(guī)則進行轉換還原。否者,對于異常數據只能直接進行刪除丟棄,但進行數據過濾之前必需評估異常記實的比例,當占比過高時需要重新審核原始數據的記實方式是否存在題目。

上一條:網站建設公司中網站建設營...

下一條:一個門戶類網站SEO初期...