跳到主內容

收集數據前,你想過要用它來幹嘛了嗎?

【好文分享】

好文分享收集數據前,你想過要用它來幹嘛了嗎?一文解析「養數據」與「用數據」之間的差異

【好文分享】收集數據前,你想過要用它來幹嘛了嗎?


收集數據前,你想過要用它來幹嘛了嗎?一文解析「養數據」與「用數據」之間的差異


【我們為什麼挑選這本書】「養數據」跟「收集數據」不一樣,因為養數據有一個重要的含義,
就是要決定收集哪些數據,而非有什麼數據就收集什麼數據。
在《大數據的關鍵思考》一書中,作者詳細闡述了「養數據」跟「收集數據」之間的差異,
並且強調「養數據」是基於深入業務理解更高層次的商業決策,如果企業成功養好數據,
則會產生非常大的商業價值。(責任編輯:陳美羽)

過去,有一些問題一直困擾著我:「現在的企業獲取數據如此容易,數據的增長速度如此之快,
那麼對於企業來說,到底要收集什麼樣的數據?收集多少數據?收集數據的邊界在哪裡?」

後來,我在美國遇到一位高人,他認為,過去收集數據很難,而現在獲取數據資源變得愈來愈容易,
但是如果收集數據的出發點不是為了解決問題,那麼收集再多的數據也沒有意義。

同時,許多企業還有一個疑問:「現在收集數據不難,成本也不高,為什麼不先收集了數據再說呢?
等以後需要數據解決問題時,再拿出來用不是也可以嗎?」
這位高人同樣也給出了答案,他否定此觀點,並指出用這樣的理念設計數據應用注定會失敗。

精確的數據不一定能產生價值,因為數據有生命週期

數據收集沒有邊界,我為此也痛苦了好一段日子。
比如收集一個人的生日,雖然可以精確到幾分幾秒,但這麼精確的數據又能用在什麼領域,產生什麼價值?

事實上,數據是有生命週期的。
例如:某網站的婦幼類別,在主動收集使用者的寶寶資訊,包含寶寶生日、性別、小名、身高、體重。
我們就必須清楚這幾個數據的用途和生命週期,如:寶寶的身高和體重。

但是,媽媽填寫的是寶寶當前的數據,然而寶寶的身高、體重變化非常快,
這兩個數據的生命週期很短,在當時的推薦中可能有用,
但過了一段時間後,這兩個數據就失效(data broken)了;
而寶寶生日和性別這兩個數據的生命週期就很長,
可以從生日的年分推算出寶寶的年齡,而性別基本上是終生穩定的。

保存數據及其收集時的背景(context),也是一件不容易的事情。
仍以收集寶寶的年齡作為例子,我們可以透過使用者購買特定的商品集合,
如:適合不同年齡層的奶粉和尿布型號等,知道寶寶大概所處的年齡,以推算寶寶目前的年齡。

但如果僅僅是保存寶寶年齡這個數據,此數據很快也會失效,因為人的年齡不斷變化。
同時,你還需要保存寶寶年齡數據的獲得時間,即在哪年哪月計算得知這個寶寶的年齡,這個資訊就是背景數據。
另一種更加聰明的做法,即透過寶寶現在的年齡,反過來推算寶寶是什麼時候出生。

所以,在收集數據時,我們必須知道這些數據未來可以用來做什麼,
如果今天想像不出來,日後就更不可能了。

數據收集要因應背景而變

舉例來說,很多電商高階主管會詢問數據分析師,商品的重複購買率是多少。
於是,工作人員收集數據計算重複購買率,卻很少想到高階主管需要重複購買率是為了做什麼決定,
這就如同刻舟求劍的故事。

事實上,在變化多端的大數據時代,我們不能只是機械的套用方法或指標。
重複購買率有不同的定義,而做不同的決策,需要考慮不同定義的重複購買率。

如果一家投資公司想收購 A 公司,就會從重複購買率看 A 公司整體營運優劣或用戶品質等;
如果從 A 公司營運的角度來看重複購買率,那麼它更應該關注的是日、週級別的重複購買率變化趨勢,
或者當月新增客戶,有多少人在三個月後重複購買,從而衡量出每個月新增及原有客戶的忠誠度和品質,
進而找出改善的空間。

在知道了以上的背景之後,再去選擇使用什麼數據,不是更加準確嗎?

數據應用因小而美

2011 年年底,作為一名數據分析師,我開始思考怎麼從「用數據」轉變為「養數據」(即從數據化營運轉變為營運數據),
這段時間我特別煩惱該收集什麼樣的數據。

而且,我也曾試圖做出一個特別大且適合多數人使用的數據應用,
但後來發現,這在數據應用的起步階段幾乎是不可能的,因為要找到可以解決大部分需求的數據應用並不容易;
再者是當時公司的數據非常豐富,需要考慮的因素很多,因素之間的聯繫又很複雜。

所以,當開發數據應用時,數據就等於原料;
當原料一直處於變化的情況下,做出來的產品就很容易產生問題。
體會到數據和應用的關係之後,我最後決定從小角度切入,
先把小應用做出來,這就是很好的標靶。

「小」代表應用目標很具體,而非數據量

這裡說的「小」,指得是應用的目標很具體。請注意,「小」不是指數據量。
許多人在沒有獲取足夠的數據,且缺乏對數據理解的情況下做出決策,
其實是在「享受」自己的無知。

譬如:對於一款數據應用,如果我的目的是分辨兩種決策誰更好以及差異在哪裡,這就是很具體的問題;
但如果我的目標是想知道如何讓公司獲利,這就是一個空泛的目標。

經過一番周折後,按照小角度切入的想法設計數據應用,就可以做得具體而快速,
而且可以避免因原料的變化而導致數據缺失的問題。

「養」數據與「收集」數據的差別

「養數據」還有一個重要含義,就是要決定收集哪些數據。
這個決定不容忽視,因為這可能是公司數據戰略中非常重要的環節。

因為,很多公司的做法,是有什麼數據就收集什麼數據,完全沒有主動性,
如此會遇到的一個核心問題 —— 公司自主思考的能力開始喪失,對該收集什麼樣的數據並不了解。

在我看來,被動收集數據的行為是「收集」,而主動收集數據的行為則是「養數據」。
再拿上述的某電商婦幼類別為例,如果收集主體是一家醫院,寶寶的姓名、性別、出生年月和媽媽的姓名等數據的收集,
就是收集數據,因為在住院檔案和出生證明上,這些都是不可少的。

但是,如果是婦幼用品品牌要針對家庭行銷,這些資訊顯然不足,
寶寶奶粉的品牌、家庭收入、職業等資訊,則需要企業主動收集,
這些數據也就是「養」出來的數據。

兩種「養數據」的戰略

養數據通常有兩類,一類是網站自身沒有的數據,需要使用者主動提供;
另一類是公司擁有但沒有收集的數據。

▌收集網站自身沒有的數據:透過互動了解消費者喜好

若要收集公司沒有的數據,在養數據時,通常需要花費更多的精力和技巧。
例如:現在國內、外有很多個性化的手機購物應用程式,會根據使用者的偏好推薦商品,
讓每個人都有完全不一樣的購物體驗。

具體的運作原理是,當用戶第一次使用這些應用程式時,介面中會彈出一些問題,以互動的方式收集使用者的資訊數據,
例如:出幾款衣服,讓用戶挑選喜歡哪一款。
這樣,在幾個問題之後,應用程式就知道用戶的喜好了。

這類應用通常還有另一個特點,即讓用戶點「讚」,點讚的功能,就是讓用戶明確的告訴應用程式自己喜歡什麼,
如此一來,用戶就可以在過程中,不斷透露自己的偏好,應用程式就可以養出使用者的核心數據。

▌收集公司擁有但沒被收集的數據:透過記錄數據與用戶建立社交關係

對於公司有數據但沒有收集的狀況,則更多是因為內部資源協調和公司決策的問題。

很多提供餐飲和團購資訊的網站,通常有一個功能是「把資訊透過簡訊發送到手機」,
這樣就不需要使用者特別記錄,不過有些網站會記錄使用者的手機號碼,有些網站不會。

那麼,這些手機號碼需不需要企業存下來呢?
這就是一個與業務決定和資源協調的相關問題,
如果決定記錄,則需要開發人員在後台優化功能,
如果不記錄,就會遺失這部分資訊。

我的想法當然是記錄這些數據,也就是養數據,
因為,這不僅能夠檢驗用戶的手機號碼是否有效,還能夠慢慢建立企業與用戶的社交關係。

養數據是一種管理和商業藝術

總之,「用數據」更多的是一種方法論,而「養數據」則是一種數據戰略,
是基於深入業務理解的更高層次商業決策,數據養得時間愈早,累積的數據也愈多。

養數據同樣也是一種管理和商業藝術,在養之前可能誰也不確定最終會出現什麼結果,
但一旦養成,則會產生非常大的商業價值。

(本文書摘內容出自《大數據的關鍵思考》。