一、用戶畫像—計算用戶偏好標簽
下面介紹如何計算用戶的偏好標簽。
在上一篇寫用戶畫像的文章 “用戶畫像—打用戶行為標簽”中,主要講了如何對用戶的每一次操作行為、業務行為進行記錄打上相應的標簽。在這篇博客中,主要講如何對這些明細標簽進行計算以及偏好的產品、內容的類目。
關于用戶標簽權重的計算,在這篇文章里面講過了:
用戶畫像之標簽權重算法
這里再詳細介紹一下:
用戶標簽權重 = 行為類型權重 × 時間衰減 × 用戶行為次數 × TF-IDF計算標簽權重
公式中各參數的釋義如下:
行為類型權重:用戶瀏覽、搜索、收藏、下單、購買等不同行為對用戶而言有著不同的重要性,一般而言操作復雜度越高的行為權重越大。該權重值一般由運營人員或數據分析人員主觀給出;
時間衰減:用戶某些行為受時間影響不斷減弱,行為時間距現在越遠,該行為對用戶當前來說的意義越小;
行為次數:用戶標簽權重按天統計,用戶某天與該標簽產生的行為次數越多,該標簽對用戶的影響越大;
TF-IDF計算標簽權重:每個標簽的對用戶的重要性及該標簽在全體標簽中重要性的乘積得出每個標簽的客觀權重值;
為計算用戶偏好標簽,需要在用戶行為標簽的基礎上計算用戶行為標簽對應的權重值,而后對同類標簽做權重匯總,算出用戶偏好的標簽。關于用戶行為標簽如何打,在這篇博客里面有介紹過了
用戶畫像—打用戶行為標簽
下面介紹如何在用戶行為標簽表的基礎上加工用戶偏好標簽:
1、用戶標簽權重表結構設計
字段定義:
用戶id(user_id):用戶唯一id;
標簽id(tag_id):圖書id;
標簽名稱(tag_name):圖書名稱;
用戶行為次數(cnt):用戶當日產生該標簽的次數,如用戶當日瀏覽一本圖書4次,則記錄4;
行為日期(date_id):產生該條標簽對應日期;
標簽類型(tag_type_id):在本案例中通過與圖書類型表相關聯,取出每本圖書對應的類型,如《鋼鐵是怎么煉成的》對應“名著”;
用戶行為類型(act_type_id):即用戶的購買、瀏覽、評論等操作行為,在本例中通過預設數值1~7來定義用戶對應的行為類型。1:購買行為,2:瀏覽行為,3:評論行為,4:收藏行為,5:取消收藏行為,6:加入購物車行為,7:搜索行為;
2、在用戶行為標簽基礎上加工權重表
加工標簽權重表時,需要根據用戶不同行為對應的權重建立一個權重維表:
向維表中插入數據:
3、對每個用戶偏好的每個標簽加總求權重值,對權重值做倒排序,取top N
二、用戶畫像—數據指標與表結構設計
本段文章介紹一下畫像中需要開發的數據指標與開發過程中表結構的設計。
首先介紹畫像開發的數據指標,畫像開發過程中通用類的指標體系包括用戶屬性類、用戶行為標簽類、用戶活躍時間段類、用戶消費能力類、用戶偏好類等
數據指標體系
用戶屬性指標
用戶屬性指標根據業務數據來源,盡可能全面地描述用戶基礎屬性,這些基礎屬性值是短期內不會有改變的。如年齡、性別、手機號歸屬地、身份證歸屬地等
用戶登錄活躍指標
看用戶近期登錄時間段、登錄時長、登錄頻次、常登陸地等指標
用戶消費能力指標
看用戶的消費金額、消費頻次、最近消費時間。進一步結合用戶登錄活躍情況,可以對用戶做RFM分層。
用戶流失層級
根據用戶的活躍度及消費情況,判斷用戶的流失意向。可及時對有流失趨向的用戶做營銷召回
用戶年齡段劃分
在做營銷活動或站內推送時,可對不同年齡段做針對性運營
用戶行為標簽
記錄用戶在平臺上每一次操作行為,及該次行為所帶來的標簽。后續可根據用戶的行為標簽計算用戶的偏好標簽,做推薦和營銷等活動
表結構設計
對于畫像數據的存儲,除了用戶屬性這種基本上短期不會有變化的數據,其他相關數據的更新頻率一般都比較高,為周更新或日更新
畫像數據更新較為頻繁,通常使用分區來將數據從物理上轉移到離用戶最近的地方。
一般對日期字段進行分區,當然事實上分區是為了優化查詢性能,否則使用數據的用戶也不需要關注這些字段是否分區。
例如說創建一個用戶行為標簽表:
CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);
分區表改變了Hive對數據的存儲方式,如果沒做分區,創建的這個表目錄為:
hdfs://master_server/user/hive/warehouse/userprofile
創建日期分區后,Hive可以更好地反映分區結構子目錄:
hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'
在userprofile表下面,每個日期分區的數據可以存儲截止到當日的全量歷史數據,方便使用者查找。
-
數據分析
+關注
關注
2文章
1461瀏覽量
34166 -
標簽
+關注
關注
0文章
137瀏覽量
17935
原文標題:用戶畫像—計算用戶偏好標簽及數據指標與表結構設計
文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論