色综合老司机第九色激情 _中文字幕日韩av资源站_国产+人+亚洲_久久久精品影院_久久久视频免费观看_欧美激情亚洲自拍_亚洲成av人片在线观看香蕉_热草久综合在线_欧美极品第一页_2020国产精品自拍

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > 大數(shù)據(jù)面試題:用戶畫像、推薦系統(tǒng)、Flink實時數(shù)倉、準實時數(shù)倉中常見問題都有什么?

大數(shù)據(jù)面試題:用戶畫像、推薦系統(tǒng)、Flink實時數(shù)倉、準實時數(shù)倉中常見問題都有什么?

來源:千鋒教育
發(fā)布人:syq
時間: 2022-06-29 16:24:20 1656491060

  用戶畫像、推薦系統(tǒng)、Flink實時數(shù)倉、準實時數(shù)倉中,遇到的棘手的問題都有什么?

  用戶畫像

  1. 我們在選擇如何存儲用戶標簽時,遇到了問題(標簽查詢速度慢,并且構建不夠靈活,標簽更新和刪除比較麻煩),比如之前用HDFS或者ES存儲,后來切換為ClikcHouse,并用BitMap存儲,原因如下

  針對標簽的表示形式,存儲方式有很多,結構為`寬表,BitMap` 都可以,存儲選擇`HDFS,ES,ClickHouse 等` 也都可以,需要衡量的有兩點`1.標簽構建的靈活性和構建速度 2.標簽的查詢效率 ` `HDFS [Presot,Impala]:` 標簽的增加,刪除,更新不友好, 一個小變動,要重寫整個`Parquet`, 寫放大問題。 查詢效率還可以,但是不夠優(yōu)秀。 支持查詢并發(fā)較小。 `ES:`標簽的構建的寫入速度一般, 新增和修改標簽需要對ES文檔結構更新,ES的DSL語法不友好,有一定學習成本。查詢效率還算優(yōu)秀,同時支持高并發(fā)。 ES資源占用高,需要較好的硬件配置。 `ClickHouse[BitMap]` 標簽可以并行構建,查詢效率優(yōu)秀,標簽的增加非常方便,標簽的更新和刪除可以實現(xiàn),但是并不高效,并發(fā)查詢支持比Presto,Impala要好,但同樣不支持高并發(fā),能夠滿足大部分場景需求。注意兩點`1. BitMap存儲的是用戶ID 2. BitMap使用了RoaringBitMap, 解決BitMap空間占用問題,不然1億這一個數(shù)也要占用11.9M空間`

  2. 如何構建用戶的稠密向量的問題

  如果我們直接將用戶的標簽轉換為稀疏向量來存儲,對于類別標簽使用`one-hot`編碼,但這樣會出現(xiàn)維度爆炸的問題,向量過于稀疏,向量之間的余弦相似度計算結果基本沒有意義,根本無法實現(xiàn)用戶相似度的計算。所以就開始思考如何將用戶表示為轉換為稠密向量,經(jīng)過調(diào)研發(fā)現(xiàn),Word2Vec可以將詞轉換為稠密向量,同時借助Word2Vec思想,也可以將物品轉換為向量Item2Vec,比如將一個Session內(nèi),用戶購買的物品或者點擊的物品列表,看成是一句話,每個物品看成是一個單詞,就可以借助Word2Vec的思想將物品轉換為稠密向量表示。(這里注意如果是文章,可以使用分詞,然后抽取關鍵詞,將詞通過Word2Vec轉換為向量的方式) ,我們再將用戶點擊或者購買的物品列表中物品向量加和求平均,就可以得到用戶的稠密向量。后來發(fā)現(xiàn)通過ALS模型`矩陣分解`的方式也可以得到用戶的稠密向量,兩者`表達的用戶向量含義`是不同的,一個是有濃重的物品屬性特征的,一個是有協(xié)同特征的向量。但是都可以作為用戶的向量表示方式。

大數(shù)據(jù)面試題

  推薦系統(tǒng)

  1. SparkML Pipline 訓練模型通過PMML跨平臺部署時字符串轉向量的問題

  由于我們通過Pipline訓練出來的排序模型,模型的輸入是之前存入HBase中向量(用戶和物品)字符串,當我們使用`jpmml-sparkml` 這個類庫去生成PMML模型,進行擴平臺部署時,發(fā)現(xiàn)無法正常生成PMML。 原因是因為對于字符串轉向量這種`transformer操作` jpmml沒有支持,我們參照jpmml源碼的實現(xiàn)方式,做了自定義transformer的實現(xiàn)。原理是先自定義一個Spark ML的transform,然后再擴展一個jpmml對應的converter即可。

  2. 特征向量Load到HBase慢的問題

  我們構建出來的用戶特征向量和物品特征向量,最終是存儲到HBase中的,最初是使用HBase API寫入數(shù)據(jù),但是太慢了,整個數(shù)據(jù)的寫入要耗費5~6個小時,之后我們`使用了bulkLoad的方式`,直接通過使用Spark生成將數(shù)據(jù)`生成HFile文件`寫入到HDFS,然后使用blukLoad直接生成好的HFile文件mv過去即可,15分鐘完成。 更具體點,首先我們把我們將要寫入hbase的rdd,按照設定的行鍵排序,之后將行鍵和值構造一個HFile的KeyValue結構,設定outputformat 為HFileOutputFormat2,將生成的hfile數(shù)據(jù)寫入到hdfs,之后通過doBulkLoad方法將寫到HDFS上hfile數(shù)據(jù)移動到hbase目錄中。(這些項目的代碼中都有)

  3. 多路召回結果如何如何統(tǒng)一排序的問題

  因為我們采用了多種召回算法,比如ItemCF,ALS, 基于熱門,基于地域 等召回算法。 沒有召回算發(fā)的結果集我們是無法直接排序的,因為各個召回算法表達的含義是不同的,最開始不知道該怎么做,因此就是各個召回算法設定一個人為比例去取。 之后學習了解到可以加`一個排序模型`做這個事情,原理就是用戶向量和物品向量作為基礎特征,用戶是否點擊物品作為標簽,訓練一個排序模型(LR),只有將各路召回策略輸入排序模型重新排序即可。 # 注意如果你同時說1,3問題,注意順序

  數(shù)倉問題

  1. Flink Watermark激增的問題

  參考:http://coder.yihongyeyan.com/question/7, `里面有watermark 激增的場景說明`。從這上面的我舉的例子,你應該知道這種情況發(fā)生的原因,是因為我們抽取事件事件直接減去延遲時間造成,解決方式就是我們再抽取watermark時,判斷一下事件中的時間和上次watermark的時間,如果兩者時間相差很大,我們就不更新watermark或者將watermark加上一個小值就可以了,一般選擇不更新。

  2. 實時作業(yè)和離線作業(yè)的資源競爭問題

  因為我們統(tǒng)一用Yarn做資源調(diào)度,實時作業(yè)Flink(Spark Streaming)和離線作業(yè)會調(diào)度到同一個機器上,集群相對空閑時沒什么問題,但是當集群負載較高時,尤其是晚上大批離線任務啟動,就會造成我們實時作業(yè)的某些Container所在機器負載過高,同時我們實時作業(yè)中如果有重計算邏輯,F(xiàn)link計算不過來,背壓產(chǎn)生,Kafka消費延遲,數(shù)據(jù)積壓。解決這個問題的方法是,YARN Label,給YARN管理的機器打上標簽,離線和實時分開,提交作業(yè)時指定Lable。

  3. 實時作業(yè)調(diào)度集中的問題

  問題產(chǎn)生的背景是,當提交一個作業(yè)時(Flink,Spark),作業(yè)不大,YARN上申請10個Container,發(fā)現(xiàn)10個Container都調(diào)度到一個節(jié)點上,或者大部分調(diào)度到一個節(jié)點上,幾個調(diào)度到另一個節(jié)點,資源分配傾斜。 這樣造成如果我的作業(yè)是一個重計算的作業(yè),10Container都在一個節(jié)點上,CPU load過高,計算延遲。 當時出現(xiàn)這個問題,比較苦惱,不知道什么原因,也沒有search到解決方案,最后只能去看源碼了(我們用的是Fair調(diào)度器),發(fā)現(xiàn)Container的分配策略是在一個NodeManger心跳中盡可能多的分配Container,這是為了提升調(diào)度的吞吐,但是源碼中有參數(shù)可以控制,是否一個心跳允許分配多個Container,以及一次心跳最大分配多少個Container給當前的NodeManager.這個參數(shù)Yarn已經(jīng)暴露給用戶了`yarn.scheduler.fair.assignmultiple` 默認是true。`yarn.scheduler.fair.max.assign` 默認是-1,就是無限制。 解決的方式是`yarn.scheduler.fair.max.assign` 設置為一個較小的值,比如2.

  更多關于大數(shù)據(jù)培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經(jīng)驗,采用全程面授高品質(zhì)、高體驗培養(yǎng)模式,擁有國內(nèi)一體化教學管理及學員服務,助力更多學員實現(xiàn)高薪夢想。

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經(jīng)許可不得擅自轉載。
10年以上業(yè)內(nèi)強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內(nèi)將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
色综合老司机第九色激情 _中文字幕日韩av资源站_国产+人+亚洲_久久久精品影院_久久久视频免费观看_欧美激情亚洲自拍_亚洲成av人片在线观看香蕉_热草久综合在线_欧美极品第一页_2020国产精品自拍
毛片不卡一区二区| 欧美一区二区三区人| 精品亚洲免费视频| 日韩电影免费在线| 精品成人在线观看| 99久久久精品免费观看国产蜜| 自拍偷拍亚洲欧美日韩| 欧美男人的天堂一二区| 蜜臀av在线播放一区二区三区| 日韩成人精品在线观看| 日韩一区二区免费高清| 成人免费观看视频| 亚洲成在线观看| 欧美一区永久视频免费观看| 国产综合色精品一区二区三区| 国产精品天天看| 奇米777欧美一区二区| 精品国产第一区二区三区观看体验 | 亚洲色图在线视频| 国产拍欧美日韩视频二区| 成人免费毛片高清视频| 久久99精品国产麻豆婷婷洗澡| 亚洲色欲色欲www在线观看| 中文字幕高清不卡| 久久精品日产第一区二区三区高清版| 欧美亚洲国产一区在线观看网站| 波多野结衣在线一区| 国产99久久精品| 91蜜桃婷婷狠狠久久综合9色| 日本伦理一区二区| 欧美午夜视频网站| 欧美一级日韩免费不卡| 国产精品久久久久7777按摩| 亚洲精选在线视频| 国产精品久久久久久久浪潮网站 | 精品国产三级电影在线观看| 狠狠色丁香婷婷综合久久片| 欧美日韩不卡一区| 国产高清一区日本| 99国产精品国产精品久久| 人妖欧美一区二区| 欧美一级日韩免费不卡| 成人理论电影网| 日韩电影在线一区二区三区| 成人性生交大片免费看在线播放| 欧美日韩一区不卡| 午夜成人免费电影| 中文字幕不卡三区| 91极品视觉盛宴| 国产69精品久久久久777| 日韩av中文在线观看| 精品理论电影在线观看 | 中文av一区特黄| 亚洲成在人线免费| 97久久久精品综合88久久| 久久综合网色—综合色88| 日韩情涩欧美日韩视频| 亚洲丝袜制服诱惑| 久久精品久久久精品美女| 成人亚洲一区二区一| 99re在线视频这里只有精品| 天堂精品中文字幕在线| 亚洲欧洲性图库| 国产精品久久久久久久久搜平片| 在线亚洲一区观看| 中文字幕av一区二区三区| 亚洲成人免费视| 91色乱码一区二区三区| 亚洲精品日日夜夜| 久久99国产精品免费网站| 欧美日韩成人激情| 国产一区二区三区日韩| 国产精品嫩草99a| 麻豆成人免费电影| 欧美一区二区三区视频在线| 日韩在线观看一区二区| 成人免费一区二区三区视频| 日本乱人伦一区| 国产盗摄精品一区二区三区在线| 中文文精品字幕一区二区| 天堂一区二区在线| 亚洲午夜久久久久中文字幕久| 国产亚洲综合在线| 久久亚洲精精品中文字幕早川悠里| 欧美视频在线不卡| 中文字幕在线不卡国产视频| 久久丁香综合五月国产三级网站| 欧美国产在线观看| 日韩精品中午字幕| 久久精品视频一区二区三区| 国产精品区一区二区三区| 一二三区精品福利视频| 亚洲aⅴ怡春院| 国产精品小仙女| 懂色av一区二区三区蜜臀| 成人av在线播放网址| 亚洲精品视频一区二区| 亚洲成人第一页| 国产剧情一区二区三区| 色综合久久久久久久久久久| 欧美美女一区二区在线观看| 国产免费成人在线视频| 天天av天天翘天天综合网| 国产凹凸在线观看一区二区| 91麻豆精品久久久久蜜臀| 国产欧美精品一区二区色综合朱莉| 一区二区日韩av| 91国产精品成人| 一二三区精品视频| 国产69精品久久777的优势| 7777精品伊人久久久大香线蕉| 日韩亚洲欧美中文三级| 亚洲蜜臀av乱码久久精品蜜桃| 六月丁香综合在线视频| 欧美视频一区二区在线观看| 亚洲欧美综合另类在线卡通| 日韩av一二三| 国产午夜一区二区三区| 精品亚洲国产成人av制服丝袜 | 麻豆精品在线视频| 欧美美女喷水视频| 日韩在线观看一区二区| 欧美日韩1区2区| 国产自产v一区二区三区c| 欧美国产一区视频在线观看| 91在线云播放| 三级不卡在线观看| 国产精品丝袜黑色高跟| 欧美日本在线观看| 成人黄色网址在线观看| 午夜精品久久久久久久蜜桃app| 欧美一级黄色大片| 9色porny自拍视频一区二区| 亚洲欧洲www| 韩国成人福利片在线播放| 婷婷激情综合网| 激情综合网av| 91麻豆精品国产91久久久使用方法| 91.com视频| 国产精品久久毛片av大全日韩| 亚洲线精品一区二区三区八戒| 日韩黄色免费网站| 男人的j进女人的j一区| 国产真实乱偷精品视频免| 亚洲码国产岛国毛片在线| 亚洲摸摸操操av| 色国产精品一区在线观看| 日本亚洲免费观看| 91美女在线观看| 麻豆91在线看| 精品精品欲导航| 99久久久精品| 美国一区二区三区在线播放| 国产精品久久久久精k8| 日韩三级.com| 高清免费成人av| 91国偷自产一区二区使用方法| 亚洲免费在线电影| 国产精品99久久久久久久vr| 成人激情动漫在线观看| 欧美色中文字幕| 五月激情综合色| 欧美日韩亚洲综合一区二区三区| 日韩一级黄色片| 精品一区精品二区高清| 欧美精品粉嫩高潮一区二区| 国产亚洲欧美中文| 日韩福利视频网| 26uuu另类欧美亚洲曰本| 久久综合久久综合久久综合| 国产成都精品91一区二区三| 国产精品色呦呦| 91精品欧美一区二区三区综合在 | 六月婷婷色综合| 日产国产高清一区二区三区| 亚洲综合在线视频| 久久先锋资源网| 91精品国产手机| 久久视频一区二区| 亚洲自拍偷拍图区| 奇米精品一区二区三区四区| 精品一区二区三区蜜桃| 欧美妇女性影城| 精品99999| 欧美一区二区美女| 久久精品国产亚洲一区二区三区| 国产麻豆精品一区二区| 欧美sm美女调教| 国产成人精品亚洲日本在线桃色| 国产亚洲精品免费| 欧美一区二区三区视频免费播放| 日韩va欧美va亚洲va久久| 久久一二三国产| 色狠狠av一区二区三区| 狠狠色丁香婷综合久久| 亚洲一区二区三区中文字幕在线| 精品国产乱码久久久久久牛牛| 不卡一二三区首页| 懂色av中文字幕一区二区三区| 美国毛片一区二区|