數據挖礦工
⑴ 數據挖掘工程師一般都做什麼
數據挖掘工程師是做什麼的?
數據挖掘,從字面上理解,就是在數據中找到有用的東西,哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了,比如電商數據,如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等,進一步,可以基於用戶的瀏覽、點擊、收藏、購買等行為推斷用戶的年齡、性別、購買能力、愛好等能表示一個人的畫像,就相當於用這些挖掘出來的屬性來刻畫一個人,這些還是最簡單的東西,更深層次的比如預測(股票預測),但是比較難。
數據挖掘往往與機器學習離不開。比如分類、聚類、關聯規則挖掘、個性化推薦、預測、神經網路、深度學習等。
數據挖掘 = 業務知識 + 自然語言處理技術( NLP ) + 計算機視覺技術( CV ) + 機器學習 / 深度學習( ML/DL )
( 1 )其中業務知識具體指的是個性化推薦,計算廣告,搜索,互聯網金融等; NLP , CV 分別是處理文本,圖像視頻數據的領域技術,可以理解為是將非結構化數據提取轉換成結構化數據;最後的ml/dl 技術則是屬於模型學習理論;
( 2 )在選擇崗位時,各個公司都沒有一套標準的稱呼,但是所做的事情無非 2 個大方向,一種是主要鑽研某個領域的技術,比如自然語言處理工程師,計算機視覺工程師,機器學習工程師等;一種是將各種領域技術應用到業務場景中去解決業務需求,比如數據挖掘工程師,推薦系統工程師等;具體的稱呼不重要,重要的是平時的工作內容;
PS :在互聯網行業,數據挖掘相關技術應用比較成功的主要是推薦以及計算廣告領域,而其中涉及到的數據主要也是文本,所以 NLP 技術相對來講比較重要,至於 CV 技術主要還是在人工智慧領域(無人車,人臉識別等)應用較多,本人了解有限,相關的描述會較少;
數據挖掘崗位需要具備的3 種基本能力
1. 工程能力
( 1 )編程基礎:需要掌握一大一小兩門語言,大的指 C++ 或者 Java ,小的指 Python 或者 shell 腳本;需要掌握基本的資料庫語言;
建議: MySQL + python + C++ ;語言只是一種工具,看看語法就好;
推薦書籍:《 C++ primer plus 》
( 2 )開發平台: Linux ;
建議:掌握常見的命令,掌握 Linux 下的源碼編譯原理;
推薦書籍:《 Linux 私房菜》
( 3 )數據結構與演算法分析基礎:掌握常見的數據結構以及操作(線性表,隊,列,字元串,樹,圖等),掌握常見的計算機演算法(排序演算法,查找演算法,動態規劃,遞歸等);
建議:多敲代碼,多上 OJ 平台刷題;
推薦書籍:《大話數據結構》《劍指 offer 》
( 4 )海量數據處理平台: Hadoop ( mr 計算模型, java 開發)或者 Spark ( rdd 計算模型, scala開發),重點推薦後者;
建議:主要是會使用,有精力的話可以看看源碼了解集群調度機制之類的;
推薦書籍:《大數據 spark 企業級實戰》
2. 演算法能力
( 1 )數學基礎:概率論,數理統計,線性代數,隨機過程,最優化理論
建議:這些是必須要了解的,即使沒法做到基礎扎實,起碼也要掌握每門學科的理論體系,涉及到相應知識點時通過查閱資料可以做到無障礙理解;
( 2 )機器學習 / 深度學習:掌握 常見的機器學習模型(線性回歸,邏輯回歸, SVM ,感知機;決策樹,隨機森林, GBDT , XGBoost ;貝葉斯, KNN , K-means , EM 等);掌握常見的機器學習理論(過擬合問題,交叉驗證問題,模型選擇問題,模型融合問題等);掌握常見的深度學習模型( CNN ,RNN 等);
建議:這里的掌握指的是能夠熟悉推導公式並能知道模型的適用場景;
推薦書籍:《統計學習方法》《機器學習》《機器學習實戰》《 UFLDL 》
( 3 )自然語言處理:掌握常見的方法( tf-idf , word2vec , LDA );
3. 業務經驗
( 1 )了解推薦以及計算廣告相關知識;
推薦書籍:《推薦系統實踐》《計算廣告》
( 2 )通過參加數據挖掘競賽熟悉相關業務場景,常見的比賽有 Kaggle ,阿里天池, datacastle 等。
想要學習數據挖掘的話可以看一下這篇文章《AI時代就業指南:數據挖掘入門與求職》
⑵ 豆瓣的數據挖掘工程師工資多少
有朋友去了滴滴打車,年薪15(月)乘15(萬),也是研究生,當然也跟個人能力有關,不過這幾個朋友學得都是大數據,浙大畢業,最少的一個月也8000+,但她不滿意這個工資最近辭了,正在找更高薪水的工作,所以我覺得你可以多找些信息。最終要的是還是個人能力,得有一項比較好的技術。這個專業應該挺掙錢的。。。
⑶ 數據分析師和數據挖掘工程師的區別
我們先來了解一下兩者的區別。
一、意義不同
數據分析師 是數據師Datician的一種,指的是不同行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。
演算法(Algorithm)是一系列解決問題的清晰指令,也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。演算法工程師就是利用演算法處理事物的人。
二、薪資不同
數據分析師的職位平均工資大約在¥9086;演算法工程師職位平均工資水平(元/月-稅前)大約在¥1200之上。
數據分析師和演算法工程師哪個難?由上可知演算法工程師比數據分析師要難學。此外,企業對於數據分析師的技能要求很高,具體要求如下:
1、懂業務。
從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
2、懂管理。
一方面是搭建數據分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建數據分析的框架,後續的數據分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
3、懂分析。
指掌握數據分析基本原理與一些有效的數據分析方法,並能靈活運用到實踐工作中,以便有效地開展數據分析。基本的分析方法有:對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。
4、懂工具。
指掌握數據分析相關的常用工具。數據分析方法是理論,而數據分析工具就是實現數據分析方法理論的工具,面對越來越龐大的數據,我們不能依靠計算器進行分析,必須依靠強大的數據分析工具幫我們完成數據分析工作。
5、懂設計。
懂設計是指運用圖表有效表達數據分析師的分析觀點,使分析結果一目瞭然。圖表的設計是門大學問,如圖形的選擇、版式的設計、顏色的搭配等等,都需要掌握一定的設計原則。重要作用。
演算法工程師需要掌握的技能
1. 編程:PYTHON,JAVA,C
2. 數據結構與演算法
3. 機器學習演算法
4. PAPER閱讀能力
5. 造輪子的能力
對於演算法工程師,有別於數據挖掘工程師的第一個區別就是對於傳統的演算法和數據結構的要求。 我自身不是計算機科班出身,在我工作的第一年壓根沒有接觸過這一塊,也從沒打算去學這一塊。 我第一次知道數據結構和演算法的時候是去面試一家英語流利說的公司,當時面試官讓我寫一下斐波那契數列的偽代碼,我聽都沒有聽說過,於是面試官又讓我寫一下如何從一組數列當中最快的尋找出中位數,我依舊不知所措,因為平時都是習慣用函數,還從沒想過真正的實現方式是怎樣的。面試官很疑惑也很遺憾的當場就對我說:我覺得你可能不適合我們的崗位。
數據結構和演算法應該是必備的技能,演算法工程師應該對用常用的知識點有深入理解,能夠在面對不同項目場景的時候靈活選擇數據機構和演算法。
第二點是機器學習演算法,這個地方肯定會比之前的數據挖掘演算法要求高很多。除了常用機器學習演算法能夠手推之外,還要對演算法本身有更深入的思考。我記得我面試阿里的時候面試官拋出這么幾個問題,說如果boosting演算法不使用決策樹,而使用SVM會怎樣,或者說每一輪迭代都使用不同模型,比如第一次是決策樹,第二次是SVM,那麼會怎樣? 還有一個就是logistic regression這些演算法為何沒有使用ada,mone這些方法,能不能用?有什麼優缺點等等。
⑷ 數據分析師和數據挖掘工程的區別是什麼
數據分析師和數據挖掘師差別還是比較明顯的(嚴肅臉),數據分析師更偏向於業務方面的分析,而數據挖掘工程師則更偏向於技術,也就是我們常說的編程。
這就是數據分析師和數據挖掘工程師的區別。但是,無論是數據分析師,還是數據挖掘工程師,本質上就是利用數據,創造價值,這個基本點是不會缺乏的。
⑸ 數據分析師,數據挖掘師,大數據工程師,三者的工作有何區別
1、「數據分析」的重點是觀察數據,而「數據挖掘」的重點是從數據中發現「知識規則」KDD(Knowledge Discover in Database);
2、「數據分析」得出的結論是人的智能活動結果,而「數據挖掘」得出的結論是機器從學習集(或訓練集、樣本集)發現的知識規則;
3、「數據分析」得出結論的運用是人的智力活動,而「數據挖掘」發現的知識規則,可以直接應用到預測。
4、「數據分析」不能建立數學模型,需要人工建模,而「數據挖掘」直接完成了數學建模。如傳統的控制論建模的本質就是描述輸入變數與輸出變數之間的函數關系,「數據挖掘」可以通過機器學習自動建立輸入與輸出的函數關系,根據KDD得出的「規則」,給定一組輸入參數,就可以得出一組輸出量。
⑹ 數據挖掘是什麼工作呢
數據挖掘指的是在長期積累的數據中分析和挖掘有價值的信息以供決策。這個概念主要還是因為ERP(企業資源計劃)和OA(辦公自動化)軟體系統的廣泛使用和發展的基礎上出現的一個概念。因為企業在使用這些軟體系統的過程中,雖然運營的狀態和管理以及成本有很大的節約,大大提高了企業的運營效率,可是這些系統卻只能對企業的狀態和管理進行一個狀態性的記錄,對長期記錄下來的這些數據的分析和在挖掘能力是非常有限的,雖然眾多軟體供應商想出各種辦法來利用其這些數據,比如出各種報表甚至自定義的報表,可是仍然受制於ERP和OA本身設計的缺陷,因為它們原本就不是設計來做數據分析的。 所以在我們的軟體系統實施的過程中,常常看到一個龐大的系統在運行,可是對於領導卻只有每月看一兩張報表的價值。所以,有人提出了數據挖掘的概念,長期使用ERP系統所積攢的數據就好像一大筐蘋果,金蘋果、銀蘋果、爛蘋果都有,而數據挖掘工程師就是專門從中挑選出對企業有用的信息的工作。當然數據挖掘軟體也是專門設計來做這個事情的。
⑺ 數據挖掘一般來說薪水是多少啊
有人說數據挖掘就是早上的陽光 總會有照耀天下的時候, 前途是無限光明的! 這是我在網上幫你找到的一點資料 ,希望對你關心的工資問題有點幫助,薪水是和工作能力有關系的 真的, 就算剛進公司能得到高薪水 要是實際能力差 最後也會被貶值的! 如果有真本事,就不會害怕工資的問題了。所以,你還是加油努力學習吧,提高自己是最大的根本!
全球最大的數據挖掘信息網站KDnuggets現在正進行著一個調查。調查者需要填寫annual income(in US$)/ status and region。共有122份年薪結果和114份工作區域結果(截至2006.3.6 16:32:00)調查結果見下圖。http://blog.csdn.net/kdnuggets/archive/2006/03/06/617025.aspx
從區域調查結果可以顯示現有的數據挖掘從業人員大多集中在北美和西歐(填寫區域信息一共114人次,其中北美和西歐一共87人次,佔76.3%;北美63人次,佔55.3%;其他地區的都不到10%。圖中顯示的結果與這里的計算有些不同),其他地區的從業人員比較少。數據挖掘起源於美國,現有的研究比其他地方都要先進很多年,到現在國內的一些研究比以前有很大改觀,國內的數據挖掘研究者在高檔國際會議上文章的發表量在逐年在增加,但是相比而言還是有很大差距。國內的應用更加滯後。美國FBI,CIA已經使用這種技術來進行反恐(
C
⑻ 數據挖掘工作的要求是什麼
數據挖掘工作是一個要求比較高的工作,這是由於數據挖掘是為數據服務的,因此必須做到萬無一失才能使得結果符合真正的客觀實際,那麼數據挖掘工作的要求都有哪些呢?下面我們就給大家解答一下這個問題。
首先我們給大家講一講對數據的要求。由於大多運營商現有的面向事物的數據在質量、完整性和一致性方面存在很多問題,因此在利用這些數據進行數據挖掘之前,必須先對其進行抽取、凈化和處理。
那麼數據挖掘工作對人員素質的要求是什麼呢?統計數據挖掘分析系統必須與實際緊密相聯,在數據挖掘的多個環節中,都要求使用和分析人員不光具備數據挖掘的相關知識,還必須有對企業經營管理流程和行業背景的深刻理解。統計數據挖掘存在較長的應用周期,數據挖掘所發現的知識和規則必須讓決策者理解並採納,才能將知識轉化為生產力,並通過實踐不斷檢驗和完善數據挖掘所產生的模型和規則,以使模型更具實用價值。
就目前而言,正隨著社會經濟的日益發展和改革的不斷深入,無論是各級政府,還是社會公眾對統計工作的要求越來越高。因此,作為統計工作的重要組成部分的統計分析工作,也必須跟上時代發展的步伐,切忌時效性和針對性不強、數字文字化、結構不嚴謹等問題,那麼如何解決或避免出現這些類似的問題呢?具體的要求就是下面的內容。
第一就是堅持實事求是的原則要發揮統計分析的作用,很重要的一條就是要堅持實事求是的原則,如實反映情況,否則,統計服務、統計監督都只會成為一句空話。要如實反映情況。第二就是統計數字要准確,統計分析是用統計數字做為主要依據的,只有正確的統計數字,才有可能得出符合實際的結論。第三就是要尊重客觀實際,切忌主觀臆斷,要有全局觀點,切忌片面性,統計信息要具有代表性,能反映社會經濟運動本質特徵及其變化。第四就是緊扣社會和經濟發展的主旋律,突出時代特色由於統計分析的主要服務對象是各級黨政領導,因此,統計分析在立意和內容方面,必須牢牢把握社會經濟發展的主流,緊緊圍繞黨和政府的中心工作開展分析。
通過這篇文章我們給大家介紹了數據挖掘工作的要求的相關內容。數據挖掘是一項對從業人員的素質有超高要求的工作,正是由於這些要求,數據挖掘工作才有了很大的進展,只有滿足了這些要求,我們才能夠做好數據挖掘工作。
⑼ 數據分析師和數據挖掘工程師的區別是什麼
數據分析師崗位重在「分析」,數據挖掘工程師崗位重點是要「挖掘」。
⑽ 數據挖掘工程師是干什麼的
數據挖掘指的是在長期積累的數據中分析和挖掘有價值的信息以供決策。
這個概念主要還是因為ERP(企業資源計劃)和OA(辦公自動化)軟體系統的廣泛使用和發展的基礎上出現的一個概念。因為企業在使用這些軟體系統的過程中,雖然運營的狀態和管理以及成本有很大的節約,大大提高了企業的運營效率,可是這些系統卻只能對企業的狀態和管理進行一個狀態性的記錄,對長期記錄下來的這些數據的分析和在挖掘能力是非常有限的,雖然眾多軟體供應商想出各種辦法來利用其這些數據,比如出各種報表甚至自定義的報表,可是仍然受制於ERP和OA本身設計的缺陷,因為它們原本就不是設計來做數據分析的。