1. <output id="dttpj"></output>
          <output id="dttpj"></output>

          ×
          支持199IT發展可加入知識交流群(4000+用戶),最有價值數據分享和討論!
          點擊即可加入!
          關閉

          數據科學新人需要知道的13個雷區

          引言
          看來你已經決定要進入數據科學這個領域了。數據正在驅動越來越多的業務,世界的聯系正在變得越來越緊密,似乎每個業務都需要數據科學實踐。因此,對數據科學家的需求是巨大的。更好的是,所有人都承認這個行業的人才短缺。

          然而成為一名數據科學家并不容易。需要擁有解決問題的能力、結構化思維、編碼和各種技術技能才能真正獲得成功。如果您并非技術或數學背景,那么通過書籍和視頻課程來學習是很好的方式。但是大多數這類資源不會教你行業內需要什么樣的數據科學家。

          這就是胸懷抱負的數據科學家努力縮小自我教育與實際工作之間差距的原因之一。

          本文將討論數據科學愛好者常犯的一些錯誤(包括我自己都曾經犯過),我也會提供一些資源幫助你避開數據科學之旅上的陷阱。

          01
          只學習理論概念,但不應用

          圖片來源:cognitive class-YouTube

          就像我之前提到過的一樣,掌握機器學習技術背后的理論是非常好的,但是如果你不去應用它們,它們就僅僅是理論概念。當我開始學習數據科學的時候犯了同樣的錯誤,我學習書本知識和在線課程,但卻沒有應用它們去解決問題。

          所以當我有機會應用我所學的知識去解決挑戰或問題時,幾乎一大半我都不記得了!要學的東西太多了,算法、推導、研究論文等等等等。你有很高的幾率失去動力然后半途放棄。我本人見證過許許多多想進入這個領域的人都是這樣。

          如何避免?

          學習過程中保持理論和實踐之間健康的平衡是非常必要的。只要學習了一個概念,請立即Google一下找到可以應用它的數據集或問題。你會發現你比以前更好地吸收了這種概念。

          你必須承認所有東西是不可能一次性學完的。一邊練習一邊填補空白,將會學到更多東西!

          02
          不了解原理或概念直接進行機器學習

          圖片來源:倫敦帝國理工學院 – YouTube

          大部分想成為數據科學家的人是看到了機器學習的相關視頻,或一個超級棒的預測模型,抑或是高薪的吸引,然而,想要成為你看到的樣子,還需要走很長的路。

          在將技術應用到問題之前,你應該先了解它的工作原理。這將有助于了解算法的工作原理,以及做些什么可以對其進行微調,還可以幫助你構建現有技術。數學在這里發揮著重要作用,因此了解某些概念總是有幫助的。在日常的企業數據科學家角色中,您可能不需要了解高級微積分,但有高級的整體認識肯定是有幫助的。

          如果您有一個好奇的想法,或想要進入研究角色,在開始進行核心機器學習之前,您需要了解的四個關鍵概念是:

          • 線性代數
          • 微積分
          • 統計
          • 概率
          如何避免?

          正如房子是一磚一瓦建造的,數據科學家也是所有單個部件的總和。有大量的資源可以幫助學習這些主題。下面列出一些資源,可以幫助您入門:

          • 數據科學家線性代數綜合入門指南
          • 可汗學院的微積分課程

          https://www.khanacademy.org/math/calculus-home

          • 通過實例解釋數據科學概率的基礎知識
          03
          僅依賴認證和學位

          圖片來源:CIO.com

          這也是招聘人員的煩惱。自從數據科學變得非常受歡迎以來,到處都有認證和學位。我在LinkedIn上看了一下,至少展示了5張認證的圖片。雖然獲得認證并不容易,但只依賴認證是一種災難。

          許許多多的胸懷抱負的數據科學家被大多數在線課程傾倒并且完成學習。如果他們為你的數據科學簡歷添加了一個獨特的價值,那就沒問題了。但是招聘人員并不關心這些考試?– 他們更看重你的知識,以及你如何在實際工作中應用。

          這是因為與客戶打交道,處理截止日期,了解數據科學項目生命周期如何工作,如何設計模型以適應現有業務框架等等,這些都是作為數據科學家所需要了解的事項。只是認證或學位無法認證你這方面的能力。

          如何避免?

          不要誤解我的意思。認證是很有價值的,但只有當你將這些知識應用到課堂之外并將其公之于眾的時候才有價值。使用真實世界的數據集和做任何分析,都把它們寫下來。比如創建自己的博客,在LinkedIn上發布,并征求社區的反饋意見。這表明您愿意學習并且足夠靈活,可以征求建議并將其用于您的項目。

          應該對實習的想法持開放態度。實習中你將了解數據科學團隊如何工作,這將使您在參加另一次面試時受益。

          如果您正在尋找項目,我們有一個很棒的,按照難度劃分的項目列表

          04
          以為機器學習競賽和實際工作相同

          這是有胸懷抱負的數據科學家進來最大的誤解之一。比賽和黑客松為我們提供了干凈規整的數據集。你下載它們并處理這些問題。即使那些具有缺失值列的數據集也不需要花費腦細胞 – 只需要查找補充缺失值即可。

          不幸的是,現實世界的項目并不是這樣的。會有一個端到端的數據管道,涉及與一群人合作。你幾乎總是要處理混亂的臟數據。關于花費70-80%的時間來整理和清洗數據的傳說是真的。這是一個令人精疲力竭的工作,你很大可能不喜歡,但它最終會成為例行公事。

          此外,我們將在下一點更詳細地介紹,更簡單的模型將優先于任何復雜的堆疊集合模型。準確性并不總是最終目標,這是您在工作中將學到的最具對比性的事情之一。

          如何避免?

          諷刺的是,消除誤解的關鍵因素之一是經驗。你獲得的經驗越多(實習在這種情況下有很多幫助),你就能越好地區分兩者。這就是社交媒體派上用場的地方 – 與數據科學家聯系并詢問他們的經驗。

          另外,我建議這個Quora問題(鏈接在下方),來自世界各地的數據科學家就這個確切的問題提供他們的意見。在競賽排行榜上取得好成績非常適合衡量你的學習過程,但是面試官想知道的是你如何優化算法達到效果,而不是提高準確性。了解數據科學項目的工作原理,團隊所擁有的不同類型的角色都是什么(從數據工程師到數據架構師),以及在這種意義下的答案。

          Quora

          https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do

          LinkedIn文章,解釋了分析模型的標準方法

          https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post

          05
          在領域中對模型準確性的關注超過了適用性和可解釋性

          圖片來源:Design Shack

          如上所述,準確性并非總是業務的目標。當然,一個能夠以95%的準確度預測貸款違約的模型是非常好的,但是如果你無法解釋模型是如何實現的,哪些特征實現了它,以及你在構建模型時的思路,你的客戶會拒絕這個模型。

          你很少會發現在商業應用中使用的深度神經網絡。向客戶解釋清楚神經網絡(更不用說深層)如何與隱藏層,卷積層等一起工作是不可能的。首要偏好,并且通常情況下,是永遠確保我們能夠理解模型背后正在發生的事情。如果您無法判斷年齡,家庭成員數量或之前的信用記錄是否涉及拒絕貸款申請,該業務將如何運作?

          另一個關鍵是你的模型是否適合企業現有框架。如果生產環境無法支持,使用10種不同類型的工具和庫都會失敗。您將不得不采用更簡單的方法從頭開始重新設計和重新訓練模型。

          如何避免?

          避免自己犯這個錯誤的最佳方法是與業內人士交流。沒有比經驗更好的老師。選擇一個領域(財務,人力資源,營銷,銷售,運營等),與人溝通了解他們的項目如何運作。

          除此之外,練習制作更簡單的模型,然后向非技術人員解釋。接著增加模型的復雜性并繼續想非技術人員解釋,直到你不知道接下來發生了什么為止。這將指點你何時該停止,以及為什么在實際應用中,簡單的模型總是被優先考慮。

          06
          在簡歷中使用了太多的數據科學術語

          如果你曾經這樣做過,你會知道我在說什么。如果你的簡歷現在有這個問題,快去修正!您可能知道很多技術和工具,但只是簡單地列出它們會讓潛在的招聘經理遠離你。

          你的簡歷是介紹你已經完成的事情以及你是如何做到的 – 而不是簡單羅列的事項清單。當招聘人員查看您的簡歷時,他/她希望以簡潔和總括的方式了解您的背景以及您所取得的成就。如果頁面的一半充滿了了模糊的數據科學術語,如線性回歸,XGBoost,LightGBM,沒有任何解釋,您的簡歷可能無法通過篩選。

          如何避免?

          消除簡歷混亂最簡單的方法是使用項目符號。僅列出你會用到去完成某些事情的技術(可能是項目或競賽)。寫一篇關于你如何使用它的文章會更有助于招聘人員理解你的想法。

          當您申請入門級的工作時,你的簡歷需要反映你潛在可以為業務增加的影響。簡歷將被應用于不同領域中的角色,因此準備一個模板會有所幫助 – 只需更改您對該特定行業的興趣即可

          Kunal Jain撰寫的這篇文章是為數據科學角色準備優秀簡歷的絕佳資源。

          07
          給予工具和庫比業務問題更高的優先級

          圖片來源:數據科學實驗室

          讓我們舉個例子來理解為什么這是一個錯誤。想象一下,你拿到了一個房價數據集,你需要預測房地產的價值。有包括建筑物數量,房間數量,租戶數量,家庭規模,庭院大小,是否有水龍頭等等200多個變量。您很可能不知道某個變量的含義。但您還是構建具有良好準確性的模型,但您不知道的是為什么剔除了這個變量。

          事實證明,該變量是現實場景中的一個關鍵因素。這是一個災難性的錯誤。

          擁有扎實的工具和庫知識是非常好的,但它只能到此為止。將這些知識與領域內的業務問題相結合,才是數據科學家真正介入的地方。您應該至少了解您感興趣(或正在申請)的行業中的基本挑戰。

          如何避免?

          這里有很多選擇:

          • 如果您正在申請特定行業的數據科學家,嘗試了解該領域的公司如何使用數據科學
          • 如果可能,搜索特定行業中的數據集并嘗試對其進行處理。這將是你簡歷中一個非常出色的要點
          • 閱讀下方紐約時報的這篇優秀文章,了解為什么領域知識是數據科學的主要推動力

            https://www.forbes.com/sites/kalevleetaru/2016/06/12/why-we-need-more-domain-experts-in-the-data-sciences/#fa319143b508

          08
          在探索和可視化數據上花的時間不夠

          數據可視化是數據科學的一個很美妙的方面,但許多有胸懷抱負的數據科學家更喜歡略過它直接進入模型構建階段。這種方法可能會在比賽中有用,但在實際工作中必然會失敗。了解你擁有的數據是最重要的事情,你的模型結果會反映出這一點。

          通過花時間了解數據集并嘗試用不同的圖表展示,您將更深入的了解您要解決的挑戰或問題,你會驚訝地發現你可以獲得這么多洞察!可以看到模式和趨勢,以及隱藏的規律。可視化是向客戶展示洞察的最佳方式。

          作為一名數據科學家,你需要天生好奇。這是數據科學最棒的事情之一 – 你越是好奇,你會問的問題就越多。這樣可以更好地理解你的數據,并有助于解決您一開始不知道的問題!

          如何避免?

          實踐!下次處理數據集時,請花更多時間在此步驟上。您會驚訝于它為您產生的洞察。提問!詢問您的經理,詢問領域專家,在互聯網上搜索解決方案,如果您沒有找到,請在社交媒體上詢問。你有如此多的選擇!

          為了幫助您入門,我在下面提到了一些可供參考的資源:

          R中數據可視化綜合指南

          數據探索綜合指南(強烈推薦)

          18個免費的探索性數據分析工具適用于編碼不好的人

          09
          不能用結構化的方法來解決問題

          圖片來源:MindMatters.co.in

          結構化思維在許多方面都可以幫助到數據科學家:

          • 它可以幫助拆解問題的邏輯結構
          • 它可以幫助您可視化問題的持續方式以及如何設計
          • 它幫助最終用戶或客戶以邏輯和易懂的方式理解框架的順序

          擁有結構化思維的好處還有很多。可以想象一下,不使用結構化思維的話會不直觀。你的工作和解決問題的方法都是隨意雜亂的,當遇到復雜的問題時你會忘記自己的步驟等等。

          當您參加數據科學面試時,您將不可避免地需要分析案例,測算、估計等。由于面試時充滿壓力的氣氛和時間限制,面試官會考察你的思維結構如何,以達到最終評估。大多數情況下,對是否獲得這份工作來說,這可能是一錘定音的因素。

          如何避免?

          您可以通過簡單的訓練和規范的方法獲得結構化的思維方式。我在下面列出了一些文章,它們將對你有所幫助:

          • 結構性思維與分析的藝術
          • 改善結構化思維的工具
          • 必須為數據科學家和分析師:分析思維的大腦訓練
          010
          一次性嘗試學習多個工具

          我見過太多次這個問題了。由于每個工具提供的獨特功能和局限性不同,人們傾向于一次性的學習所有工具。這是個壞主意 – 你最終無法掌握它們中任何一個。工具是執行數據科學的一種手段,但是它們不是最終目標。

          如何避免?

          選擇一個工具并堅持學習直到你掌握它為止。如果你已經開始學習R,那么不要被Python所誘惑。堅持端到端的學習R的使用,然后再嘗試將另一種工具融入您的技能組合中。您將通過這種方法了解更多信息。

          每個工具都有一個很好的用戶社區,在遇到困難時可以在社區提問。使用我們的論壇(下方鏈接)來提問和在線搜索,不要放棄。目的是通過該工具學習數據科學,而不是通過數據科學學習工具。

          如果您仍未確定應該使用哪種工具,請查看這篇精彩的文章,其中列出了每個工具的優點和缺點(如果您對此感興趣,還包括SAS)。

          • 論壇

          https://discuss.analyticsvidhya.com/

          • 工具對比
          011
          無法保持學習習慣

          資料來源:布魯克斯集團

          這適用于所有數據科學家,而不僅僅是新人。我們容易分心。在研究了一段時間(比如一個月)之后,然后我們在接下來的兩個月休息。在那之后試圖回到事物的正規上簡直是一場噩夢。大多數早期的概念都被遺忘了,筆記丟失了,感覺就像我們最近幾個月都浪費了一樣。

          我也經歷過這一點。由于我們在處理各種各樣的事情,我們找借口和理由不再學習。但這最終是我們的損失 – 如果數據科學就像打開教科書并且塞滿一切一樣容易,那么每個人都是數據科學家。它需要一致的努力和學習,人們直到為時已晚才會意識到這一點

          如何避免?

          為自己設定目標。繪制出時間表貼在墻上。計劃你的學習方式和內容,并設定截止日期。例如,當我想學習神經網絡時,我給了自己幾個星期,然后通過黑客松比賽測試我學到的東西。

          既然你已經決定成為一名數據科學家,所以你應該準備好投入時間。如果你不斷尋找不去學習的借口,這可能不適合你。

          012
          逃避討論和競賽

          圖片來源:面試技巧咨詢

          這是前面一些問題的組合。有胸懷抱負的數據科學家會害羞在線發布他們的分析,因為他們害怕受到批評。但是,如果你從沒有收到過社區的反饋意見,那你將不會成長為數據科學家。

          數據科學是一個重視討論,思想和頭腦風暴的領域。你不能坐在孤島中工作 – 你需要合作并理解其他數據科學家的觀點。同樣,人們不參加比賽是因為他們覺得自己不會獲勝。這是一種錯誤的心態!你參加這些比賽是為了學習而不是贏。獲勝是獎勵,學習是目標。

          如何避免?

          相當簡單 – 開始參與討論和比賽!不進入前5%也無所謂。如果你從整個事物中學到一種新技術,對你來說也是一種勝利。

          013
          不在溝通技巧上下功夫

          圖片來源:吉姆哈維

          溝通技巧是數據科學家絕對必須擁有的技能之一,但是關于它的評價和談論都最少。我至今還沒有遇到一個強調溝通技巧的課程。您可以學習所有最新技術,掌握多種工具并制作優秀的圖表,但如果您無法向客戶解釋你的成功,您將會是失敗的數據科學家。

          不僅僅是客戶,您有可能與不熟悉數據科學的團隊成員合作 – IT,人力資源,財務,運營等。可以肯定的是面試官也會特別注意這一點。

          假設您使用邏輯回歸構建了信用風險模型。作為一個思考練習,花一點時間思考如何向非技術人員解釋你是如何得出最終結論的。如果你使用過任何術語,你需要盡快開展這項工作!

          如何避免?

          如今大多數數據科學家都來自計算機科學背景,所以我理解這可能是一項令人生畏的技能。但要成為一名成功的數據科學家并爬上階梯,你別無選擇,只能磨練自己個性的這一部分。

          我覺得最有用的一件事就是向非技術人員解釋數據科學術語。它可以幫助我衡量我認識問題的清晰度。如果您在中小型公司工作,請在營銷或銷售部門找一個人并與他們一起做這個練習。從長遠來看,它將極大地幫助你提升。

          互聯網上有大量的免費資源可以幫助您入門,但請記住,練習是提升技能的關鍵。從今天就開始吧!

          尾聲

          這絕對不是一個詳盡的清單 – 胸懷抱負的數據科學家還可能犯許多其他錯誤。但以上這些是最常見的,如前所述,我的目標是幫助大家盡可能的避免這些問題。

          原文作者:Pranav Dar

          翻譯:TDU

          本文轉自: TalkingData數據學堂

          感謝支持199IT
          我們致力為中國互聯網研究和咨詢及IT行業數據專業人員和決策者提供一個數據共享平臺。

          要繼續訪問我們的網站,只需關閉您的廣告攔截器并刷新頁面。
          滾動到頂部
          --> 吉林快三今天开奖结果