想知道如何學習數(shù)據(jù)挖掘和數(shù)據(jù)科學嗎?本文概述了七個步驟,指出的資源能讓你成為一名數(shù)據(jù)科學家。
作者為Gregory Piatetsky,是一名數(shù)據(jù)挖掘與數(shù)據(jù)科學方面的專家。
以下為7個步驟用于學習數(shù)據(jù)挖掘和數(shù)據(jù)科學。雖然有編號順序,你也可以并行或以不同的順序?qū)W習:
1 語音:學習R、Python以及SQL語音;
2 工具:了解如何使用數(shù)據(jù)挖掘和可視化工具;
3 教材:閱讀介紹性的教科書,了解基礎知識;
4 教育:觀看網(wǎng)絡研討會,參加課程,考慮獲得數(shù)據(jù)科學中的證書或?qū)W位;
5 數(shù)據(jù):檢查可用的數(shù)據(jù)資源并在那里找到東西;
6 競賽:參加數(shù)據(jù)挖掘競賽;
7 通過社交網(wǎng)絡,團體和會議與其他數(shù)據(jù)科學家交流;
另外,不要忘記訂閱KDnuggets新聞郵件,并跟隨@kdnuggets了解關(guān)于分析、大數(shù)據(jù)、數(shù)據(jù)挖掘和數(shù)據(jù)科學的最新消息。
交互使用數(shù)據(jù)挖掘與數(shù)據(jù)科學——見我的分析行業(yè)概覽報告,報告中有關(guān)于相關(guān)術(shù)語的演變和普及,比如統(tǒng)計、知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、預測分析、數(shù)據(jù)科學以及大數(shù)據(jù)。
1 學習語言
民意調(diào)查表明,數(shù)據(jù)挖掘最流行的語言是R,Python和SQL語言。
這里有很多的資源,比如:
免費電子書資源關(guān)于R語音的數(shù)據(jù)科學;
Python數(shù)據(jù)科學入門;
Python數(shù)據(jù)分析:現(xiàn)實世界數(shù)據(jù)的靈活工具;
不可或缺的Python:數(shù)據(jù)源到數(shù)據(jù)科學;
W3學校學習SQL;
2 工具:數(shù)據(jù)挖掘,數(shù)據(jù)科學和可視化軟件
許多的數(shù)據(jù)挖掘工具應用于不同的任務,但最好是使用支持數(shù)據(jù)分析的整個過程的數(shù)據(jù)挖掘套件。
你可以使用開源(免費)的工具,如啟動KNIME,RapidMiner和Weka。
然而,對于許多分析工作還需要知道SAS,它是全球領(lǐng)先的商業(yè)工具并得到廣泛應用。
其他受歡迎的分析和數(shù)據(jù)挖掘軟件包括MATLAB、StatSoft推出STATISTICA,Microsoft SQL Server、IBM SPSS Modeler以及Rattle。
可視化是任何數(shù)據(jù)分析的重要組成部分——學習如何使用Microsoft Excel,R graphics,以及Tableau 。其它好的可視化工具包括TIBCO Spotfire和Miner3D。
3教材
網(wǎng)絡上有很多的數(shù)據(jù)挖掘和數(shù)據(jù)科學教材,但你可以參考以下這些:
數(shù)據(jù)挖掘與分析:基本概念與算法
數(shù)據(jù)挖掘:機器學習工具實踐與方法
統(tǒng)計學習、數(shù)據(jù)挖掘以及預測的要素
LION書籍:學習與智能優(yōu)化
大數(shù)據(jù)集挖掘
StatSoft推出的電子統(tǒng)計教材
4 教育:網(wǎng)絡研討會、課程、證書以及學位
可以通過觀看一些許多免費的關(guān)于數(shù)據(jù)分析、大數(shù)據(jù),數(shù)據(jù)挖掘和數(shù)據(jù)科學的網(wǎng)絡研討會和網(wǎng)絡直播開始學習。
也有許多短期和長期的在線課程,其中許多是免費的-見KDnuggets在線教育目錄。
特別參考以下課程:
機器學習
從數(shù)據(jù)中學習
開放式在線學習應用數(shù)據(jù)科學
使用Weka進行數(shù)據(jù)挖掘
本文作者的數(shù)據(jù)挖掘課程
最后,考慮獲得關(guān)于數(shù)據(jù)挖掘和數(shù)據(jù)科學的證書或高級學位,如MS-見KDnuggets關(guān)于分析、數(shù)據(jù)挖掘和數(shù)據(jù)科學教育的目錄。
5 數(shù)據(jù)
你需要數(shù)據(jù)進行分析-見KDnuggets關(guān)于數(shù)據(jù)挖掘的目錄,包含:
政府、聯(lián)邦、州、城市、本地和公共數(shù)據(jù)站點和門戶
數(shù)據(jù)API、集線器、商場、平臺、門戶和搜索引擎
免費公共數(shù)據(jù)集
6 競爭
再一次強調(diào),最好是邊學邊做,所以在學習的同時也可以參加Kaggle競賽 -從初學者競賽開始,比如使用機器學習預測泰坦尼克號生存。
7 交流:會議、團體和社交網(wǎng)絡
你可以加入許多同類團體-見關(guān)于分析、大數(shù)據(jù),數(shù)據(jù)挖掘以及數(shù)據(jù)科學前30的 LinkedIn組織。
AnalyticBridge是一個分析和數(shù)據(jù)科學活躍的社區(qū)。
你也可以參加一些關(guān)于分析、大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)科學與知識發(fā)現(xiàn)的會議和研討會。
此外,考慮加入ACM SIGKDD,它會舉辦一年一度的KDD大會——該領(lǐng)域領(lǐng)先的研究會議。
更多……
還可以參考其它的回答:
如何開始學習數(shù)據(jù)科學
關(guān)于數(shù)據(jù)科學的使用簡介
通過Metromap課程成為一名數(shù)據(jù)科學家
獲取免費數(shù)據(jù)科學教育
本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區(qū)組織翻譯。
文章原標題《7 Steps for Learning Data Mining and Data Science》,作者:Gregory Piatetsky,譯者:海棠
更多深度文章,歡迎關(guān)注云棲社區(qū):https://yq.aliyun.com/cloud
聯(lián)系客服