我在很短的時間內(nèi),通過這本書的引導(dǎo),搞清楚了如何使用iClient API來建構(gòu)一個自己感興趣的Network分析應(yīng)用,很是不錯。這本書無論是在材料安排、寫作內(nèi)容還是寫作方法上,都非常適合指導(dǎo)“初學(xué)者”們的入門和進階。
前幾天看到一篇微博,談的是GIS技術(shù)人員需要掌握的一系列數(shù)學(xué)知識,其中一位談?wù)摰谋容^全面,認(rèn)為應(yīng)該掌握的基本技能包括三角學(xué)、基本微分幾何、拓?fù)鋵W(xué)、微積分、數(shù)值分析、計算機科學(xué)、圖理論、幾何學(xué)和統(tǒng)計學(xué)等,對于統(tǒng)計學(xué),作者還特別強調(diào),盡管并不是所有的GIS專業(yè)人士都需要了解,但人們越來越清楚的認(rèn)識到一個基本的統(tǒng)計思維方式是至關(guān)重要的——特別是我們的處理對象是大量地理數(shù)據(jù)時,選擇與統(tǒng)計及相關(guān)的數(shù)據(jù)挖掘知識,更有利于我們實現(xiàn)更快地實現(xiàn)自己的目標(biāo)。
現(xiàn)在,對于“大數(shù)據(jù)”和數(shù)據(jù)挖掘之類的名詞,已經(jīng)成為一個非常熱門的話題。人們早已意識到,從數(shù)據(jù)海洋中尋找到其中蘊含的模式和規(guī)律,比數(shù)據(jù)本身重要得多,唯有如此,海量的數(shù)據(jù)才能被稱之為“大數(shù)據(jù)”,否則也只能被看作是沒有價值的“大的數(shù)據(jù)”。從數(shù)據(jù)中進行知識提取的技術(shù)被稱作數(shù)據(jù)挖掘(Data Mining),它包含了豐富的技術(shù)內(nèi)容,也蘊含了很多高深的數(shù)學(xué)知識,當(dāng)然,它也非常有用:從我們耳熟能詳?shù)幕貧w分析到貝葉斯分析,從最簡單的KNN分類算法到支持向量機(SVM)分類??赡艽蠹也]有意識到,我們的生活中許許多多的問題都可以被視作一種數(shù)據(jù)挖掘的處理內(nèi)容:根據(jù)一系列指標(biāo)來判斷某個人是否受歡迎?求醫(yī)者的多參數(shù)檢查結(jié)果是否預(yù)示著他罹患疾病?高爾夫球場根據(jù)一系列氣象指標(biāo)來決定是否開門營業(yè)?一群對象是否可以根據(jù)其相似性被歸結(jié)為一個類型?如何判斷一封email是否為垃圾郵件?這些包羅萬象的領(lǐng)域,因為涉及到對數(shù)據(jù)的處理和分析,而為數(shù)據(jù)挖掘的技術(shù)人員們所關(guān)注。
但我們常常遇到一個問題是,該如何進入數(shù)據(jù)挖掘的領(lǐng)域,該如何從基礎(chǔ)開始學(xué)習(xí)數(shù)據(jù)挖掘。當(dāng)然,許多網(wǎng)絡(luò)文章會推薦我們使用SPSS或SAE之類的商業(yè)軟件,或者學(xué)習(xí)使用Weka等開源數(shù)據(jù)挖掘的產(chǎn)品,然而這類工具都有一個讓初學(xué)者無比困惑的問題:其數(shù)據(jù)整理和分析結(jié)果如同天書一般,沒有一點理論知識的儲備,你簡直都不知道軟件輸出的內(nèi)容在說些什么。為了數(shù)據(jù)挖掘的入門,我們需要一本既包含基礎(chǔ)數(shù)學(xué)知識(當(dāng)然不能是零基礎(chǔ),基本的微積分和矩陣計算知識還是必須具備的),又能夠?qū)⒅c代碼相結(jié)合的書籍,而《Machine Learning in Action》正是這樣一本中級的進階圖書。它將基本的機器學(xué)習(xí)理論與實際的運用工具(Python語言和一系列基于Python的工具)相結(jié)合。該書回避了復(fù)雜的數(shù)學(xué)原理(但并非毫無涉及,只是將原理進行了極大的簡化),并且提供了大量的分類、聚類、回歸等實際案例及其Python代碼來實現(xiàn)各種算法,在初步了解原理之后閱讀,會感覺其清晰明了,并能投入實際應(yīng)用之中。
但盡管該書條理清晰如此,閱讀它絕非是一件輕松愉悅的事情,畢竟是有那么多的數(shù)學(xué)內(nèi)容。唯有不斷地在Python IDE上coding和反復(fù)咀嚼,方才能通過它初窺門徑,進入數(shù)據(jù)挖掘的廣闊天地。(蔣波濤)
{{item.content}}