《大數(shù)據時代的算法:機器學習、人工智能及其典型實例》主要介紹了在互聯(lián)網行業(yè)中經常涉及的算法,包括排序算法、查找算法、資源分配算法、路徑分析算法、相似度分析算法,以及與機器學習相關的算法,包括數(shù)據分類算法、聚類算法、預測與估算算法、決策算法、關聯(lián)規(guī)則分析算法及推薦算法。
作者 | abby
中國在很早就開始了算法研究,如《周髀算經》《九章算術》這類最具歷史的算法書籍,后來的唐宋元明清各歷史朝代也出現(xiàn)了《一位算法》《算法緒論》《算法全書》《算法統(tǒng)宗》等一系列算法名著,算法已經成為各行各業(yè)的基礎研究。
今天,小編為大家推薦的《大數(shù)據時代的算法:機器學習、人工智能及其典型實例》就主要介紹了在互聯(lián)網行業(yè)中經常涉及的算法,包括排序算法、查找算法、資源分配算法、路徑分析算法、相似度分析算法,以及與機器學習相關的算法,包括數(shù)據分類算法、聚類算法、預測與估算算法、決策算法、關聯(lián)規(guī)則分析算法及推薦算法。
《大數(shù)據時代的算法:機器學習、人工智能及其典型實例》涉及的相關算法均為解決實際問題中的主流算法,對于工作和學習都有實際參考意義。
《大數(shù)據時代的算法:機器學習、人工智能及其典型實例》通過介紹在互聯(lián)網行業(yè)中經常涉及的算法,包括排序算法、查找算法、資源分配算法、路徑分析算法、相似度分析算法,以及與機器學習相關的算法,包括數(shù)據分類算法、聚類算法、預測與估算算法、決策算法、關聯(lián)規(guī)則分析算法及推薦算法。
本書是一本算法領域內的技術手冊,涵蓋數(shù)十種算法,不僅能使讀者深入了解各類算法的基本理論,還從應用的角度提供了大量實例,使讀者能夠快速、高效進階各類算法,并能夠熟練應用到將來的工作實踐中。
本 書 特 色
本書不僅將目前工程應用中主流的基礎算法和機器學習算法都做了詳盡的介紹,還囊括了當前熱門算法內容,如數(shù)據分類算法、聚類算法、推薦算法等。本書充分利用了最新算法的應用研究結果,通過實例為讀者展現(xiàn)了清晰的算法應用,不拘泥于算法枯燥的理論,更多地從實用價值、工程價值的角度將算法知識呈現(xiàn)給讀者。
本書中的算法可以廣泛應用于各個領域,可以在自然語言處理研究、數(shù)據分析與挖掘、商務智能、廣告與商品推薦等領域中深入應用。作者秉承數(shù)據結合算法產生價值的理論體系,在介紹算法的同時與數(shù)據緊密關聯(lián),并結合多年實際工作經驗,將算法的內容闡述得淋漓盡致。本書中的算法研究在當前甚至未來相當一段時間內都具有很大的實際意義。
本書從內容上分為10個章節(jié):
第1章 算法基礎
從算法的分析類型,如分治法、動態(tài)規(guī)劃法、回溯法、分支限界法、貪心法入手開始介紹算法內容,還分析了算法的性能,并介紹了概率論與數(shù)理統(tǒng)計基礎部分的內容。同時,對算法中常用的距離計算算法、排序算法及字符串壓縮編碼也做了完整介紹。
第2章 數(shù)據查找與資源分配算法
以數(shù)據的查找和資源分配作為突破口,介紹了常用的數(shù)值查找算法,如二分搜索算法、分塊查找及哈希查找算法。除此之外,還介紹了常見的字符串查找算法及在海量數(shù)據中的查找算法:布隆過濾器和倒排索引查找,介紹了資源分配算法,包括常用的銀行家算法和背包問題的解決算法。
第3章 路徑分析算法
主要介紹了路徑分析算法,包括基于Dijkstra算法、Floyd算法、A*算法的路徑分析方法。除了介紹傳統(tǒng)的路徑分析算法外,還介紹了維特比算法在概率中的路徑選擇,以及最長公共子串、最長公共子序列問題的求解算法。整個內容涵蓋了絕大部分的路徑選擇算法。
第4章 相似度分析算法
主要介紹了相似內容的分析理論和應用,從簡單的Jaccard相似系數(shù)開始入手,逐步深入到基于MinHash的相似性算法以及向量空間模型,向量空間模型已經成為眾多算法的基礎理論。后續(xù)還深入介紹了基于余弦相似性算法和基于語義主題模型的語義相似度算法,以及基于SimHash的指紋碼重復值驗證算法。
第5章 數(shù)據分類算法
集中介紹了數(shù)據分類算法的解決方案,從簡單易于理解的樸素貝葉斯模型開始,由淺入深地介紹了AdaBoost分類器及支持向量機,它們都是數(shù)據分類的有效解決方案,還對機器學習的相關基礎知識做了概要介紹,最后介紹了K鄰近算法在數(shù)據分類中的應用。
第6章 數(shù)據聚類算法
介紹了數(shù)據聚類的相關算法,其中,無監(jiān)督的聚類算法目前是比較熱門的研究領域。首先介紹了傳統(tǒng)的基于系統(tǒng)聚類的方法;然后介紹了基于K-Means聚類算法及基于密度的DBSCAN算法;最后介紹了基于BIRCH算法的聚類分析,通過聚類特征及聚類特征實現(xiàn)數(shù)據聚類。
第7章 數(shù)據預測與估算算法
介紹了數(shù)據的預測和估算的算法體系和應用范例,從產生式模型和判別式模型入手介紹各類模型的方法論。首先介紹了基于最大似然估計的預測以及基于線性回歸的估算、基于最大期望算法;然后介紹了基于隱馬爾科夫模型模型預測;最后介紹了基于條件隨機場的序列預測。
第8章 數(shù)據決策分析算法
對數(shù)據決策的分析方法做了詳細介紹,主要圍繞決策樹的理論基礎展開。首先介紹了基于ID3算法的決策分析,包括信息熵、信息增益等;然后介紹了基于C4.5算法的分類決策樹及基于分類回歸樹的決策劃分;最后介紹了基于隨機森林的決策分類。介紹過程中包含了大量實例。
第9章 數(shù)據關聯(lián)規(guī)則分析算法
主要介紹了關聯(lián)規(guī)則分析方法的理論和實踐。Apriori算法作為最常用的關聯(lián)規(guī)則分析算法已經被廣泛應用到各個領域,本章也對Apriori算法進行了深入的介紹,并對和Apriori算法同等重要的FP-Growth算法也通過實例做了詳細介紹。本章最后還介紹了利用倒排文件思想的Eclat算法。
第10章 數(shù)據與推薦算法
主要介紹了數(shù)據與推薦算法中的應用關系,推薦算法作為目前各行各業(yè)最熱門的算法之一,已經應用非常廣泛。本章介紹了基于物品本身屬性關系的Item-Based協(xié)同過濾推薦算法,以及基于User-Based協(xié)同過濾推薦算法。除此之外,還介紹了基于流行度和潛在因子的推薦算法,以及推薦算法的效果評估相關內容。
適 讀 人 群:
對基本算法和機器學習算法有興趣的讀者;
對數(shù)據分析和統(tǒng)計學有興趣的讀者;
對算法有研究的基礎算法、機器學習工程師;
互聯(lián)網行業(yè)的不同層次從業(yè)者;
軟件或計算機專業(yè)的在校大學生。
本書由 數(shù)據猿聯(lián)合電子工業(yè)出版社 共同推薦
【本欄目合作伙伴】:清華大學出版社、電子工業(yè)出版社、北京師范大學出版社、中國人民大學出版社。
更多“每周一本書”,可加作者Abby微信:wmh4178(請注明姓名、公司)交流
聯(lián)系客服