国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當前位置: 首頁 > news >正文

公司網站建設制作難么網站開發(fā)的公司

公司網站建設制作難么,網站開發(fā)的公司,wordpress 微信商城模板,wordpress標簽加標題注:此文章內容均節(jié)選自充電了么創(chuàng)始人,CEO兼CTO陳敬雷老師的新書《自然語言處理原理與實戰(zhàn)》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】 文章目錄 自然語言處理系列五十三文本聚類算法》文本聚類介紹及相關算法K…

注:此文章內容均節(jié)選自充電了么創(chuàng)始人,CEO兼CTO陳敬雷老師的新書《自然語言處理原理與實戰(zhàn)》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】

文章目錄

  • 自然語言處理系列五十三
    • 文本聚類算法》文本聚類介紹及相關算法
      • K-means文本聚類算法原理
  • 總結

自然語言處理系列五十三

文本聚類算法》文本聚類介紹及相關算法

分類和聚類都是文本挖掘中常使用的方法,他們的目的都是將相似度高的對象歸類,不同點在于分類是采用監(jiān)督學習,分類算法按照已經定義好的類別來識別一篇文本,而聚類是將若干文本進行相似度比較,最后將相似度高的歸為一類。在分類算法中,訓練集為已經標注好的數據集,但是微博文本具有的大數據特性及不確定性決定了標注數據的難度,因此本文選擇聚類算法對大量且隨機的微博文本進行處理。
大量文本建模后還需要對主題分布進行聚類以得到更精確簡潔的話題,因此文本聚類在話題檢測技術中具有重要意義。聚類是一種無監(jiān)督學習方式,目的是把一個數據根據某種規(guī)則劃分為多個子數據,一個子數據就稱為一個聚類。聚類分析在文本分析、商務應用、網頁搜索、推薦系統(tǒng)、生物醫(yī)學等多個領域都有著十分廣泛的應用。由于數據應用場合不同,不同的聚類方式側重點不同,各有優(yōu)勢和缺陷,因此目前沒有一個通用的聚類算法。目前聚類主要分為以下幾類:基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于模型的聚類算法以及基于模糊的聚類算法。目前主要的聚類算法分類如圖15.1所示。
在這里插入圖片描述

圖15.1 聚類算法分類
1. 基于劃分的聚類算法
基于劃分的聚類算法是聚類算法中最為簡單的算法,假設有一個數據集D,其中包含N個子數據,若要將D劃分為K個類簇,K≤N,每個類簇中至少含有一個子數據,且類簇之間不會有交集。要達到的要求是簇中的數據之間有較高的相似度,而簇類之間的相似度盡可能地低。經過專家學者的不斷研究,K-means 算法、Single-Pass 增量聚類算法、圍繞中心劃分( Partitioning Around Mediods, PAM)算法等等都得到了較為廣泛的應用。而其中最為經典、應用最多的是K-means算法。
K-means算法又稱K均值算法,是一種容易實現且應用廣泛的聚類算法,其算法的思想是首先在數據樣本集中隨機選取K個樣本作為簇中心;然后計算樣本集中其他樣本與這K個簇中心的距離,距離通常利用曼哈頓距離、歐式距離等來度量,再根據設定的閾值將每個樣本劃分到與其距離最近的簇中心所在的簇中;最后根據新劃分的簇重新計算距離,將簇中所含樣本的距離均值作為更新簇的中心,再重復計算距離直到達到條件。K-means算法最關鍵的就是確定K的個數。
基于劃分的聚類算法對于大部分數據都有較強的適用性,且計算簡單高效,空間復雜度較低,但是在處理大規(guī)模樣本時結果多數是局部最優(yōu),對于類簇中心選取也十分敏感并且無法解決非凸數據。
2. 基于層次的聚類算法
層次聚類算法(Hierarchical Clustering,HC)又稱為樹聚類算法。主要思想是將樣本集合合并或者分裂成凝聚度更高或者更細致的子樣本集合,最終樣本集合形成一棵層次樹。同K-means算法不同,層次聚類算法不需要預先設定聚類數 ,只要樣本集合通過不斷迭代達到聚類條件或者迭代次數即可?;趯哟蝿澐值慕浀渚垲愃惴ㄓ?#xff1a;變色龍算法、AGNES(Agglomerative NE Sting)、CURE(Clustering Using RE Presentatives)等。根據聚類的方向基于層次的聚類算法可以分為凝聚式和分裂式,凝聚式是將簇結合起來,而分裂式則是將大的類簇分為小類。
1)凝聚式層次聚類算法
凝聚式層次聚類(Hierarchical Agglomerative Clustering,HAC)顧名思義是凝聚數據樣本,它的聚類方向是從子數據向上不斷合并,該算法經常運用于話題檢測中。凝聚式層次聚類首先從底部分散的單個樣本開始依次計算與其他樣本的距離,然后選擇距離最小樣本并與其合并成一個新的樣本集,再重復上述過程直到形成一個包含所有樣本的簇,或者達到迭代次數。凝聚式層次聚類只需要計算樣本之間的距離然后合并,該方法計算簡單,但是如果數據樣本太大則算法復雜度會呈指數級增長,且已合并的操作無法逆轉。
2)分裂式層次聚類算法
分裂式層次聚類與凝聚式層次聚類處理樣本數據的方向是相反的,它是將整個數據樣本看作一個大類簇,然后根據距離公式或其他原則將大的類簇分為小的類簇,不斷迭代直到將所有的樣本數據分類到單獨的類簇中或者是達到迭代次數。層次聚類被公認為是能夠產生較好質量的聚類結果的聚類算法。此算法缺點是已操作不能撤回,對于大量數據樣本時間復雜度高。
3. 基于密度的聚類算法
基于密度的聚類算法的主要思想是首先找出密度較高的點,然后把周圍相近的密度較高的樣本點連成一片,最后形成各類簇。基于密度的聚類比較代表性的三種方法有:Ester等提出的DBSCAN方法、Ankerst 等提出OPTICS方法和 Hinneburg 提出的 DENCLUE技術。此類算法的優(yōu)點是魯棒性很強,對于任意形狀的聚類都適用,但是結果的精度與參數設置關系密切,實用性不強。
4. 基于網格的聚類算法
與其他聚類算法相比較,基于網格的聚類算法出發(fā)點不再是平面而是空間。在該空間中,有限個網格代表數據,聚類就是按一定的規(guī)則將網格合并。Wang等人提出的STING算法及其改進算法、Agrawa等人提出的CLIQUE算法l等都是較為經典的基于網格的算法?;诰W格的聚類算法由于處理數據時是獨立的,僅僅依賴網格結構中每一維的單位數,因此處理速度很快。但是此算法對參數十分敏感,速度快的代價是精確度不高,通常需要與其他聚類算法結合使用。
5. 基于模型的聚類算法
基于模型的聚類算法的思路是假設每個類簇為一個模型,然后再尋找與該模型擬合最好的數據,通常有基于概率和基于神經網絡兩種方法。概率模型即概率生成模型,是假設數據是由潛在的概率分布產生的,典型的算法是高斯混合模型(Gaussian Mixture Models,GMM;而來自芬蘭的神經網絡專家提出的自組織映射(Self Organized Maps,SOM)是典型的神經網絡模型。對類簇而言,基于模型的聚類算法是用概率形式呈現,每個類的特征也可以直接用參數表示,但是與其他聚類方法相比,這類聚類方法在樣本數據量大的時候執(zhí)行率較低,不適合大規(guī)模聚類場合。
6. 基于模糊的聚類算法
基于模糊的聚類算法主要是為了克服非此即彼的分類缺陷,它的主要思想是以模糊集合論作為數學基礎,用模糊數學的方法進行聚類分析。此方法的優(yōu)點在于對于滿足正態(tài)分布的樣本數據來說它的效果會很好,但是此算法過于依賴初始聚類中心,為確定初始聚類中心需要多次迭代以尋找最佳點,對于大規(guī)模數據樣本來說會大大增加時間復雜度。
上述的聚類方法各有千秋,在面對不同的數據集時能起到不同的作用,在參考韓威等的文獻之后列出表2-2直觀展示幾種主要算法在性能方面的差異。幾種常用聚類算法對比如表15.1所示。
在這里插入圖片描述

表15.1 常用聚類算法對比
從表可以直觀地看出,對于初始無法確定主題個數且大規(guī)模的微博短文本來說,Single-Pass增量算法更適合。但是Single-Pass增量算法對于數據輸入時的順序十分敏感,并且計算復雜度隨著數據的增大而增多,因此本文采用改進的Single-Pass增量算法對話題進行檢測。經過改進的Single-Pass增量算法處理后的文本凝聚度相對較高,維度相對較低,再采用適合處理這類文本的凝聚式層次聚類進行話題合并以得到熱點話題。通過結合Single-Pass增量算法與凝聚式層次聚類算法,對大量微博短文本進行處理提取出熱點話題,能有效提高效率,同時得到更精確的熱點話題。

K-means文本聚類算法原理

K-means文本聚類算法原理下一篇文章分享,更多內容請參見
《自然語言處理原理與實戰(zhàn)》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】書籍。
更多的技術交流和探討也歡迎加我個人微信chenjinglei66。

總結

此文章有對應的配套新書教材和視頻:

【配套新書教材】
《自然語言處理原理與實戰(zhàn)》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】
新書特色:本書從自然語言處理基礎開始,逐步深入各種NLP熱點前沿技術,使用了Java和Python兩門語言精心編排了大量代碼實例,契合公司實際工作場景技能,側重實戰(zhàn)。
全書共分為19章,詳細講解中文分詞、詞性標注、命名實體識別、依存句法分析、語義角色標注、文本相似度算法、語義相似度計算、詞頻-逆文檔頻率(TF-IDF)、條件隨機場、新詞發(fā)現與短語提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec詞向量模型、文本分類、文本聚類、關鍵詞提取和文本摘要、自然語言模型(Language Model)、分布式深度學習實戰(zhàn)等內容,同時配套完整實戰(zhàn)項目,例如對話機器人實戰(zhàn)、搜索引擎項目實戰(zhàn)、推薦算法系統(tǒng)實戰(zhàn)。
本書理論聯(lián)系實踐,深入淺出,知識點全面,通過閱讀本書,讀者不僅可以理解自然語言處理的知識,還能通過實戰(zhàn)項目案例更好地將理論融入實際工作中。
《分布式機器學習實戰(zhàn)》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】
新書特色:深入淺出,逐步講解分布式機器學習的框架及應用配套個性化推薦算法系統(tǒng)、人臉識別、對話機器人等實戰(zhàn)項目。

【配套視頻】

推薦系統(tǒng)/智能問答/人臉識別實戰(zhàn) 視頻教程【陳敬雷】
視頻特色:把目前互聯(lián)網熱門、前沿的項目實戰(zhàn)匯聚一堂,通過真實的項目實戰(zhàn)課程,讓你快速成為算法總監(jiān)、架構師、技術負責人!包含了推薦系統(tǒng)、智能問答、人臉識別等前沿的精品課程,下面分別介紹各個實戰(zhàn)項目:
1、推薦算法系統(tǒng)實戰(zhàn)
聽完此課,可以實現一個完整的推薦系統(tǒng)!下面我們就從推薦系統(tǒng)的整體架構以及各個子系統(tǒng)的實現給大家深度解密來自一線大型互聯(lián)網公司重量級的實戰(zhàn)產品項目!
2、智能問答/對話機器人實戰(zhàn)
由淺入深的給大家詳細講解對話機器人項目的原理以及代碼實現、并在公司服務器上演示如何實際操作和部署的全過程!
3、人臉識別實戰(zhàn)
從人臉識別原理、人臉識別應用場景、人臉檢測與對齊、人臉識別比對、人臉年齡識別、人臉性別識別幾個方向,從理論到源碼實戰(zhàn)、再到服務器操作給大家深度講解!

自然語言處理NLP原理與實戰(zhàn) 視頻教程【陳敬雷】
視頻特色:《自然語言處理NLP原理與實戰(zhàn)》包含了互聯(lián)網公司前沿的熱門算法的核心原理,以及源碼級別的應用操作實戰(zhàn),直接講解自然語言處理的核心精髓部分,自然語言處理從業(yè)者或者轉行自然語言處理者必聽視頻!

人工智能《分布式機器學習實戰(zhàn)》 視頻教程【陳敬雷】
視頻特色:視頻核心內容有互聯(lián)網公司大數據和人工智能、大數據算法系統(tǒng)架構、大數據基礎、Python編程、Java編程、Scala編程、Docker容器、Mahout分布式機器學習平臺、Spark分布式機器學習平臺、分布式深度學習框架和神經網絡算法、自然語言處理算法、工業(yè)級完整系統(tǒng)實戰(zhàn)(推薦算法系統(tǒng)實戰(zhàn)、人臉識別實戰(zhàn)、對話機器人實戰(zhàn))。

上一篇:自然語言處理系列五十二》文本分類算法》BERT模型算法原理及文本分類
下一篇:自然語言處理系列五十四》文本聚類算法》K-means文本聚類算法原理

http://m.aloenet.com.cn/news/40654.html

相關文章:

  • 微網站建設高端網站定制杭州網站seo
  • 哪些網站可以做網站百度手機助手下載2021新版
  • 漢壽做網站的公司武漢seo首頁優(yōu)化技巧
  • flash可以做網站搜索引擎的優(yōu)化和推廣
  • 做網站的用處建網站公司哪里好
  • 制作網頁一般需要兼容哪些網站廣州網站seo
  • 廣州做網站網絡公司bt櫻桃 磁力島
  • 做網站的要求臺州百度推廣優(yōu)化
  • 網站開發(fā)者id百度號碼認證平臺官網
  • php律師網站源碼推廣計劃方案模板
  • 吳中區(qū)企業(yè)網站制作哪家靠譜seo常用工具網站
  • 西安網站制作sxyun淘寶seo搜索優(yōu)化
  • 制作php網站用什么軟件手機百度網址大全首頁
  • 叫人做網站要注意軟件開發(fā)公司
  • 福田網站開發(fā)北京seo營銷培訓
  • 廣西住房建設廳網站廈門人才網官網招聘信息網
  • 深圳企業(yè)做網站百度賬號安全中心官網
  • 做學校網站導航條應該有哪些知乎關鍵詞排名優(yōu)化工具
  • 東莞營銷型網站建設費用鄭志平愛站網創(chuàng)始人
  • 邢臺做企業(yè)網站淘寶關鍵詞搜索量查詢工具
  • 網站建設公司yu專業(yè)百度seo排名優(yōu)化
  • 相關網站怎么做seo關鍵詞排名價格
  • 深圳設計網站培訓學校開發(fā)一個網站的步驟流程
  • 重慶網站建設 公司列舉常見的網絡營銷工具
  • 團購網站推廣怎么做百度搜索關鍵詞技巧
  • 合肥有多少做網站的優(yōu)化營商環(huán)境工作總結
  • 網站訪問者qq山東工藝美術學院網站建設公司
  • 沃爾瑪網上商城可以用購物卡嗎seo技術優(yōu)化整站
  • 設計師網站建設icp備案查詢官網
  • 溫州高端網站建設公司哪家好全球最大的磁力搜索引擎