国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁(yè) > news >正文

購(gòu)物網(wǎng)站開發(fā)實(shí)戰(zhàn)企業(yè)網(wǎng)站優(yōu)化排名

購(gòu)物網(wǎng)站開發(fā)實(shí)戰(zhàn),企業(yè)網(wǎng)站優(yōu)化排名,微信朋友圈廣告投放,淮安建設(shè)工程施工圖審查網(wǎng)站目錄 簡(jiǎn)介首次用戶技術(shù)特點(diǎn)競(jìng)品和相關(guān)作品進(jìn)一步閱讀 簡(jiǎn)介 trafilatura 是一個(gè)用于從網(wǎng)頁(yè)上提取文本的命令行工具和 python 包: 提供網(wǎng)絡(luò)爬蟲、下載、抓取以及提取主要文本、元數(shù)據(jù)和評(píng)論等功能可幫助網(wǎng)站導(dǎo)航和從站點(diǎn)地圖和提要中提取鏈接無需數(shù)據(jù)庫(kù),輸出即可轉(zhuǎn)換…

目錄

    • 簡(jiǎn)介
    • 首次用戶
    • 技術(shù)特點(diǎn)
    • 競(jìng)品和相關(guān)作品
    • 進(jìn)一步閱讀

簡(jiǎn)介

trafilatura 是一個(gè)用于從網(wǎng)頁(yè)上提取文本的命令行工具和 python 包:

  1. 提供網(wǎng)絡(luò)爬蟲、下載、抓取以及提取主要文本、元數(shù)據(jù)和評(píng)論等功能
  2. 可幫助網(wǎng)站導(dǎo)航和從站點(diǎn)地圖和提要中提取鏈接
  3. 無需數(shù)據(jù)庫(kù),輸出即可轉(zhuǎn)換為各種常用格式(txt,csv,json,xml,xmltei)
  4. 可用于搜索引擎優(yōu)化

首次用戶

  1. 使用 x env use trafilatura 即可自動(dòng)下載并使用

    • 在終端運(yùn)行 eval "$(curl https://get.x-cmd.com)" 即可完成 x 命令安裝, 詳情參考 x-cmd 官網(wǎng)
  2. x-cmd 提供1分鐘教程,其中包含了 trafilatura 命令常用功能的 demo 示例,可以幫你快速上手 trafilatura 。

  3. 使用案例

    trafilatura-1min-cn

    # 安裝 trafilatura
    x env use trafilatura# 提取指定網(wǎng)頁(yè)的主要內(nèi)容
    trafilatura -u "https://www.x-cmd.com/start"# 使用站點(diǎn)地圖抓取 x-cmd 關(guān)于 7za 的網(wǎng)站
    trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt# 批量處理 URL 列表,并存儲(chǔ)結(jié)果到目錄中
    trafilatura -i list.txt -o txtfiles# 優(yōu)化 bing 搜索結(jié)果
    trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"
    

技術(shù)特點(diǎn)

  1. 穩(wěn)健高效的提取:
    1. 除了可以提取主要文本之外,還可以提取元數(shù)據(jù)(標(biāo)題、作者、日期、網(wǎng)站名稱、類別和標(biāo)簽),結(jié)構(gòu)化信息(段落、標(biāo)題、列表、引號(hào)、代碼、換行符、行內(nèi)文本格式)
    2. 從原始 HTML 轉(zhuǎn)換為關(guān)鍵部分,去除由重復(fù)出現(xiàn)的元素(頁(yè)眉和頁(yè)腳、廣告、鏈接/博客等)組成的噪音
  2. 支持 URL 管理(黑名單、過濾和重復(fù)數(shù)據(jù)刪除)
  3. 支持可選附加組件:
    1. 對(duì)提取內(nèi)容進(jìn)行語(yǔ)言檢測(cè)
    2. 圖形用戶界面 (GUI)
    3. 速度優(yōu)化
  4. 更加高效、準(zhǔn)確。從官方給出的評(píng)估和替代方案的數(shù)據(jù)來看,該工具的性能明顯優(yōu)于其他開源解決方案。

競(jìng)品和相關(guān)作品

  1. goose3:用 Java 編寫的文章提取器。
  2. readabilipy:Python 中的簡(jiǎn)單 HTML 內(nèi)容提取器。
  3. news-please:是一個(gè)開源、易于使用的新聞爬蟲,可以從幾乎所有新聞網(wǎng)站中提取結(jié)構(gòu)化信息。

進(jìn)一步閱讀

  • trafilatura 源代碼 - trafilatura 項(xiàng)目的源代碼托管在 GitHub,你可以在這里找到最新版本的 trafilatura 和參與社區(qū)貢獻(xiàn)。
  • trafilatura 官網(wǎng) - 提供了非常豐富的使用案例和技術(shù)分析文檔。
  • 使用 Trafilatura 進(jìn)行文本抓取 - 該文章介紹了如何使用 trafilatura 快速提取網(wǎng)頁(yè)問題。

X-CMD 官網(wǎng)

  • x-cmd-pkg

  • x-cmd-1min

http://m.aloenet.com.cn/news/41212.html

相關(guān)文章:

  • 做國(guó)際貿(mào)易都用什么網(wǎng)站seo優(yōu)化排名是什么
  • 網(wǎng)站建設(shè)驗(yàn)收標(biāo)準(zhǔn)銷售推廣方案
  • 烏魯木齊培訓(xùn)網(wǎng)站建設(shè)網(wǎng)站自然優(yōu)化
  • 黃驊市第三中學(xué)關(guān)鍵詞優(yōu)化包年推廣
  • 如何寫一個(gè)可以做報(bào)價(jià)計(jì)算的網(wǎng)站網(wǎng)絡(luò)服務(wù)網(wǎng)絡(luò)推廣
  • 為什么自己做的網(wǎng)站別的電腦打不開廣州新聞最新消息今天
  • 怎么做游戲自動(dòng)充值的網(wǎng)站重慶高端網(wǎng)站seo
  • 信息化平臺(tái)的功能介紹搜索引擎優(yōu)化 簡(jiǎn)歷
  • 深圳住房和建設(shè)局網(wǎng)站輪候大廳網(wǎng)絡(luò)營(yíng)銷屬于什么專業(yè)類型
  • 移動(dòng)端使用wordpress富文本編輯器便宜的seo官網(wǎng)優(yōu)化
  • 全自動(dòng)網(wǎng)站建設(shè)最新實(shí)時(shí)大數(shù)據(jù)
  • wordpress好用還是dede磐石網(wǎng)站seo
  • 上海高端定制網(wǎng)站公司關(guān)鍵詞優(yōu)化的技巧
  • 門戶網(wǎng)登錄入口seo軟件定制
  • wordpress視覺編輯器seo在線優(yōu)化工具
  • 上海網(wǎng)站公司電話seo推廣是什么意思
  • 權(quán)大師的網(wǎng)站是哪個(gè)公司做的香港疫情最新消息
  • 網(wǎng)站建設(shè)為中心百度關(guān)鍵詞收錄
  • 個(gè)人主頁(yè)自助建站搜索引擎的工作原理分為
  • 孝感 網(wǎng)站建設(shè)百度電商廣告代運(yùn)營(yíng)
  • 棗莊專業(yè)做網(wǎng)站競(jìng)價(jià)廣告代運(yùn)營(yíng)
  • 網(wǎng)站域名個(gè)人備案查詢推廣平臺(tái)排行榜app
  • 國(guó)外超酷設(shè)計(jì)網(wǎng)站游戲推廣
  • 如何做服裝的微商城網(wǎng)站重慶森林經(jīng)典臺(tái)詞獨(dú)白
  • 云南省建設(shè)工程招標(biāo)投標(biāo)行業(yè)協(xié)會(huì)網(wǎng)站百度seo排名優(yōu)化教程
  • vs2010做網(wǎng)站時(shí)間控件廊坊網(wǎng)站排名優(yōu)化公司哪家好
  • readme.md做網(wǎng)站seo平臺(tái)是什么意思
  • 哪個(gè)網(wǎng)站可以做優(yōu)惠券seo技術(shù)培訓(xùn)寧波
  • qq是哪個(gè)公司開發(fā)seo排名平臺(tái)
  • 特價(jià)手機(jī)網(wǎng)站建設(shè)1688seo優(yōu)化是什么