国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁(yè) > news >正文

去哪兒網(wǎng)站開(kāi)發(fā)中國(guó)國(guó)家培訓(xùn)網(wǎng)靠譜嗎

去哪兒網(wǎng)站開(kāi)發(fā),中國(guó)國(guó)家培訓(xùn)網(wǎng)靠譜嗎,wordpress菜單順序,北堂網(wǎng)站制作相信訓(xùn)練模型時(shí)數(shù)據(jù)集的獲取也是一個(gè)很頭疼的事情,搞cv領(lǐng)域的可以扛著攝像頭架起三腳架拍攝獲取(以前干過(guò)),但是如果是nlp領(lǐng)域的呢,特別是chatgpt等大模型出來(lái)后對(duì)這類(lèi)文本等數(shù)據(jù)的需求更大,如果沒(méi)有現(xiàn)成的…

相信訓(xùn)練模型時(shí)數(shù)據(jù)集的獲取也是一個(gè)很頭疼的事情,搞cv領(lǐng)域的可以扛著攝像頭架起三腳架拍攝獲取(以前干過(guò)),但是如果是nlp領(lǐng)域的呢,特別是chatgpt等大模型出來(lái)后對(duì)這類(lèi)文本等數(shù)據(jù)的需求更大,如果沒(méi)有現(xiàn)成的數(shù)據(jù)集的話(huà)基本上很難自己創(chuàng)造數(shù)據(jù),所以爬取視為其中一個(gè)手段獲取數(shù)據(jù)(但是提醒一下要合法獲取數(shù)據(jù)哦)。
那么下面就以簡(jiǎn)單的批量獲取mp3文件為例。

假設(shè)我們要獲取網(wǎng)易云飆升榜的所有音樂(lè)文件:
在這里插入圖片描述
地址為:https://music.163.com/#/discover/toplist?id=19723756
首先f(wàn)12打開(kāi)開(kāi)發(fā)者工具:
在這里插入圖片描述
選擇network,然后根據(jù)歌曲名復(fù)制到搜索框,然后點(diǎn)擊清理按鍵清理所有的請(qǐng)求信息。
然后點(diǎn)擊刷新頁(yè)面,可以看到出現(xiàn)了很多新的請(qǐng)求信息,這里打開(kāi)抓包再開(kāi)始請(qǐng)求是因?yàn)閯偛诺恼?qǐng)求信息可能是有延遲的請(qǐng)求信息,并不全,這里重新獲取的比較全面。
在這里插入圖片描述
在左邊搜索框搜索出來(lái)的點(diǎn)擊就可以看到定位到的位置,在li標(biāo)簽的a標(biāo)簽里面,接下來(lái)我們先查看請(qǐng)求信息get獲取一下信息打印出來(lái)看看:
在這里插入圖片描述
在這里插入圖片描述

選擇headers,要獲取兩個(gè)信息,一個(gè)是url,一個(gè)是request headers底下的user agent。復(fù)制這兩個(gè)信息開(kāi)始下面的代碼:

import requests   
import re   # 正則表達(dá)式的庫(kù)url = "https://music.163.com/discover/toplist?id=19723756"
headers = {"user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
response = requests.get(url=url, headers=headers)
print(response.text)

在這里插入圖片描述
運(yùn)行后打印出獲取到的信息,接下來(lái)開(kāi)始從中提取想要的內(nèi)容,ctrl f定位到歌名可以看到是包裹在li標(biāo)簽中,因?yàn)槲覀兿胍螺d的是mp3格式的文件,看到mp3的下載地址的組成包括id,而id就是和歌名一一對(duì)應(yīng)的,所以我們for循環(huán)獲取每個(gè)歌名及id來(lái)下載對(duì)應(yīng)的mp3文件:
我們先拿這個(gè)“雙星”舉例,他的組成是這樣的:<li><a href="/song?id=2068206782">雙星</a></li>,所以我們可以用正則表達(dá)式來(lái)通用表示所有的歌名的標(biāo)簽組成:<li><a href="/song\?id=(\d+)">(.*?)</a>,代碼如下:

html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
# print(html_data)
for num_id, title in html_data:music_url = f"http://music.163.com/song/media/outer/url?id={num_id}.mp3"  # mp3文件地址music_content = requests.get(url=music_url, headers=headers).contentwith open("/home/alpha/桌面/results/" + title + ".mp3", mode="wb") as f:   # 下載每個(gè)mp3文件f.write(music_content)print(num_id, title)

運(yùn)行結(jié)果:
在這里插入圖片描述
這樣就爬取下當(dāng)前頁(yè)面下全部的mp3文件了。

http://m.aloenet.com.cn/news/42753.html

相關(guān)文章:

  • 福州手機(jī)網(wǎng)站建設(shè)最新國(guó)內(nèi)新聞事件今天
  • 網(wǎng)站店鋪分布圖怎么做網(wǎng)絡(luò)營(yíng)銷(xiāo)專(zhuān)業(yè)是學(xué)什么的
  • java做的k線(xiàn)圖網(wǎng)站源碼下載seo搜索引擎是什么
  • 為什么做電影網(wǎng)站沒(méi)有流量嗎東莞百度seo電話(huà)
  • 做網(wǎng)站搞什么流量百度競(jìng)價(jià)點(diǎn)擊軟件奔奔
  • 網(wǎng)站是如何建立的山東做網(wǎng)站
  • 網(wǎng)站企業(yè)備案代理短視頻拍攝剪輯培訓(xùn)班
  • 溫州網(wǎng)站制作多少錢(qián)谷歌google 官網(wǎng)下載
  • 手機(jī)html5網(wǎng)站源碼廣告投放的方式有哪些
  • 深圳網(wǎng)站建設(shè)培訓(xùn)班深圳最新通告今天
  • 技術(shù)支持:淄博網(wǎng)站建設(shè)優(yōu)化設(shè)計(jì)三年級(jí)上冊(cè)語(yǔ)文答案
  • 山東省建設(shè)工程招標(biāo)中心網(wǎng)站當(dāng)日網(wǎng)站收錄查詢(xún)統(tǒng)計(jì)
  • 網(wǎng)站建設(shè)需求分析寫(xiě)什么茶葉seo網(wǎng)站推廣與優(yōu)化方案
  • 網(wǎng)站程序組成seo搜狗排名點(diǎn)擊
  • 辛集seo網(wǎng)站優(yōu)化電話(huà)靠譜的免費(fèi)建站
  • 建立手機(jī)個(gè)人網(wǎng)站營(yíng)銷(xiāo)網(wǎng)站建設(shè)制作
  • 視頻資源的網(wǎng)站怎么做站長(zhǎng)資訊
  • 網(wǎng)站建設(shè)課程設(shè)計(jì)內(nèi)容淘寶店鋪轉(zhuǎn)讓價(jià)格表
  • wordpress評(píng)論框文件采集站seo課程
  • 自己做網(wǎng)站外包百度熱搜高考大數(shù)據(jù)
  • 企業(yè)做網(wǎng)站需要什么軟件百度品牌廣告收費(fèi)標(biāo)準(zhǔn)
  • 網(wǎng)站制作預(yù)付款會(huì)計(jì)分錄小程序運(yùn)營(yíng)推廣公司
  • 大慶網(wǎng)站制作營(yíng)銷(xiāo)策劃方案包括哪些內(nèi)容
  • 在百度做網(wǎng)站多少錢(qián)網(wǎng)站推廣營(yíng)銷(xiāo)
  • 網(wǎng)站站內(nèi)鏈接濰坊住房公積金管理中心
  • 設(shè)計(jì)網(wǎng)頁(yè)推薦萬(wàn)秀服務(wù)不錯(cuò)的seo推廣
  • 網(wǎng)站的功能和作用百度seo排名帝搜軟件
  • 寶雞哪有有做網(wǎng)站的專(zhuān)業(yè)網(wǎng)絡(luò)推廣公司
  • 網(wǎng)站開(kāi)發(fā)的工作總結(jié)google搜索優(yōu)化方法
  • 怎么做賭博網(wǎng)站代理承德seo