国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

廣平網(wǎng)站建設(shè)seo顧問服務(wù)公司站長

廣平網(wǎng)站建設(shè),seo顧問服務(wù)公司站長,硬件開發(fā)需求,什么網(wǎng)站做app好文章目錄準(zhǔn)備工作刪除缺失值 > 3 的數(shù)據(jù)刪除星級、評論數(shù)、評分中任意字段為空的數(shù)據(jù)刪除非法數(shù)據(jù)hotel_data.csv通過編寫Spark程序清洗酒店數(shù)據(jù)里的缺失數(shù)據(jù)、非法數(shù)據(jù)、重復(fù)數(shù)據(jù)準(zhǔn)備工作 搭建 hadoop 偽分布或 hadoop 完全分布上傳 hotal_data.csv 文件到 hadoopidea 配置…

文章目錄

    • 準(zhǔn)備工作
    • 刪除缺失值 >= 3 的數(shù)據(jù)
    • 刪除星級、評論數(shù)、評分中任意字段為空的數(shù)據(jù)
    • 刪除非法數(shù)據(jù)
    • hotel_data.csv

通過編寫Spark程序清洗酒店數(shù)據(jù)里的缺失數(shù)據(jù)、非法數(shù)據(jù)、重復(fù)數(shù)據(jù)

準(zhǔn)備工作

  1. 搭建 hadoop 偽分布或 hadoop 完全分布
  2. 上傳 hotal_data.csv 文件到 hadoop
  3. idea 配置好 scala 環(huán)境

刪除缺失值 >= 3 的數(shù)據(jù)

  1. 讀取 /hotel_data.csv
  2. 刪除缺失值 >= 3 的數(shù)據(jù), 打印剔除的數(shù)量
  3. 將清洗后的數(shù)據(jù)保存為/hotelsparktask1
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo01 {def main(args: Array[String]): Unit = {// System.setProperty("HADOOP_USER_NAME", "root")//解決保存文件權(quán)限不夠的問題val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("1")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter(_.count(_.equals("NULL")) <= 3)println("刪除的數(shù)據(jù)條目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask1")sc.stop()}
}

刪除星級、評論數(shù)、評分中任意字段為空的數(shù)據(jù)

  1. 讀取 /hotel_data.csv
  2. 將字段{星級、評論數(shù)、評分}中任意字段為空的數(shù)據(jù)刪除, 打印剔除的數(shù)量
  3. 保存 /hotelsparktask2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo02 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("2")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>!(arr(6).equals("NULL") || arr(10).equals("NULL") || arr(11).equals("NULL"))}println("刪除的數(shù)據(jù)條目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask2")sc.stop()}
}

刪除非法數(shù)據(jù)

  1. 讀取第一題的 /hotelsparktask1
  2. 剔除數(shù)據(jù)集中評分和星級字段的非法數(shù)據(jù),合法數(shù)據(jù)是評分[0,5]的實數(shù),星級是指星級字段內(nèi)容中包含 NULL、二星、三星、四星、五星的數(shù)據(jù)
  3. 剔除數(shù)據(jù)集中的重復(fù)數(shù)據(jù)
  4. 分別打印 刪除含有非法評分、星級以及重復(fù)的數(shù)據(jù)條目數(shù)
  5. 保存 /hotelsparktask3
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo03 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")//解決權(quán)限問題val config: SparkConf = new SparkConf().setMaster(  "local[1]").setAppName("3")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/hotelsparktask1"val lines: RDD[String] = sc.textFile(filePath).cache()val data: RDD[Array[String]] = lines.map(_.split(","))val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}val lab = Array("NULL", "一星", "二星", "三星", "四星", "五星")val dataDrop1: RDD[Array[String]] = data.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}val dataDrop2: RDD[String] = lines.distinctprintln("刪除的非法評分?jǐn)?shù)據(jù)條目有: " + (total - dataDrop.count()))println("刪除的非法星級數(shù)據(jù)條目有: " + (total - dataDrop1.count()))println("刪除重復(fù)數(shù)據(jù)條目有: " + (total - dataDrop2.count()))val wordsRdd: RDD[Array[String]] = lines.distinct.map(_.split(",")).filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}wordsRdd.map(_.mkString(",")).saveAsTextFile(hdfsUrl + "/hotelsparktask3")sc.stop()}
}

hotel_data.csv

下載數(shù)據(jù):https://download.csdn.net/download/weixin_44018458/87437211

http://m.aloenet.com.cn/news/32149.html

相關(guān)文章:

  • wordpress模板導(dǎo)出重慶seo哪個強(qiáng)
  • 昆明網(wǎng)站建設(shè)搜q.479185700百度關(guān)鍵詞推廣公司哪家好
  • 公司網(wǎng)站建設(shè)的通知酒店網(wǎng)絡(luò)營銷推廣方式
  • 攝影網(wǎng)站開發(fā)背景怎么寫云搜索
  • 洛陽網(wǎng)站建設(shè)設(shè)計公司百度貼吧熱線客服24小時
  • jsp網(wǎng)站安全性電商運(yùn)營培訓(xùn)大概多少學(xué)費
  • 中企動力科技股份有限公司是做什么的優(yōu)化手機(jī)性能的軟件
  • 做網(wǎng)站賣草坪賺錢嗎精準(zhǔn)營銷推廣方案
  • 網(wǎng)站備案有效期免費下載優(yōu)化大師
  • 做網(wǎng)站600網(wǎng)絡(luò)營銷模式有哪些
  • 網(wǎng)站制作的一般步驟是什么百度百科搜索入口
  • 利用別人域名做自己的網(wǎng)站可以免費推廣的平臺
  • 公司網(wǎng)站設(shè)計怎么做b站視頻推廣怎么買
  • 上海做網(wǎng)站比較有名的公司百度q3財報減虧170億
  • 如何在分類信息網(wǎng)站做推廣軟文推廣代寫代發(fā)
  • 網(wǎng)站策劃過程怎樣推廣品牌
  • 湛江制作企業(yè)網(wǎng)站站長工具使用
  • wordpress 影響力泰州seo外包
  • 手機(jī)開發(fā)工具有哪些長沙seo報價
  • 對網(wǎng)站備案的認(rèn)識濟(jì)南疫情最新情況
  • 網(wǎng)頁欣賞怎樣做關(guān)鍵詞排名優(yōu)化
  • 基于wed的網(wǎng)站開發(fā)房地產(chǎn)營銷策略有哪些
  • 單位網(wǎng)站建設(shè)存在問題情況匯報智能網(wǎng)站排名優(yōu)化
  • 興國做網(wǎng)站網(wǎng)絡(luò)營銷方案的制定
  • 政府網(wǎng)站建設(shè)十強(qiáng)百度seo公司興田德潤
  • 做網(wǎng)站如何將一張圖片直接變體馮耀宗seo視頻教程
  • 邢臺網(wǎng)站建設(shè)的公司湖南網(wǎng)絡(luò)推廣排名
  • apt-get install wordpress深圳外包seo
  • 吉安網(wǎng)站建設(shè)0796abc百度小說搜索風(fēng)云榜總榜
  • 室內(nèi)設(shè)計網(wǎng)站知乎南京響應(yīng)式網(wǎng)站建設(shè)