中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
R語言與數(shù)據(jù)挖掘?qū)W習(xí)筆記(3):數(shù)據(jù)探索


19
Jun 12

R語言與數(shù)據(jù)挖掘?qū)W習(xí)筆記(3):數(shù)據(jù)探索

   在開始一個(gè)數(shù)據(jù)分析項(xiàng)目之前,都非常有必要了解一下我們的數(shù)據(jù),今天晚上主要整理數(shù)據(jù)探索方面一些常用的代碼:

一、先看看數(shù)據(jù)

我們首先要先了解一下數(shù)據(jù)的尺寸和結(jié)構(gòu):

dim(iris) # 了解數(shù)據(jù)集的維度,有多少行多少列?

names(iris) # 數(shù)據(jù)有哪些列?

str(iris) # 數(shù)據(jù)的結(jié)構(gòu)如何?

attributes(iris) # 數(shù)據(jù)的列名、行名和數(shù)據(jù)結(jié)構(gòu)

然后看看數(shù)據(jù)集前幾行和后幾行長(zhǎng)成什么樣子:

iris[1:5, ] # 看看數(shù)據(jù)的前5行

head(iris) # 看看數(shù)據(jù)的前6行

tail(iris) # 看看數(shù)據(jù)的最后6行

iris[1:10, "Sepal.Length"] # Sepal.Length變量的前10個(gè)取值

iris$Sepal.Length[1:10] # 用另外一種形式取出

二、看看單個(gè)變量的情況

summary(iris) # 看看單個(gè)變量的關(guān)鍵數(shù)據(jù):最小值、25%分位數(shù)、中位數(shù)、均值、75%分位數(shù)、最大值

quantile(iris$Sepal.Length) # 單個(gè)變量的1%、25%、50%、75%、100%分位數(shù)

quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65)) # 指定分位點(diǎn)對(duì)應(yīng)的分位數(shù)

mean(),median(),range() # 返回均值、中位數(shù)和數(shù)據(jù)的范圍

對(duì)于連續(xù)變量:

var() # 返回變量的方差

hist(iris$Sepal.Length) # 畫出變量的直方圖,看看變量的分布情況

plot(density(iris$Sepal.Length)) # 畫出變量的密度函數(shù)圖

對(duì)于類別變量:

table(iris$Species) # 統(tǒng)計(jì)每個(gè)類別的計(jì)數(shù),了解一下各個(gè)類別的分布

pie(table(iris$Species)) # 畫出每個(gè)類別的占比餅圖

barplot(table(iris$Species)) # 畫出柱狀圖

三、觀察多個(gè)變量之間的關(guān)系

首先看看變量之間的相關(guān)性:

cov(iris[ , 1:4]) # 計(jì)算變量之間的協(xié)方差矩陣

cor(iris[ , 1:4]) # 計(jì)算變量之間的相關(guān)系數(shù)矩陣

然后研究一些在不同的目標(biāo)變量水平下,某變量的基本情況:

aggregate(Sepal.Length~Spacies, summary, data=iris) # 對(duì)于Sepal.Length變量,在每個(gè)Species水平上執(zhí)行summary計(jì)算

boxplot(Sepal.Length~Species, data=iris) # 針對(duì)每個(gè)Species水平繪制Sepal.Length的盒形圖

with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species))) #針對(duì)每個(gè)Species水平繪制兩個(gè)變量的散點(diǎn)圖,并用顏色和點(diǎn)狀區(qū)分

plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))

接著用圖形的方式研究變量之間的關(guān)系:

pairs(iris) # 繪制任意兩個(gè)矩陣之間的散點(diǎn)圖,發(fā)現(xiàn)變量之間的相關(guān)性

四、看看其他方面

三維散點(diǎn)圖:

library(scatterplot3d)
scatterplot3d(iris$Petal.Width, iris$Sepal.Length, iris$Sepal.Width)

構(gòu)造相似性矩陣,用熱圖可視化樣本之間的相似性:

distMatrix <- as.matrix(dist(iris[,1:4]))
heatmap(distMatrix)

以Sepal.Length和Sepal.Width為橫縱坐標(biāo),分水平,以Petal.Width大小為顏色,探索數(shù)據(jù)之間的關(guān)系:

library(lattice)
levelplot(Petal.Width~Sepal.Length*Sepal.Width, iris, cuts=9,col.regions=grey.colors(10)[10:1])

以等高線的形式探索數(shù)據(jù)的關(guān)系:

library(lattice)

filled.contour(volcano, color=terrain.colors, asp=1,plot.axes=contour(volcano, add=T))

畫一頂帽子:

persp(volcano, theta = 25, phi = 30, expand = 0.5, col = "lightblue")

平面坐標(biāo)可視化,研究不同類別變量之間的差異:

library(MASS)
parcoord(iris[1:4], col=iris$Species)

還可以用另外一個(gè)函數(shù)實(shí)現(xiàn)

library(lattice)
parallelplot(~iris[1:4] | Species, data=iris)

最后介紹一下ggplot2這個(gè)包,非常強(qiáng)悍,后續(xù)專門找一個(gè)晚上重點(diǎn)學(xué)習(xí),一個(gè)簡(jiǎn)單的例子:

根據(jù)Species的不同類別,繪制Sepal.Length和Sepal.Width的散點(diǎn)圖。

library(ggplot2)
qplot(Sepal.Length, Sepal.Width, data=iris, facets=Species ~.)

五、保存圖片

# save as a PDF file
pdf("myPlot.pdf")
x <- 1:50
plot(x, log(x))
graphics.off()
# Save as a postscript file
postscript("myPlot2.ps")
x <- -20:20
plot(x, x^2)
graphics.off()

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Python數(shù)據(jù)分析 | seaborn工具與數(shù)據(jù)可視化
數(shù)據(jù)分析第一步:連續(xù)性數(shù)值變量統(tǒng)計(jì)描述常用SPSS及R操作過程
利用R語言如何聚類
R統(tǒng)計(jì)繪圖(1): ggplot2入門指南
R語言Cairo包的使用
tidyr總結(jié)篇
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服