首先要導(dǎo)入numpy庫(kù):import numpy as np
類(lèi)型 | 類(lèi)型代碼 | 說(shuō)明 |
int8、uint8 | i1、u1 | 有符號(hào)和無(wú)符號(hào)8位整型(1字節(jié)) |
int16、uint16 | i2、u2 | 有符號(hào)和無(wú)符號(hào)16位整型(2字節(jié)) |
int32、uint32 | i4、u4 | 有符號(hào)和無(wú)符號(hào)32位整型(4字節(jié)) |
int64、uint64 | i8、u8 | 有符號(hào)和無(wú)符號(hào)64位整型(8字節(jié)) |
float16 | f2 | 半精度浮點(diǎn)數(shù) |
float32 | f4、f | 單精度浮點(diǎn)數(shù) |
float64 | f8、d | 雙精度浮點(diǎn)數(shù) |
float128 | f16、g | 擴(kuò)展精度浮點(diǎn)數(shù) |
complex64 | c8 | 分別用兩個(gè)32位表示的復(fù)數(shù) |
complex128 | c16 | 分別用兩個(gè)64位表示的復(fù)數(shù) |
complex256 | c32 | 分別用兩個(gè)128位表示的復(fù)數(shù) |
bool | ? | 布爾型 |
object | O | python對(duì)象 |
string | Sn | 固定長(zhǎng)度字符串,每個(gè)字符1字節(jié),如S10 |
unicode | Un | 固定長(zhǎng)度Unicode,字節(jié)數(shù)由系統(tǒng)決定,如U10 |
表2.1.A.1 NumPy類(lèi)型
生成函數(shù) | 作用 |
np.array( x) np.array( x, dtype) | 將輸入數(shù)據(jù)轉(zhuǎn)化為一個(gè)ndarray 將輸入數(shù)據(jù)轉(zhuǎn)化為一個(gè)類(lèi)型為type的ndarray |
np.asarray( array ) | 將輸入數(shù)據(jù)轉(zhuǎn)化為一個(gè)新的(copy)ndarray |
np.ones( N ) np.ones( N, dtype) np.ones_like( ndarray ) | 生成一個(gè)N長(zhǎng)度的一維全一ndarray 生成一個(gè)N長(zhǎng)度類(lèi)型是dtype的一維全一ndarray 生成一個(gè)形狀與參數(shù)相同的全一ndarray |
np.zeros( N) np.zeros( N, dtype) np.zeros_like(ndarray) | 生成一個(gè)N長(zhǎng)度的一維全零ndarray 生成一個(gè)N長(zhǎng)度類(lèi)型位dtype的一維全零ndarray 類(lèi)似np.ones_like( ndarray ) |
np.empty( N ) np.empty( N, dtype) np.empty(ndarray) | 生成一個(gè)N長(zhǎng)度的未初始化一維ndarray 生成一個(gè)N長(zhǎng)度類(lèi)型是dtype的未初始化一維ndarray 類(lèi)似np.ones_like( ndarray ) |
np.eye( N ) np.identity( N ) | 創(chuàng)建一個(gè)N * N的單位矩陣(對(duì)角線為1,其余為0) |
np.arange( num) np.arange( begin, end) np.arange( begin, end, step) | 生成一個(gè)從0到num-1步數(shù)為1的一維ndarray 生成一個(gè)從begin到end-1步數(shù)為1的一維ndarray 生成一個(gè)從begin到end-step的步數(shù)為step的一維ndarray |
np.mershgrid(ndarray, ndarray,...) | 生成一個(gè)ndarray * ndarray * ...的多維ndarray |
np.where(cond, ndarray1, ndarray2) | 根據(jù)條件cond,選取ndarray1或者ndarray2,返回一個(gè)新的ndarray |
np.in1d(ndarray, [x,y,...]) | 檢查ndarray中的元素是否等于[x,y,...]中的一個(gè),返回bool數(shù)組 |
矩陣函數(shù) | 說(shuō)明 |
np.diag( ndarray) np.diag( [x,y,...]) | 以一維數(shù)組的形式返回方陣的對(duì)角線(或非對(duì)角線)元素 將一維數(shù)組轉(zhuǎn)化為方陣(非對(duì)角線元素為0) |
np.dot(ndarray, ndarray) | 矩陣乘法 |
np.trace( ndarray) | 計(jì)算對(duì)角線元素的和 |
排序函數(shù) | 說(shuō)明 |
np.sort( ndarray) | 排序,返回副本 |
np.unique(ndarray) | 返回ndarray中的元素,排除重復(fù)元素之后,并進(jìn)行排序 |
np.intersect1d( ndarray1, ndarray2) np.union1d( ndarray1, ndarray2) np.setdiff1d( ndarray1, ndarray2) np.setxor1d( ndarray1, ndarray2) | 返回二者的交集并排序。 返回二者的并集并排序。 返回二者的差。 返回二者的對(duì)稱差 |
一元計(jì)算函數(shù) | 說(shuō)明 |
np.abs(ndarray) np.fabs(ndarray) | 計(jì)算絕對(duì)值 計(jì)算絕對(duì)值(非復(fù)數(shù)) |
np.mean(ndarray) | 求平均值 |
np.sqrt(ndarray) | 計(jì)算x^0.5 |
np.square(ndarray) | 計(jì)算x^2 |
np.exp(ndarray) | 計(jì)算e^x |
log、log10、log2、log1p | 計(jì)算自然對(duì)數(shù)、底為10的log、底為2的log、底為(1+x)的log |
np.sign(ndarray) | 計(jì)算正負(fù)號(hào):1(正)、0(0)、-1(負(fù)) |
np.ceil(ndarray) np.floor(ndarray) np.rint(ndarray) | 計(jì)算大于等于改值的最小整數(shù) 計(jì)算小于等于該值的最大整數(shù) 四舍五入到最近的整數(shù),保留dtype |
np.modf(ndarray) | 將數(shù)組的小數(shù)和整數(shù)部分以兩個(gè)獨(dú)立的數(shù)組方式返回 |
np.isnan(ndarray) | 返回一個(gè)判斷是否是NaN的bool型數(shù)組 |
np.isfinite(ndarray) np.isinf(ndarray) | 返回一個(gè)判斷是否是有窮(非inf,非NaN)的bool型數(shù)組 返回一個(gè)判斷是否是無(wú)窮的bool型數(shù)組 |
cos、cosh、sin、sinh、tan、tanh | 普通型和雙曲型三角函數(shù) |
arccos、arccosh、arcsin、arcsinh、arctan、arctanh | 反三角函數(shù)和雙曲型反三角函數(shù) |
np.logical_not(ndarray) | 計(jì)算各元素not x的真值,相當(dāng)于-ndarray |
多元計(jì)算函數(shù) | 說(shuō)明 |
np.add(ndarray, ndarray) np.subtract(ndarray, ndarray) np.multiply(ndarray, ndarray) np.divide(ndarray, ndarray) np.floor_divide(ndarray, ndarray) np.power(ndarray, ndarray) np.mod(ndarray, ndarray) | 相加 相減 乘法 除法 圓整除法(丟棄余數(shù)) 次方 求模 |
np.maximum(ndarray, ndarray) np.fmax(ndarray, ndarray) np.minimun(ndarray, ndarray) np.fmin(ndarray, ndarray) | 求最大值 求最大值(忽略NaN) 求最小值 求最小值(忽略NaN) |
np.copysign(ndarray, ndarray) | 將參數(shù)2中的符號(hào)賦予參數(shù)1 |
np.greater(ndarray, ndarray) np.greater_equal(ndarray, ndarray) np.less(ndarray, ndarray) np.less_equal(ndarray, ndarray) np.equal(ndarray, ndarray) np.not_equal(ndarray, ndarray) | > >= <> == != |
logical_and(ndarray, ndarray) logical_or(ndarray, ndarray) logical_xor(ndarray, ndarray) | & | ^ |
np.dot( ndarray, ndarray) | 計(jì)算兩個(gè)ndarray的矩陣內(nèi)積 |
np.ix_([x,y,m,n],...) | 生成一個(gè)索引器,用于Fancy indexing(花式索引) |
文件讀寫(xiě) | 說(shuō)明 |
np.save(string, ndarray) | 將ndarray保存到文件名為 [string].npy 的文件中(無(wú)壓縮) |
np.savez(string, ndarray1, ndarray2, ...) | 將所有的ndarray壓縮保存到文件名為[string].npy的文件中 |
np.savetxt(sring, ndarray, fmt, newline='\n') | 將ndarray寫(xiě)入文件,格式為fmt |
np.load(string) | 讀取文件名string的文件內(nèi)容并轉(zhuǎn)化為ndarray對(duì)象(或字典對(duì)象) |
np.loadtxt(string, delimiter) | 讀取文件名string的文件內(nèi)容,以delimiter為分隔符轉(zhuǎn)化為ndarray |
ndarray.ndim | 獲取ndarray的維數(shù) |
ndarray.shape | 獲取ndarray各個(gè)維度的長(zhǎng)度 |
ndarray.dtype | 獲取ndarray中元素的數(shù)據(jù)類(lèi)型 |
ndarray.T | 簡(jiǎn)單轉(zhuǎn)置矩陣ndarray |
函數(shù) | 說(shuō)明 |
ndarray.astype(dtype) | 轉(zhuǎn)換類(lèi)型,若轉(zhuǎn)換失敗則會(huì)出現(xiàn)TypeError |
ndarray.copy() | 復(fù)制一份ndarray(新的內(nèi)存空間) |
ndarray.reshape((N,M,...)) | 將ndarray轉(zhuǎn)化為N*M*...的多維ndarray(非copy) |
ndarray.transpose((xIndex,yIndex,...)) | 根據(jù)維索引xIndex,yIndex...進(jìn)行矩陣轉(zhuǎn)置,依賴于shape,不能用于一維矩陣(非copy) |
ndarray.swapaxes(xIndex,yIndex) | 交換維度(非copy) |
計(jì)算函數(shù) | 說(shuō)明 |
ndarray.mean( axis=0 ) | 求平均值 |
ndarray.sum( axis= 0) | 求和 |
ndarray.cumsum( axis=0) ndarray.cumprod( axis=0) | 累加 累乘 |
ndarray.std() ndarray.var() | 方差 標(biāo)準(zhǔn)差 |
ndarray.max() ndarray.min() | 最大值 最小值 |
ndarray.argmax() ndarray.argmin() | 最大值索引 最小值索引 |
ndarray.any() ndarray.all() | 是否至少有一個(gè)True 是否全部為T(mén)rue |
ndarray.dot( ndarray) | 計(jì)算矩陣內(nèi)積 |
排序函數(shù) | 說(shuō)明 |
ndarray.sort(axis=0) | 排序,返回源數(shù)據(jù) |
ndarray[n] | 選取第n+1個(gè)元素 |
ndarray[n:m] | 選取第n+1到第m個(gè)元素 |
ndarray[:] | 選取全部元素 |
ndarray[n:] | 選取第n+1到最后一個(gè)元素 |
ndarray[:n] | 選取第0到第n個(gè)元素 |
ndarray[ bool_ndarray ] 注:bool_ndarray表示bool類(lèi)型的ndarray | 選取為true的元素 |
ndarray[[x,y,m,n]]... | 選取順序和序列為x、y、m、n的ndarray |
ndarray[n,m] ndarray[n][m] | 選取第n+1行第m+1個(gè)元素 |
ndarray[n,m,...] ndarray[n][m].... | 選取n行n列....的元素 |
函數(shù) | 說(shuō)明 |
seed() seed(int) seed(ndarray) | 確定隨機(jī)數(shù)生成種子 |
permutation(int) permutation(ndarray) | 返回一個(gè)一維從0~9的序列的隨機(jī)排列 返回一個(gè)序列的隨機(jī)排列 |
shuffle(ndarray) | 對(duì)一個(gè)序列就地隨機(jī)排列 |
rand(int) randint(begin,end,num=1) | 產(chǎn)生int個(gè)均勻分布的樣本值 從給定的begin和end隨機(jī)選取num個(gè)整數(shù) |
randn(N, M, ...) | 生成一個(gè)N*M*...的正態(tài)分布(平均值為0,標(biāo)準(zhǔn)差為1)的ndarray |
normal(size=(N,M,...)) | 生成一個(gè)N*M*...的正態(tài)(高斯)分布的ndarray |
beta(ndarray1,ndarray2) | 產(chǎn)生beta分布的樣本值,參數(shù)必須大于0 |
chisquare() | 產(chǎn)生卡方分布的樣本值 |
gamma() | 產(chǎn)生gamma分布的樣本值 |
uniform() | 產(chǎn)生在[0,1)中均勻分布的樣本值 |
2.1.C.1 random常用函數(shù)
函數(shù) | 說(shuō)明 |
det(ndarray) | 計(jì)算矩陣列式 |
eig(ndarray) | 計(jì)算方陣的本征值和本征向量 |
inv(ndarray) pinv(ndarray) | 計(jì)算方陣的逆 計(jì)算方陣的Moore-Penrose偽逆 |
qr(ndarray) | 計(jì)算qr分解 |
svd(ndarray) | 計(jì)算奇異值分解svd |
solve(ndarray) | 解線性方程組Ax = b,其中A為方陣 |
lstsq(ndarray) | 計(jì)算Ax=b的最小二乘解 |
2.1.D.1 linalg常用函數(shù)
pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas 納入了大量庫(kù)和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
>>> from pandas import Series, DataFrame
>>> import pandas as pd
函數(shù) | 說(shuō)明 |
pd.isnull(series) pd.notnull(series) | 判斷是否為空(NaN) 判斷是否不為空(not NaN) |
2.2.A.1 pandas常用函數(shù)
屬性 | 說(shuō)明 |
values | 獲取數(shù)組 |
index | 獲取索引 |
name | values的name |
index.name | 索引的name |
函數(shù) | 說(shuō)明 |
Series([x,y,...])Series({'a':x,'b':y,...}, index=param1) | 生成一個(gè)Series |
Series.copy() | 復(fù)制一個(gè)Series |
Series.reindex([x,y,...], fill_value=NaN) Series.reindex([x,y,...], method=NaN) Series.reindex(columns=[x,y,...]) | 重返回一個(gè)適應(yīng)新索引的新對(duì)象,將缺失值填充為fill_value 返回適應(yīng)新索引的新對(duì)象,填充方式為method 對(duì)列進(jìn)行重新索引 |
Series.drop(index) | 丟棄指定項(xiàng) |
Series.map(f) | 應(yīng)用元素級(jí)函數(shù) |
排序函數(shù) | 說(shuō)明 |
Series.sort_index(ascending=True) | 根據(jù)索引返回已排序的新對(duì)象 |
Series.order(ascending=True) | 根據(jù)值返回已排序的對(duì)象,NaN值在末尾 |
Series.rank(method='average', ascending=True, axis=0) | 為各組分配一個(gè)平均排名 |
df.argmax() df.argmin() | 返回含有最大值的索引位置 返回含有最小值的索引位置 |
2.2.B.2 Series常用函數(shù)
reindex的method選項(xiàng):DataFrame是一個(gè)表格型的數(shù)據(jù)結(jié)構(gòu),它含有一組有序的列,每列可以是不同的值類(lèi)型(數(shù)值、字符串、布爾值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個(gè)索引)。
DataFrame可以通過(guò)類(lèi)似字典的方式或者.columnname的方式將列獲取為一個(gè)Series。行也可以通過(guò)位置或名稱的方式進(jìn)行獲取。
為不存在的列賦值會(huì)創(chuàng)建新列。
>>> del frame['xxx'] # 刪除列
屬性 | 說(shuō)明 |
values | DataFrame的值 |
index | 行索引 |
index.name | 行索引的名字 |
columns | 列索引 |
columns.name | 列索引的名字 |
ix | 返回行的DataFrame |
ix[[x,y,...], [x,y,...]] | 對(duì)行重新索引,然后對(duì)列重新索引 |
T | frame行列轉(zhuǎn)置 |
2.2.C.1 DataFrame常用屬性
函數(shù) | 說(shuō)明 |
DataFrame(dict, columns=dict.index, index=[dict.columnnum]) DataFrame(二維ndarray) DataFrame(由數(shù)組、列表或元組組成的字典) DataFrame(NumPy的結(jié)構(gòu)化/記錄數(shù)組) DataFrame(由Series組成的字典) DataFrame(由字典組成的字典) DataFrame(字典或Series的列表) DataFrame(由列表或元組組成的列表) DataFrame(DataFrame) DataFrame(NumPy的MaskedArray) | 構(gòu)建DataFrame 數(shù)據(jù)矩陣,還可以傳入行標(biāo)和列標(biāo) 每個(gè)序列會(huì)變成DataFrame的一列。所有序列的長(zhǎng)度必須相同 類(lèi)似于“由數(shù)組組成的字典” 每個(gè)Series會(huì)成為一列。如果沒(méi)有顯式制定索引,則各Series的索引會(huì)被合并成結(jié)果的行索引 各內(nèi)層字典會(huì)成為一列。鍵會(huì)被合并成結(jié)果的行索引。 各項(xiàng)將會(huì)成為DataFrame的一行。索引的并集會(huì)成為DataFrame的列標(biāo)。 類(lèi)似于二維ndarray 沿用DataFrame 類(lèi)似于二維ndarray,但掩碼結(jié)果會(huì)變成NA/缺失值
|
df.reindex([x,y,...], fill_value=NaN, limit) df.reindex([x,y,...], method=NaN) df.reindex([x,y,...], columns=[x,y,...],copy=True) | 返回一個(gè)適應(yīng)新索引的新對(duì)象,將缺失值填充為fill_value,最大填充量為limit 返回適應(yīng)新索引的新對(duì)象,填充方式為method 同時(shí)對(duì)行和列進(jìn)行重新索引,默認(rèn)復(fù)制新對(duì)象。 |
df.drop(index, axis=0) | 丟棄指定軸上的指定項(xiàng)。 |
排序函數(shù) | 說(shuō)明 |
df.sort_index(axis=0, ascending=True) df.sort_index(by=[a,b,...]) | 根據(jù)索引排序 |
匯總統(tǒng)計(jì)函數(shù) | 說(shuō)明 |
df.count() | 非NaN的數(shù)量 |
df.describe() | 一次性產(chǎn)生多個(gè)匯總統(tǒng)計(jì) |
df.min() df.min() | 最小值 最大值 |
df.idxmax(axis=0, skipna=True) df.idxmin(axis=0, skipna=True) | 返回含有最大值的index的Series 返回含有最小值的index的Series |
df.quantile(axis=0) | 計(jì)算樣本的分位數(shù) |
df.sum(axis=0, skipna=True, level=NaN) df.mean(axis=0, skipna=True, level=NaN) df.median(axis=0, skipna=True, level=NaN) df.mad(axis=0, skipna=True, level=NaN) df.var(axis=0, skipna=True, level=NaN) df.std(axis=0, skipna=True, level=NaN) df.skew(axis=0, skipna=True, level=NaN) df.kurt(axis=0, skipna=True, level=NaN) df.cumsum(axis=0, skipna=True, level=NaN) df.cummin(axis=0, skipna=True, level=NaN) df.cummax(axis=0, skipna=True, level=NaN) df.cumprod(axis=0, skipna=True, level=NaN) df.diff(axis=0) df.pct_change(axis=0) | 返回一個(gè)含有求和小計(jì)的Series 返回一個(gè)含有平均值的Series 返回一個(gè)含有算術(shù)中位數(shù)的Series 返回一個(gè)根據(jù)平均值計(jì)算平均絕對(duì)離差的Series 返回一個(gè)方差的Series 返回一個(gè)標(biāo)準(zhǔn)差的Series 返回樣本值的偏度(三階距) 返回樣本值的峰度(四階距) 返回樣本的累計(jì)和 返回樣本的累計(jì)最大值 返回樣本的累計(jì)最小值 返回樣本的累計(jì)積 返回樣本的一階差分 返回樣本的百分比數(shù)變化 |
計(jì)算函數(shù) | 說(shuō)明 |
df.add(df2, fill_value=NaN, axist=1) df.sub(df2, fill_value=NaN, axist=1) df.div(df2, fill_value=NaN, axist=1) df.mul(df2, fill_value=NaN, axist=1) | 元素級(jí)相加,對(duì)齊時(shí)找不到元素默認(rèn)用fill_value 元素級(jí)相減,對(duì)齊時(shí)找不到元素默認(rèn)用fill_value 元素級(jí)相除,對(duì)齊時(shí)找不到元素默認(rèn)用fill_value 元素級(jí)相乘,對(duì)齊時(shí)找不到元素默認(rèn)用fill_value |
df.apply(f, axis=0) | 將f函數(shù)應(yīng)用到由各行各列所形成的一維數(shù)組上 |
df.applymap(f) | 將f函數(shù)應(yīng)用到各個(gè)元素上 |
df.cumsum(axis=0, skipna=True) | 累加,返回累加后的dataframe |
2.2.C.2 Dataframe常用函數(shù)
索引方式 | 說(shuō)明 |
df[val] | 選取DataFrame的單個(gè)列或一組列 |
df.ix[val] | 選取Dataframe的單個(gè)行或一組行 |
df.ix[:,val] | 選取單個(gè)列或列子集 |
df.ix[val1,val2] | 將一個(gè)或多個(gè)軸匹配到新索引 |
reindex方法 | 將一個(gè)或多個(gè)軸匹配到新索引 |
xs方法 | 根據(jù)標(biāo)簽選取單行或者單列,返回一個(gè)Series |
icol、irow方法 | 根據(jù)整數(shù)位置選取單列或單行,并返回一個(gè)Series |
get_value、set_value | 根據(jù)行標(biāo)簽和列標(biāo)簽選取單個(gè)值 |
2.2.C.3 Dataframe常用索引方式
默認(rèn)情況下,Dataframe和Series之間的算術(shù)運(yùn)算會(huì)將Series的索引匹配到的Dataframe的列,沿著列一直向下傳播。若索引找不到,則會(huì)重新索引產(chǎn)生并集。
pandas的索引對(duì)象負(fù)責(zé)管理軸標(biāo)簽和其他元數(shù)據(jù)(比如軸名稱等)。構(gòu)建Series或DataFrame時(shí),所用到的任何數(shù)組或其他序列的標(biāo)簽都會(huì)被轉(zhuǎn)換成一個(gè)Index。Index對(duì)象不可修改,從而在多個(gè)數(shù)據(jù)結(jié)構(gòu)之間安全共享。
主要的Index對(duì)象 | 說(shuō)明 |
Index | 最廣泛的Index對(duì)象,將軸標(biāo)簽表示為一個(gè)由Python對(duì)象組成的NumPy數(shù)組 |
Int64Index | 針對(duì)整數(shù)的特殊Index |
MultiIndex | “層次化”索引對(duì)象,表示單個(gè)軸上的多層索引??梢钥醋鲇稍M組成的數(shù)組 |
DatetimeIndex | 存儲(chǔ)納秒級(jí)時(shí)間戳(用NumPy的Datetime64類(lèi)型表示) |
PeriodIndex | 針對(duì)Period數(shù)據(jù)(時(shí)間間隔)的特殊Index |
2.2.D.1 主要的Index屬性
函數(shù) | 說(shuō)明 |
Index([x,y,...]) | 創(chuàng)建索引 |
append(Index) | 連接另一個(gè)Index對(duì)象,產(chǎn)生一個(gè)新的Index |
diff(Index) | 計(jì)算差集,產(chǎn)生一個(gè)新的Index |
intersection(Index) | 計(jì)算交集 |
union(Index) | 計(jì)算并集 |
isin(Index) | 檢查是否存在與參數(shù)索引中,返回bool型數(shù)組 |
delete(i) | 刪除索引i處元素,得到新的Index |
drop(str) | 刪除傳入的值,得到新Index |
insert(i,str) | 將元素插入到索引i處,得到新Index |
is_monotonic() | 當(dāng)各元素大于前一個(gè)元素時(shí),返回true |
is_unique() | 當(dāng)Index沒(méi)有重復(fù)值時(shí),返回true |
unique() | 計(jì)算Index中唯一值的數(shù)組 |
2.2.D.2 常用Index函數(shù)
聯(lián)系客服