項(xiàng)目介紹
所謂探索性數(shù)據(jù)分析(Exploratory Data Analysis,以下簡(jiǎn)稱EDA),是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對(duì)這些數(shù)據(jù)中的信息沒有足夠的經(jīng)驗(yàn),不知道該用何種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時(shí),探索性數(shù)據(jù)分析就會(huì)非常有效。探索性數(shù)據(jù)分析在上世紀(jì)六十年代被提出,其方法由美國(guó)著名統(tǒng)計(jì)學(xué)家約翰·圖基(John Tukey)命名。
本項(xiàng)目需解決的問題
本項(xiàng)目分析P2P平臺(tái)Lending Club的貸款數(shù)據(jù),探索數(shù)據(jù)分析過程中,并嘗試回答以下3個(gè)問題:
利率與風(fēng)險(xiǎn)成正比,風(fēng)險(xiǎn)越高,利率越高,違約的可能線性越大,從P2P平臺(tái)的數(shù)據(jù)來(lái)看,影響風(fēng)險(xiǎn)的因素有哪些?(為后續(xù)建模做準(zhǔn)備)
了解P2P平臺(tái)的業(yè)務(wù)特點(diǎn)、產(chǎn)品類型、資產(chǎn)質(zhì)量、風(fēng)險(xiǎn)定價(jià)?
有什么建議?
我們可以將信貸信息分為信貸硬信息和信貸軟信息。
任何可以量化客戶的還款能力的信息均可以用作硬信息,可勾勒客戶還款意愿的信息則為軟信息。
信貸硬信息: 站在企業(yè)的角度,硬信息主要包括財(cái)務(wù)三大報(bào)表(資產(chǎn)負(fù)債表、利潤(rùn)表和現(xiàn)金流量表)以及信貸記錄;站在個(gè)人角度硬信息主要包括:個(gè)人年收入 、資產(chǎn)狀況(借款是否擁有房產(chǎn)、車或理財(cái)產(chǎn)品)。
信貸軟信息: 過往的信貸記錄比較直接了解客戶的還款意愿,以往發(fā)生違約次數(shù)較多的客戶再次發(fā)生違約的概率相比其他客戶大??蛻舻膶W(xué)歷、年齡、目前工作所在單位的級(jí)別和性別等信息也可作為軟信息。
因此,我們主要圍繞著“客戶是否具有償還能力,是否具有償還意愿”展開探索分析。
作為舊金山的一家個(gè)人對(duì)個(gè)人的借貸公司,Lending Club成立于2006年。他們是第一家注冊(cè)為按照美國(guó)證券交易委員會(huì)SEC(Securities and Exchange Commission)的安全標(biāo)準(zhǔn)向個(gè)人提供個(gè)人貸款的借貸公司。與傳統(tǒng)借貸機(jī)構(gòu)最大的不同是,Lending Club利用網(wǎng)絡(luò)技術(shù)打造的這個(gè)交易平臺(tái),直接連接了個(gè)人投資者和個(gè)人借貸者,通過此種方式,縮短了資金流通的環(huán)節(jié),尤其是繞過了傳統(tǒng)的大銀行等金融機(jī)構(gòu),使得投資者和借貸者都能得到更多實(shí)惠、更快捷。對(duì)于投資者來(lái)說可以獲得更好的回報(bào),而對(duì)于借貸者來(lái)說,則可以獲得相對(duì)較低的貸款利率。
數(shù)據(jù)集
數(shù)據(jù)集是Lending Club平臺(tái)發(fā)生借貸的業(yè)務(wù)數(shù)據(jù)(2017年第二季),具體數(shù)據(jù)集可以從Lending Club官網(wǎng)下載
本項(xiàng)目報(bào)告分析,我將如何運(yùn)用Python操作數(shù)據(jù)和探索分析數(shù)據(jù)的思考過程均記錄下來(lái)。
第一步,導(dǎo)入我們要用的庫(kù)
# Imports# Pandasimport pandas as pd# numpy,matplotlib,seaborn,pyechartsimport numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot') #風(fēng)格設(shè)置近似R這種的ggplot庫(kù)import seaborn as snssns.set_style('whitegrid')%matplotlib inlinefrom pyecharts import Pie# 忽略彈出的warningsimport warningswarnings.filterwarnings('ignore') plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默認(rèn)字體plt.rcParams['axes.unicode_minus'] = False # 解決保存圖像是負(fù)號(hào)'-'顯示為方塊的問題
注意:不要漏了%matplotlib inline。IPython提供了很多魔法命令,使得在IPython環(huán)境中的操作更加得心應(yīng)手,使用%matplotlib inline在繪圖時(shí),將圖片內(nèi)嵌在交互窗口,而不是彈出一個(gè)圖片窗口。具體請(qǐng)查看Stackoverflow的解釋。
第二步,使用Pandas解析數(shù)據(jù)
Pandas是基于NumPy的一個(gè)非常好用的庫(kù),無(wú)論是讀取數(shù)據(jù)、處理數(shù)據(jù),用它都非常簡(jiǎn)單。學(xué)習(xí)Pandas最好的方法就是查看官方文檔 。
數(shù)據(jù)集的格式是CSV,因此我們用到pandans.read_csv方法,同時(shí)也將CSV內(nèi)容轉(zhuǎn)化成矩陣的格式。
data = pd.read_csv('LoanStats_2017Q2.csv' , encoding='latin-1',skiprows = 1)
一旦獲得了數(shù)據(jù),下一步就是檢查和探索他們。在這個(gè)階段,主要的目標(biāo)是合理地檢查數(shù)據(jù)。例如:如果數(shù)據(jù)有唯一的標(biāo)記符,是否真的只有一個(gè);數(shù)據(jù)是什么類型,檢查最極端的情況。他們是否有意義,有什么需要?jiǎng)h除的嗎?數(shù)據(jù)應(yīng)該怎么調(diào)整才能適用于接下來(lái)的分析和挖掘?此外,數(shù)據(jù)集還有可能存在異常值。同時(shí),我將會(huì)通過對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)測(cè)試,并將其可視化。 檢查和探索數(shù)據(jù)的過程非常關(guān)鍵。因?yàn)橄乱徊叫枰逑春蜏?zhǔn)備處理這些數(shù)據(jù),只有進(jìn)入模型的數(shù)據(jù)質(zhì)量是好的,才能構(gòu)建好的模型。(避免Garbage in, Garbage out)
首先預(yù)覽基本內(nèi)容,Pandas為我們提供很多可以方便查看和檢查數(shù)數(shù)據(jù)的方法,有df.head(n)、df.tail(n)、df.shape()、http://df.info() 等 。
查看表格的行數(shù)和列數(shù)
In:data.shape # 該數(shù)據(jù)集有105,543行,137列out:(105455, 137)
data.head() # 默認(rèn)前5行
擴(kuò)大行查看范圍
data.iloc[0] #取矩陣當(dāng)中第一行樣本
由上圖我們發(fā)現(xiàn)一些列有很多缺失值,這些缺失值對(duì)我們的數(shù)據(jù)分析沒有意義,因此,首先把含有許多缺失值的列刪除,同時(shí)將已清洗過的數(shù)據(jù)新建CSV保存。
處理缺失值
統(tǒng)計(jì)每列屬性缺失值的數(shù)量。
def not_null_count(column): column_null = pd.isnull(column) #判斷某列屬性是否存在缺失值 null = column[column_null] return len(null)column_null_count = data.apply(not_null_count) print (column_null_count)
half_count = len(data)/2 # 設(shè)定閥值data = data.dropna(thresh = half_count, axis = 1 ) #若某一列數(shù)據(jù)缺失的數(shù)量超過閥值就會(huì)被刪除#data = data.drop(['desc', 'url'], axis = 1) # 刪除某些加載了網(wǎng)址的url 和 描述的列data.to_csv('loans_2017q2.csv', index = False) # 將預(yù)處理后的數(shù)據(jù)轉(zhuǎn)化為csv
再次用pandas解析預(yù)處理過的數(shù)據(jù)文件并預(yù)覽基本信息。
loans = pd.read_csv('loans_2017q2.csv',encoding='gb2312')loans.shapeloans.head()
數(shù)據(jù)從137列減少至102列。
loans.dtypes # 查看數(shù)據(jù)類型
loans.describe()
Pandas的describe()不能統(tǒng)計(jì)數(shù)據(jù)類型為object的屬性,部分?jǐn)?shù)據(jù)int_rate和emp_length數(shù)據(jù)類型都是object,稍后分析數(shù)據(jù)時(shí)需將它們轉(zhuǎn)化為類型為floate的數(shù)字類型。
數(shù)據(jù)集的屬性較多,我們初步聚焦幾個(gè)重要特征展開分析,特別是我們最關(guān)心的屬性貸款狀態(tài)。
used_col = ['loan_amnt', 'term', 'int_rate', 'grade', 'issue_d', 'addr_state', 'loan_status','purpose', 'annual_inc', 'emp_length'] # 貸款金額、貸款期限、貸款利率、信用評(píng)級(jí)、業(yè)務(wù)發(fā)生時(shí)間、業(yè)務(wù)發(fā)生所在州、貸款狀態(tài)、貸款用途used_data = loans[used_col]
used_data.head(5) # 數(shù)據(jù)預(yù)覽
def not_null_count(column): column_null = pd.isnull(column) #判斷某列屬性是否存在缺失值 null = column[column_null] return len(null)column_null_count = used_data.apply(not_null_count) print (column_null_count)
單變量分析
1.貸款狀態(tài)分布
處理異常值
used_data[used_data['loan_status'] == 'n']
由于loan_status異常值為n的數(shù)量和貸款金額較小,因此我們直接刪異常值所對(duì)應(yīng)的行。
used_data = used_data.drop([6873,21814,51957])
為了更方便分析,我們將貸款狀態(tài)進(jìn)行分類變量編碼,主要將貸款狀態(tài)分為正常和違約,貸款狀態(tài)分類依據(jù)主要參考 The 10 loan status variants explained
#使用Pandas replace函數(shù)定義新函數(shù):def coding(col, codeDict): colCoded = pd.Series(col, copy=True) for key, value in codeDict.items(): colCoded.replace(key, value, inplace=True) return colCoded#把貸款狀態(tài)LoanStatus編碼為違約=1, 正常=0:pd.value_counts(used_data['loan_status'])used_data['Loan_Status_Coded'] = coding(used_data['loan_status'], {'Current':0,'Fully Paid':0,'In Grace Period':1,'Late (31-120 days)':1,'Late (16-30 days)':1,'Charged Off':1})print( '\nAfter Coding:')pd.value_counts(used_data['Loan_Status_Coded'])
[i for i in pd.value_counts(used_data['Loan_Status_Coded'])] # Pyecharts 目前支持Numpy和Pandas的數(shù)據(jù)類型,因此需做數(shù)據(jù)類型轉(zhuǎn)換
# 用新學(xué)的Pyecharts作圖attr = ['正常', '違約']pie = Pie('貸款狀態(tài)占比')pie.add('', attr, [int(i) for i in pd.value_counts(used_data['Loan_Status_Coded'])] ,is_label_show=True)pie
從圖中可以看出,平臺(tái)貸款發(fā)生違約的數(shù)量占少數(shù)。貸款狀態(tài)為正常的有103,746個(gè),貸款正常狀態(tài)占比為98.38%。貸款狀態(tài)將作為我們建模的標(biāo)簽,貸款狀態(tài)正常和貸款狀態(tài)違約兩者數(shù)量不平衡,絕大多數(shù)常見的機(jī)器學(xué)習(xí)算法對(duì)于不平衡數(shù)據(jù)集都不能很好地工作,下一篇項(xiàng)目報(bào)告中,我們將會(huì)解決樣本不平衡的問題。
2.貸款金額分布
plt.figure(figsize=(18, 9))sns.set()sns.set_context('notebook', font_scale=1, rc={'lines.linewidth':2 } )sdisplot_loan = sns.distplot(used_data['loan_amnt'] )plt.xticks(rotation=90)plt.xlabel('Loan amount')plt.title('Loan amount\'s distribution')sdisplot_loan.figure.savefig('Loan_amount')
平臺(tái)貸款呈現(xiàn)右偏正態(tài)分布,貸款金額最小值為1,000美元,最大值為40,000美元,貸款金額主要集中在10,000美元左右,中位數(shù)為12,000美元,可以看出平臺(tái)業(yè)務(wù)主要以小額貸款為主。貸款金額越大風(fēng)險(xiǎn)越大。
3.貸款期限分布
pd.value_counts(loans['term']) # 分類統(tǒng)計(jì)貸款期限
[i for i in pd.value_counts(loans['term'])] #數(shù)據(jù)轉(zhuǎn)換# 貸款期限占比可視化attr = ['36個(gè)月', '60個(gè)月']pie = Pie('貸款期限占比')pie.add('', attr, [float(i) for i in pd.value_counts(loans['term'])] ,is_label_show=True)pie
平臺(tái)貸款產(chǎn)品期限分為36個(gè)月和60個(gè)月兩種,其中貸款期限為60個(gè)月的貸款占比為26.88%,貸款期限為36個(gè)月的貸款占比為73.12%。一般來(lái)說貸款期限越長(zhǎng),不確定性越大,違約的可能性更大,期限較長(zhǎng)的貸款產(chǎn)品風(fēng)險(xiǎn)越高 。從期限角度看,平臺(tái)風(fēng)險(xiǎn)偏小的資產(chǎn)占大部分。
4.貸款產(chǎn)品用途種類比較
used_data['purpose'].value_counts()# 按借款用途統(tǒng)作統(tǒng)計(jì)
plt.figure(figsize=(18, 9))sns.set()sns.set_context('notebook', font_scale=1.5, rc={'lines.linewidth': 2.5})total = float(len(loans.index))ax = sns.countplot(x='purpose', data=used_data, palette='Set2')ax.set(yscale = 'log')plt.xticks(rotation=90)plt.title('Purpose')plt.show()ax.figure.savefig('Purpose')
P2P平臺(tái)貸款用途最多的為債務(wù)重組(借新債還舊債),其次是信用卡還款,第三是住房改善。一般來(lái)說,貸款用途為債務(wù)重組和信用卡還款的客戶現(xiàn)金流較為緊張,此類客戶也是在傳統(tǒng)銀行渠道無(wú)法貸款才轉(zhuǎn)來(lái)P2P平臺(tái)貸款,這部分客戶的償還貸款能力較弱,發(fā)生違約的可能性較高。還有部分貸款用途為Other的貸款,需要通過其他維度來(lái)分析其風(fēng)險(xiǎn)。
5.客戶信用等級(jí)占比
used_data['grade'].value_counts()
attr = ['C', 'B','A','D','E','F','G']pie = Pie('信用等級(jí)比例')pie.add('', attr, [float(i) for i in pd.value_counts(loans['grade'])] ,is_label_show=True)pie
Lending Club平臺(tái)對(duì)客戶的信用等級(jí)分7類,A~G,信用等級(jí)為A的客戶信用評(píng)分最高,信用等級(jí)為G的客戶最低,信用等級(jí)的客戶發(fā)生違約的可能性更低。目前,平臺(tái)客戶信用等級(jí)占比較多的客戶為C類,其次是B類和A類,三者合計(jì)占比為81.62%。此外信用等級(jí)為E、F、G類的客戶占比為6.99%。可以看出Lending Club授信部門對(duì)申請(qǐng)人的資信情況把關(guān)較嚴(yán)。
6.貸款利率種類分布
used_data['int_rate_num']= used_data['int_rate'].str.rstrip('%').astype('float') #數(shù)據(jù)轉(zhuǎn)換used_data.tail() #發(fā)現(xiàn)空值used_data.dropna( inplace=True) #處理空值used_data.tail() #再次檢查
used_data.describe()
plt.figure(figsize=(18, 9))sns.set()sns.set_context('notebook', font_scale=1, rc={'lines.linewidth':2 } )sdisplot_loan = sns.distplot(used_data['int_rate_num'] )plt.xticks(rotation=90)plt.xlabel('Interest Rate')plt.title('Interest Rate\'s distribution')sdisplot_loan.figure.savefig('Interest Rate')
Lending Club平臺(tái)貸款利率呈現(xiàn)右偏正態(tài)分布,利率中位數(shù)12.62%,利率最高值為31.00%,利率最小值為5.32%。利率是資金的價(jià)格,利率越高,借款人借貸成本越高,借款人違約的可能性越高。
多維變量分析
1.探索貸款與時(shí)間的關(guān)系
首先對(duì)時(shí)間數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換
used_data['issue_d2'] = pd.to_datetime(used_data['issue_d'])used_data.head()
data_group_by_date = used_data.groupby(['issue_d2']).sum()data_group_by_date.reset_index(inplace=True)data_group_by_date['issue_month'] = data_group_by_date['issue_d2'].apply(lambda x: x.to_period('M')) # 新增月份列l(wèi)oan_amount_group_by_month = data_group_by_date.groupby('issue_month')['loan_amnt'].sum() #按月份統(tǒng)計(jì)貸款金額loan_amount_group_by_month_df = pd.DataFrame(loan_amount_group_by_month).reset_index() # 輸出結(jié)果轉(zhuǎn)成DataFrameloan_amount_group_by_month_df
# 可視化plt.figure(figsize=(15, 9))sns.set()sns.set_context('notebook', font_scale=1, rc={'lines.linewidth': 2})plot1 = sns.barplot(x='issue_month', y= 'loan_amnt', data = loan_amount_group_by_month_df,)plt.xlabel('Month')plt.ylabel('Loan_amount')plt.title('Mounth VS Loan_amount')plot1.figure.savefig('Mounth VS Loan_amount.png')
二季度4月份貸款最低,而5月和6月的貸款金額基本持平。由于本數(shù)據(jù)集只包含2017Q2的數(shù)據(jù),如果數(shù)據(jù)集能包括橫跨幾年業(yè)務(wù)數(shù)據(jù),可以將數(shù)據(jù)按年按月做橫向和縱向?qū)Ρ龋芊从彻緲I(yè)務(wù)的發(fā)展情況。初步看來(lái),Leding Club 平臺(tái)在2017Q2業(yè)務(wù)持續(xù)增長(zhǎng)。
2.探索貸款金額與州之間的關(guān)系
data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum() # 按州統(tǒng)計(jì)貸款金額data_group_by_state_df= data_group_by_state.reset_index() # 將結(jié)果轉(zhuǎn)為 dataframe
sns.set()plt.figure(figsize=(15, 9))sns.set_context('notebook', font_scale=1, rc={'lines.linewidth': 5})sbarplot = sns.barplot(y='loan_amnt' , x='addr_state' , data=data_group_by_state_df )plt.xlabel('State')plt.ylabel('Loan_amount')plt.xticks(rotation=90)plt.title('State VS Loan_amount')sbarplot.figure.savefig('State VS Loan_amount')
得知Lending Club 的總部在加州,因此加州的市場(chǎng)開拓也相對(duì)其他較好。其次是德克薩斯州和紐約州。
同時(shí),從風(fēng)險(xiǎn)防范角度來(lái)看,應(yīng)重點(diǎn)審核這幾個(gè)城市貸款申請(qǐng)人的基本信息。
3.探索信用評(píng)級(jí)、貸款期限和利率的關(guān)系
used_data['int_rate_num']= used_data['int_rate'].str.rstrip('%').astype('float')data_group_by_grade_term = used_data.groupby(['grade', 'term'])['int_rate_num'].mean()data_group_by_grade_term_df = pd.DataFrame(data_group_by_grade_term).reset_index()data_group_by_grade_term_pivot = data_group_by_grade_term_df.pivot(index='grade', columns='term', values='int_rate_num')data_group_by_grade_term_pivot # 輸出數(shù)據(jù)透視表
used_data['grade'].value_counts() # 查看信用評(píng)級(jí)的分布
從表格可以看出,P2P平臺(tái)的利率最高檔為30%,而利率最低檔為7%左右,總體利率水平也相對(duì)傳統(tǒng)銀行較高。 信用評(píng)級(jí)從A到G,A的的借款人信用評(píng)分最高,財(cái)務(wù)狀況較好,違約發(fā)生的可能性較低,因此利率也相對(duì)較低。
貸款期限長(zhǎng)意味著不確定性增加,風(fēng)險(xiǎn)也隨之增加,期限較長(zhǎng)的貸款在同信用等級(jí)下的借款利率也相對(duì)高。
4.探索貸款用途與利率的關(guān)系
plt.figure(figsize=(15, 9))sns.set_context('notebook', font_scale=1.5, rc={'lines.linewidth': 2.5})loans['int_rate_num'] = loans['int_rate'].str.rstrip('%').astype('float')sboxplot = sns.boxplot(y='purpose', x='int_rate_num', data=loans)sns.despine(top=True)plt.xlabel('Interest_Rate')plt.ylabel('Purpose')plt.xticks(rotation=90)plt.show()sboxplot.figure.savefig('Purpose VS Rate')
貸款用途分別為house、small_business以及Other的貸款利率較高。其中貸款用途為house的貸款利率為最高。
5.探索貸款金額與利率之間的關(guān)系
plt.figure(figsize=(15, 9))j_plot = sns.jointplot('loan_amnt', 'int_rate_num', data=used_data, kind='reg',size=10)j_plot.savefig('Loan amount VS Interest Rate')
圖的中間是貸款金額和利率的線性關(guān)系圖,圖的上方和右方分別是貸款金額和利率的分布圖。我們從圖中并沒有發(fā)現(xiàn)貸款金額和貸款利率有明顯的關(guān)系。
6.探索貸款利率與違約次數(shù)之間的關(guān)系
plt.figure(figsize=(15, 9))sns.set_context('notebook', font_scale=1.2, rc={'lines.linewidth': 2.5})sboxplot2 = sns.boxplot(x='delinq_2yrs', y='int_rate_num', data=loans)sns.despine(top=True)plt.xticks(rotation=90)plt.title('Interest Rate VS Delinq_2yrs')sboxplot2.figure.savefig('Interest Rate VS Delinq_2yrs')
違約次數(shù)越多的人意味著自身財(cái)務(wù)狀況較差,償付能力也較低,因此此類客戶貸款風(fēng)險(xiǎn)越高,對(duì)此部分資產(chǎn)應(yīng)給予更高的利率定價(jià)。
7.探索利率、收入、工作年限以及貸款狀態(tài)之間的關(guān)系
#替換變量的第二種方法,創(chuàng)建mappingmapping_dict = { 'emp_length': { '10 years': 10, '9 years': 9, '8 years': 8, '7 years': 7, '6 years': 6, '5 years': 5, '4 years': 4, '3 years': 3, '2 years': 2, '1 year': 1, '< 1 year': 0, 'n/a': 0 }}used_data = used_data.replace(mapping_dict)# 數(shù)據(jù)轉(zhuǎn)換used_data[ 'annual_inc'] = used_data[ 'annual_inc'].str.replace(',','').astype('float').dropna()
數(shù)據(jù)可視化
sns.set_context('notebook', font_scale=3, rc={'lines.linewidth': 2.5})p_plot = sns.pairplot(used_data, vars=['int_rate_num','annual_inc', 'emp_length'], hue='Loan_Status_Coded', diag_kind='kde' ,kind='reg', size = 7)p_plot.savefig('Interest Rate VS Annual Income VS Emp_length')
從圖可以看出,工作年限越長(zhǎng),客戶的收入也越高,自身現(xiàn)金流比較充足,此類客戶償還債務(wù)的能力較強(qiáng),違約的情況較少,相應(yīng)享受更低的利率。
used_data.corr() #計(jì)算相關(guān)系數(shù)
# 相關(guān)系數(shù)圖names = ['loan_amnt', 'annual_inc' ,'emp_length', 'Loan_Status_Coded','int_rate' ] #設(shè)置變量名correlations = used_data.corr()# plot correlation matrixplt.figure(figsize=(19, 9))fig = plt.figure() #調(diào)用figure創(chuàng)建一個(gè)繪圖對(duì)象ax = fig.add_subplot(111)cax = ax.matshow(correlations, vmin=-1, vmax=1) #繪制熱力圖,從-1到1fig.colorbar(cax) #將matshow生成熱力圖設(shè)置為顏色漸變條ticks = np.arange(0,5,1) #生成0-5,步長(zhǎng)為1ax.set_xticks(ticks) #生成刻度ax.set_yticks(ticks)ax.set_xticklabels(names) #生成x軸標(biāo)簽ax.set_yticklabels(names)plt.xticks(rotation=90)fig.savefig('Corr')plt.show()
1.影響風(fēng)險(xiǎn)的因素
分析企業(yè)償債能力主要考察企業(yè)的資產(chǎn)狀況和經(jīng)營(yíng)情況,只有負(fù)債結(jié)構(gòu)與企業(yè)盈利能力合理匹配,企業(yè)才能持續(xù)穩(wěn)定地發(fā)展。
個(gè)人的資產(chǎn)狀況好比企業(yè)的資產(chǎn)負(fù)債表,個(gè)人收入猶如企業(yè)的利潤(rùn)表或現(xiàn)金流量表。高收入的客戶意味著有良好的現(xiàn)金流,償還債務(wù)能力較高,違約的可能性較低,一般來(lái)說此類客戶的信用評(píng)級(jí)也相對(duì)較高,平臺(tái)對(duì)應(yīng)的貸款資產(chǎn)風(fēng)險(xiǎn)也相對(duì)較低;個(gè)人過往的信用記錄能夠反映客戶的償還意愿,長(zhǎng)期有不良信用記錄的客戶再次發(fā)生違約的可能性也較高,為對(duì)違約風(fēng)險(xiǎn),對(duì)此類客戶應(yīng)匹配更高的利率定價(jià)。
2.Lending Club 平臺(tái)特點(diǎn)
平臺(tái)業(yè)務(wù)持續(xù)穩(wěn)定發(fā)展:第二季度業(yè)務(wù)持續(xù)增長(zhǎng),平臺(tái)業(yè)務(wù)主要集中于加州、德克薩斯州和紐約州。
平臺(tái)貸款金額以 小額貸款為主,貸款金額主要集中在10,000美元左右,小而散的貸款金額能夠很好的分散資金風(fēng)險(xiǎn)。
平臺(tái)貸款利率較高,貸款利率集中在12.62%,貸款利率相對(duì)傳統(tǒng)金融機(jī)構(gòu)較高。
平臺(tái)二季度違約風(fēng)險(xiǎn)得到良好的控制,平臺(tái)貸款發(fā)生違約的數(shù)量較少,貸款正常狀態(tài)占比為98.38%。
3.個(gè)人建議
完善客戶畫像和產(chǎn)品設(shè)計(jì):信貸業(yè)務(wù)開展前,首先要明確信貸機(jī)構(gòu)的目標(biāo)客戶群、目標(biāo)客戶的特征和畫像信息是什么。例如Lending Club平臺(tái)的small business業(yè)務(wù),中小企業(yè)目標(biāo)群體的特征描述應(yīng)包括能夠反映企業(yè)的資產(chǎn)負(fù)債和現(xiàn)金流相關(guān)的財(cái)務(wù)報(bào)表信息或表外債務(wù)信息等。完整的客戶信息有利于風(fēng)控人員和系統(tǒng)分析把控違約風(fēng)險(xiǎn)。
優(yōu)化貸款模型:完善客戶信息的同時(shí),借助機(jī)器學(xué)習(xí)的技術(shù)持續(xù)優(yōu)化貸款模
型。
本文作者 Philip, 是 Udacity 數(shù)據(jù)分析&機(jī)器學(xué)習(xí)進(jìn)階納米學(xué)位項(xiàng)目學(xué)員,歡迎各位HR勾搭。投稿請(qǐng)私信優(yōu)達(dá)菌~
Philip 注冊(cè)會(huì)計(jì)師,努力成為一個(gè)跨界的數(shù)據(jù)科學(xué)手藝人
數(shù)據(jù)科學(xué)愛好者,努力成為Python數(shù)據(jù)分析師
AI愛好者,深信人工智能將成為我們?nèi)粘I畹乃碗?/p>
喜歡數(shù)學(xué)和哲學(xué),喜歡火影忍者、雷軍、吳軍、和萬(wàn)維鋼
自律、好奇心強(qiáng),愛探索和學(xué)習(xí)
如有工作聯(lián)系,請(qǐng)私信Udacity
快點(diǎn)掃我~
聯(lián)系客服