Pandas作為Python數(shù)據(jù)分析的一個(gè)常用包,經(jīng)常會(huì)與Excel交互。
最近經(jīng)常使用pandas的to_excel函數(shù),發(fā)現(xiàn)坑還不少。經(jīng)常報(bào)錯(cuò),覆蓋寫(xiě)入,讓人煩躁。甚至Run一遍后,excel文件里只剩一個(gè)sheet或者文件根本打不開(kāi)。
經(jīng)過(guò)兩周使用,總算有點(diǎn)門(mén)道了。
下面是我對(duì)to_excel函數(shù)一些技術(shù)總結(jié)。
import pandas as pd
df1 = pd.DataFrame({'One': [1, 2, 3]})
df1.to_excel('excel1.xlsx', sheet_name='Sheet1', index=False) # index false為不寫(xiě)入索引
excel1.xlsx 不存在的話,則會(huì)新建文件,再寫(xiě)入 Sheet1。
excel1.xlsx 已存在的話,則會(huì)新建,寫(xiě)入,再覆蓋。
所以無(wú)論 excel1.xlsx 是否存在,上述代碼的結(jié)果是一樣的。它的作用就是新建 excel1.xlsx(文件已存在則覆蓋),寫(xiě)入 Sheet1。excel1.xlsx 中最后只有一個(gè)表 Sheet1。
當(dāng)Pandas要寫(xiě)入多個(gè)sheet時(shí),to_excel第一個(gè)參數(shù)excel_writer要選擇ExcelWriter對(duì)象,不能是文件的路徑。否則,就會(huì)覆蓋寫(xiě)入。
ExcelWriter可以通過(guò)上下文管理器來(lái)執(zhí)行,省去save(),優(yōu)雅。
import pandas as pd df1 = pd.DataFrame({'One': [1, 2, 3]}) df2 = pd.DataFrame({'Two': [4, 5, 6]}) with pd.ExcelWriter('excel1.xlsx') as writer: df1.to_excel(writer, sheet_name='Sheet1', index=False) df2.to_excel(writer, sheet_name='Sheet2', index=False)
Once a workbook has been saved it is not possible write further data without rewriting the whole workbook.
to_excel的Doc中有上面一句話,所以,ExcelWriter可以看作一個(gè)容器,一次性提交所有to_excel語(yǔ)句后再保存,從而避免覆蓋寫(xiě)入。
沿用上面的代碼,excel1.xlsx 已存在,增加一個(gè)新的表 Sheet3。這里,ExcelWriter的參數(shù)mode='a',模式改為新增,非寫(xiě)入('w')。
注意:這里模式的新增指的是sheet,不是對(duì)sheet的內(nèi)容進(jìn)行新增。
import pandas as pd
df3 = pd.DataFrame({'Three': [7, 8, 9]})
with pd.ExcelWriter('excel1.xlsx', mode='a') as writer:
df3.to_excel(writer, sheet_name='Sheet3', index=False)
同樣,新增兩個(gè)sheet
import pandas as pd df4 = pd.DataFrame({'Four': [11, 22, 33]}) df5 = pd.DataFrame({'Five': [55, 66, 77]}) with pd.ExcelWriter('excel1.xlsx', mode='a') as writer: df4.to_excel(writer, sheet_name='Sheet4', index=False) df5.to_excel(writer, sheet_name='Sheet5', index=False)
沿用上面的代碼,修改Sheet4、Sheet5。
import pandas as pd
from openpyxl import load_workbook
df41 = pd.DataFrame({'Four': [44, 55, 66]})
df51 = pd.DataFrame({'Five': [77, 88, 99]})
with pd.ExcelWriter('excel1.xlsx') as writer:
book = load_workbook('excel1.xlsx')
writer.book = book # 讀取excel
writer.sheets = dict((ws.title, ws) for ws in book.worksheets) # 復(fù)制excel的所有表
df41.to_excel(writer, sheet_name='Sheet4', index=False)
df51.to_excel(writer, sheet_name='Sheet5', index=False)
其實(shí),這是一個(gè)折中的方案,先用openpyxl 讀取到了excel1,載入excel1的內(nèi)容到ExcelWriter中,再對(duì)Sheet4、Sheet5進(jìn)行覆蓋寫(xiě)入。
Sheet5中追加數(shù)據(jù)。 to_excel的參數(shù)startrow、startcol為寫(xiě)入的起始行列。header為是否寫(xiě)入列名。
import pandas as pd from openpyxl import load_workbook df6 = pd.DataFrame({'Six': [11, 22, 33]}) df7 = pd.DataFrame({'SEVEN': ['AA', 'BB', 'CC']}) with pd.ExcelWriter('excel1.xlsx') as writer: book = load_workbook('excel1.xlsx') writer.book = book writer.sheets = dict((ws.title, ws) for ws in book.worksheets) df6.to_excel(writer, sheet_name='Sheet5', index=False, startrow=0, startcol=3) df7.to_excel(writer, sheet_name='Sheet5', index=False, header=False, startrow=4, startcol=0)
利用startrow、startcol兩個(gè)參數(shù),我們不僅可以追加數(shù)據(jù),還可以用覆蓋寫(xiě)入的方式去修改sheet的部分內(nèi)容。比如將'ARE YOU OK?'寫(xiě)入Sheet5的Six列
import pandas as pd
from openpyxl import load_workbook
df8 = pd.DataFrame({'EIGHT': ['ARE', 'YOU', 'OK?']})
with pd.ExcelWriter('excel1.xlsx') as writer:
book = load_workbook('excel1.xlsx')
writer.book = book
writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
df8.to_excel(writer, sheet_name='Sheet5', index=False, header=False, startrow=2, startcol=3)
聯(lián)系客服