百度上根據(jù)pdf轉(zhuǎn)makrdown為關(guān)鍵字進(jìn)行搜索,結(jié)果大多數(shù)是反過(guò)來(lái)的轉(zhuǎn)換,即markdown文本轉(zhuǎn)PDF格式。
但是PDF轉(zhuǎn)markdown的解決方案很少。
正好我工作上有這個(gè)需求,所以自己實(shí)現(xiàn)了一個(gè)解決方案。
下圖是一個(gè)用PDF XChange Editor打開的PDF文件,我想將其內(nèi)容通過(guò)markdown格式導(dǎo)出。
(1) 首先將該P(yáng)DF導(dǎo)出成word格式,后綴.docx
(2) 使用typora獲得該word文檔的markdown源代碼:
此時(shí)任務(wù)只完成了一半,因?yàn)閠ypora這個(gè)工具轉(zhuǎn)換成的markdown格式,如果原始的word文檔里包含圖片,這些圖片以本地圖片的形式存在于markdown里,那我如果直接將包含了這些本地圖片的標(biāo)簽的markdown發(fā)布到簡(jiǎn)書,CSDN,開源中國(guó),騰訊云,阿里云這些支持markdown的社區(qū)時(shí),這些本地圖片將無(wú)法顯示。
因此我們必須找到一個(gè)高效的方法,將word里包含的本地圖片先上傳到網(wǎng)絡(luò)上,再用生成的包含了圖片網(wǎng)絡(luò)url的markdown標(biāo)簽替換本地圖片標(biāo)簽。
(3) 把word文件的后綴從.docx改成.zip, 解壓后,在文件夾word的子文件夾media里能找到所有的本地文件。
把這些本地文件全部上傳到網(wǎng)站,生成下面這些url:
我寫了一個(gè)工具,可以把僅包含了本地圖片標(biāo)簽的markdown源代碼和包含了上述在線圖片url標(biāo)簽的源代碼做一個(gè)合并,后并后,本地圖片標(biāo)簽會(huì)被在線圖片標(biāo)簽取代:
這個(gè)工具可以從我github上獲得:
https://github.com/i042416/KnowlegeRepository/blob/master/practice/255_markdown_tool.html
下圖就是我的原始PDF轉(zhuǎn)換成markdown格式后發(fā)布在某社區(qū)上的效果,和原始PDF外觀完全一致:
要獲取更多Jerry的原創(chuàng)文章,請(qǐng)關(guān)注公眾號(hào)"汪子熙
聯(lián)系客服