国产精品午夜久久,天天噜噜揉揉狠狠夜夜

辦公利器，用Python批量識別發(fā)票并錄入到Excel表格

2022.02.17

今天來分享一篇辦公干貨文章：用Python批量識別發(fā)票并錄入到Excel表格。對于財(cái)務(wù)專業(yè)等學(xué)生或者公司財(cái)務(wù)人員來說，將報(bào)賬發(fā)票等匯總到excel簡直就是一個(gè)折磨。

尤其是到年底的時(shí)候，公司的財(cái)務(wù)人員面對一大堆的發(fā)票簡直就是苦不堪言。正好我們學(xué)會(huì)了Python，我們應(yīng)該將Python的優(yōu)勢發(fā)揮起來。

場景描述

這里有以四張發(fā)票為例（網(wǎng)上搜的），將發(fā)票圖片放到pic文件夾下。

隨便打開一張發(fā)票

提取目標(biāo)：金額、名稱、納稅人識別號、開票人。

最后將每一張發(fā)票的這四個(gè)內(nèi)容保存到excel中：

準(zhǔn)備環(huán)境

需要用到的庫如下：

from PIL import Image as PI
import pyocr
import pyocr.builders
from cnocr import CnOcr

安裝的命令如下：

pip install pyocr
pip install cnocr

發(fā)票中含有中文內(nèi)容，我們需要對圖片中的中文進(jìn)行識別，那么 cnocr 是一個(gè)不錯(cuò)的選擇。

提示：安裝好上面的庫之外，還需要安裝額外的exe文件，不然會(huì)出現(xiàn)下面這種錯(cuò)誤

需要安裝的exe文件：

ImageMagick
tesseract-OCR

這兩個(gè)軟件的安裝過程就不再贅述了，大家可以自行搜索教程進(jìn)行安裝。

提取內(nèi)容

下面以其中一張圖片為例，講解如何提取目標(biāo)內(nèi)容：金額、名稱、納稅人識別號、開票人。

讀取圖片：pic/pic1.jpg

tool = pyocr.get_available_tools()[0]
img_url = "pic/pic1.jpg"
with open(img_url, 'rb') as f:
    a = f.read()
new_img = PI.open(io.BytesIO(a))

1.提取金額

需要截取到發(fā)票中金額的位置

## 金額
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展示圖片
image_text1.show()

這里的left、top、right、bottom的數(shù)值是通過多次修改定位而來。大家根據(jù)自己的發(fā)票內(nèi)容去定位即可。

接著將圖片中的數(shù)字提取出來

同樣的，下面繼續(xù)提?。?strong>名稱

2.提取名稱

left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()

這里的名稱是中文的，咱們不能再像提取金額（數(shù)字）操作。需要使用到cnocr去將圖片中的中文取出。

image_obj2.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

3.提取納稅人識別號

#納稅人識別號
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展示圖片
image_text3.show()

txt3 = tool.image_to_string(image_text3)
print(txt3)

將圖片中的納稅人識別號提取出來，結(jié)果如下：

4.提取開票人

left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()

image_obj4.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

由于有中文，咱們這里同樣和提取名稱一樣，使用cnocr將圖片中的中文取出。

ok這樣我們就將發(fā)票中的四個(gè)目標(biāo)內(nèi)容提取出來，接著將文件夾pic下的所有發(fā)票，進(jìn)行識別將內(nèi)容保存到excel。

批量識別發(fā)票并保存到excel

在讀取圖片之前，先將上面的四個(gè)操作封裝成函數(shù)，方便每一種發(fā)票對象進(jìn)行調(diào)用。

讀取文件夾下的所有圖片。

filePath = 'pic'
pic_name = []
for i,j,name in os.walk(filePath):
    pic_name = name
for i in pic_name:
    print(i)

開始進(jìn)行識別，并將結(jié)果寫入到excel中。

for i in pic_name:
    img_url = filePath+"/"+i
    with open(img_url, 'rb') as f:
        a = f.read()
    new_img = PI.open(io.BytesIO(a))
    ## 寫入csv
    outws.cell(row=count, column=1, value=text2(new_img))
    outws.cell(row=count, column=2, value=text3(new_img))
    outws.cell(row=count, column=3, value=text1(new_img))
    outws.cell(row=count, column=4, value=text4(new_img))
    count = count + 1
outwb.save("發(fā)票匯總-李運(yùn)辰.xls")  # 保存結(jié)果

最后保存為：發(fā)票匯總-李運(yùn)辰.xls，其結(jié)果如下：

發(fā)票驗(yàn)證真?zhèn)?/h2>
在上面的開始識別之前（自己公司的發(fā)票可能不需要查驗(yàn)這步），先調(diào)用一下第三方的接口，對發(fā)票進(jìn)行識別，識別通過之后再將其提取發(fā)票中目標(biāo)內(nèi)容。

1.申請百度AI應(yīng)用

2.獲取token

# client_id 為官網(wǎng)獲取的AK， client_secret 為官網(wǎng)獲取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官網(wǎng)獲取的AK】&client_secret=【官網(wǎng)獲取的SK】'
response = requests.get(host)
if response:
    print(response.json()['access_token']

這里的client_id 為官網(wǎng)獲取的AK， client_secret 為官網(wǎng)獲取的SK，是上面申請好應(yīng)用即可獲取