python调用(百度云、腾讯云)API接口表格识别并保存为excel
2023-06-235页 doc173KB12阅读
is_856463
暂无简介
举报
python调用(百度云、腾讯云)API接口表格识别并保存为excel python调用(百度云、腾讯云)API接口表格识别并保存为excel Python表格识别图像识别具有较高的商业价值,本节主要通过python调用(百度云、腾讯云)API接口表格识别并保存为excel分析表格识别的能力;提示:需分别申请密钥,在相应位置添加自己密钥即可;文章目录Python表格识别前言一、图像识别应用分析二、百度云表格识别测试三、腾讯云表格识别测试总结前言提示:以下是本篇文章正文内容,下面案例可供参考一、图像识别应用分析背景:1、现场每天有大量的手工报表需要汇总;2、人员手动将报表...
python调用(百度云、腾讯云)API接口识别并保存为excel Python表格识别图像识别具有较高的商业价值,本节主要通过python调用(百度云、腾讯云)API接口表格识别并保存为excel分析表格识别的能力;提示:需分别申请密钥,在相应位置添加自己密钥即可;文章目录Python表格识别前言一、图像识别应用分析二、百度云表格识别测试三、腾讯云表格识别测试总结前言提示:以下是本篇文章正文
,下面案例可供参考一、图像识别应用分析背景:1、现场每天有大量的手工报表需要汇总;2、人员手动将报表录入电脑耗费大量时间;3、在信息量非常大的时代,图片、PDF等格式的信息占很大部分,但是我们不能直接提取其中的信息;近年来,在深度学习的加持下,OCR(OpticalCharacterRecognition,光学字符识别)的可用性不断提升,大量用户借助OCR软件,从图片中提取文本信息。然而对于表格场景,应用还未普及。步骤:1、通过高拍仪或扫描仪拍照;2、读入图片灰度化(将彩色图片变为灰色图片);3、图片二值化(将图片变为只有黑白两种颜色);4、识别出表格的横线、竖线(如果图片不够清晰可以加入腐蚀、膨胀等);5、得到横竖线的交点,进而得到单元格坐标;6、通过坐标提取单元格图像,进而用pytesseract识别文字;7、将得到的信息写入excel;二、百度云表格识别测试通过调用百度云识别指定文件夹下所有图片表格,将图片内容输出为excel文本格式,并将输出文件保存到指定文件夹下。腾讯云:https://cloud.baidu.com/#encoding:utf-8importosimportsysimportrequestsimporttimeimporttkinterastkfromtkinterimportfiledialogfromaipimportAipOcr#转载来源#https://www.cnblogs.com/mrlayfolk/p/12630128.html#代码运行环境:win10python3.7#需要aip库,使用pipinstallbaidu-aip即可#定义常量APP_ID='APP_ID'API_KEY='API_KEY'SECRET_KEY='SECRET_KEY'#初始化AipFace对象client=AipOcr(APP_ID,API_KEY,SECRET_KEY)#读取图片defget_file_content(filePath):withopen(filePath,'rb')asfp:returnfp.read()#文件下载函数deffile_download(url,file_path):r=requests.get(url)withopen(file_path,'wb')asf:f.write(r.content)if__name__=="__main__":root=tk.Tk()root.withdraw()data_dir=filedialog.askdirectory(title='请选择图片文件夹')+'/'result_dir=filedialog.askdirectory(title='请选择输出文件夹')+'/'num=0fornameinos.listdir(data_dir):print('{0}:{1}正在处理:'.format(num+1,name.split('.')[0]))image=get_file_content(os.path.join(data_dir,name))res=client.tableRecognitionAsync(image)#print("res:",res)if'error_code'inres.keys():print('Error!error_code:',res['error_code'])sys.exit()req_id=res['result'][0]['request_id']#获取识别ID号forcountinrange(1,20):#OCR识别也需要一定时间,设定10秒内每隔1秒查询一次res=client.getTableRecognitionResult(req_id)#通过ID获取表格文件XLS地址print(res['result']['ret_msg'])ifres['result']['ret_msg']=='已完成':break#云端处理完毕,成功获取表格文件下载地址,跳出循环else:time.sleep(1)url=res['result']['result_data']xls_name=name.split('.')[0]+'.xls'file_download(url,os.path.join(result_dir,xls_name))num+=1print('{0}:{1}下载完成。'.format(num,xls_name))time.sleep(1)三、腾讯云表格识别测试通过调用腾讯云识别指定文件夹下所有图片表格,将图片内容输出为excel文本格式,并将输出文件保存到指定文件夹下。腾讯云:https://cloud.tencent.com/代码如下(示例):#fromPILimportImage#importpytesseract##导入通用包importnumpyasnpimportpandasaspdimportosimportjsonimportreimportbase64importxlwingsasxw##导入腾讯AIapifromtencentcloud.commonimportcredentialfromtencentcloud.common.profile.client_profileimportClientProfilefromtencentcloud.common.profile.http_profileimportHttpProfilefromtencentcloud.common.exception.tencent_cloud_sdk_exceptionimportTencentCloudSDKExceptionfromtencentcloud.ocr.v20181119importocr_client,models#定义函数defexcelFromPictures(picture,SecretId,SecretKey):try:withopen(picture,"rb")asf:img_data=f.read()img_base64=base64.b64encode(img_data)cred=credential.Credential(SecretId,SecretKey)#ID和Secret从腾讯云申请httpProfile=HttpProfile()httpProfile.endpoint="ocr.tencentcloudapi.com"clientProfile=ClientProfile()clientProfile.httpProfile=httpProfileclient=ocr_client.OcrClient(cred,"ap-shanghai",clientProfile)req=models.TableOCRRequest()params='{"ImageBase64":"'+str(img_base64,'utf-8')+'"}'req.from_json_string(params)resp=client.TableOCR(req)#print(resp.to_json_string())exceptTencentCloudSDKExceptionaserr:print(err)##提取识别出的数据,并且生成jsonresult1=json.loads(resp.to_json_string())rowIndex=[]colIndex=[]content=[]foriteminresult1['TextDetections']:rowIndex.append(item['RowTl'])colIndex.append(item['ColTl'])content.append(item['Text'])##导出Excel##ExcelWriter
rowIndex=pd.Series(rowIndex)colIndex=pd.Series(colIndex)index=rowIndex.unique()index.sort()columns=colIndex.unique()columns.sort()data=pd.DataFrame(index=index,columns=columns)foriinrange(len(rowIndex)):data.loc[rowIndex[i],colIndex[i]]=re.sub("","",content[i])writer=pd.ExcelWriter("../tables/"+re.match(".*\.",f.name).group()+"xlsx",engine='xlsxwriter')data.to_excel(writer,sheet_name='Sheet1',index=False,header=False)writer.save()#xlwings方案#wb=xw.Book()#sht=wb.sheets('Sheet1')#foriinrange(len(rowIndex)):#sht[rowIndex[i],colIndex[i]].value=re.sub("",'',content[i])#wb.save("../tables/"+re.match(".*\.",f.name).group()+"xlsx")#wb.close()ifnot('tables')inos.listdir():os.mkdir("./tables/")os.chdir("./image2/")pictures=os.listdir()forpicinpictures:excelFromPictures(pic,"SecretId","SecretKey")print("已经完成"+pic+"的提取.")总结有不对的地方希望大家可以评论留言,帮助大家不迷路!!期待大家的加入,一起学习,一起交流!!。关注博主即可阅读全文 -全文完-
/
本文档为【python调用(百度云、腾讯云)API接口表格识别并保存为excel】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
相关资料
- 我国可再生能源技术专利、碳排放与经济增长的关系研究——基于VAR模型的实证分析
- 2021年自考英语二00015试题及答案自考答案
- 收入证明样本
- MPLAB_X_IDE中文版使用
- 安装电气实习日记
- 案例分析题87385
- 小学六年级语文下册《黄鹤楼》名师公开课优质教案 沪教版
- 新编剑桥商务英语高级第三版 第11.2 11.3
- 关于拍摄全校教职员工集体照的通知
- 建筑公司年会活动策划方案流程参考模板,年会策划方案怎么写
- 【毕业论文】神奇的回旋镖
- MRI检查技术规范
- 立管承重支架标准做法(图集+文字+实例)
- 专利法和实施细则双语
- 片子《情系屋檐下》的英文台词[指南]
- 用户协议 - 元速云游戏
- 医疗机构申请执业登记注册书
- 音节的划分
- 窝头会馆
- MATLAB函数画图
热门搜索
- 翁珍妮《天山之春》
- 卷宗文书格式全
- 《土壤农化分析实验》PPT课件电子教案
- 2021年人教版高中地理必修一《地球的历史》教学PPT课件
- 八年级数学上册第十四章整式的乘法与因式分解14.1整式的乘法作业设计(新版)新人教版
- 尖锐湿疣ppt课件
- IT机械设备管理系统用户操作说明书
- 【word】 对凤冈县玛瑙山军事古堡遗址两次旅游开发的比较研究
- 简述市场调查和预测的作用
- 中国绿色食品消费群体市场细分研究——基于修正的食品相关生活方式量表
- GBT 37701-2019 石油天然气工业用内覆或衬里耐腐蚀合金复合钢管
- 香港居民免试换领机动车驾驶证申请表 - 广东省南海市公安局
- [中学教育]CombiFlash RF 中压分离与制备系统操作规程
- 如皋各乡镇及村庄名称由来
- 翁珍妮《天山之春》
- 卷宗文书格式全
- 《土壤农化分析实验》PPT课件电子教案
- 2021年人教版高中地理必修一《地球的历史》教学PPT课件
- 八年级数学上册第十四章整式的乘法与因式分解14.1整式的乘法作业设计(新版)新人教版
- 尖锐湿疣ppt课件
- IT机械设备管理系统用户操作说明书
- 【word】 对凤冈县玛瑙山军事古堡遗址两次旅游开发的比较研究
- 简述市场调查和预测的作用
- 中国绿色食品消费群体市场细分研究——基于修正的食品相关生活方式量表
- GBT 37701-2019 石油天然气工业用内覆或衬里耐腐蚀合金复合钢管
- 香港居民免试换领机动车驾驶证申请表 - 广东省南海市公安局
- [中学教育]CombiFlash RF 中压分离与制备系统操作规程
- 如皋各乡镇及村庄名称由来
你可能还喜欢
- 社会医学试题
- 心绞痛病历范文冠心病的病例怎样写
- 急慢性鼻窦炎课件
- 人教版2023年中考化学高频考点必刷题非选择题21【精选计算20题】(解精品
- 百花齐放的春天作文600字高质量版
- 2022高中物理6.5宇宙航行每课一练2新人教版必修2
- 浙江山区性小流域安全管理决策预警信息化体系建设
- 生肖三合六合图文稿
- 村规民约口诀
- 物业工程验收表格
- 我最喜欢的一本书——大中华寻宝记
- 4S店吧台服务员岗位职责
- [重点]顺丰速运地区代码表
- 领料(归库)证明模板设备物资科
- 企业研发中心研发投入补贴申请表
- 网络治理_公共管理的新框架
- 水利工程现场签证单(范本)
- 水利工程现场签证单(范本)
- 水利工程现场签证单(范本)
- 水利工程现场签证单(范本)