脚本之家

电脑版
提示:原网页已由神马搜索转码, 内容由www.jb51.net提供.
您的位置:首页脚本专栏python→ python提取PowerPoint中表格

使用python提取PowerPoint幻灯片中表格并保存到文本及Excel文件

  更新时间:2024年06月14日 09:14:25  作者:Eiceblue 
owerPoint作为广泛使用的演示工具,常被用于展示各类数据报告和分析结果,其中,表格以其直观性和结构性成为阐述数据关系的不二之选,本文将介绍如何使用Python来提取PowerPoint幻灯片中的表格,并将表格数据写入文本文件以及Excel文件,需要的朋友可以参考下

引言

PowerPoint作为广泛使用的演示工具,常被用于展示各类数据报告和分析结果,其中,表格以其直观性和结构性成为阐述数据关系的不二之选。然而,在数据分析、文档归档或跨平台分享的场景下,幻灯片中的表格功能难以满足需求,提取其中表格并写入其他文件是更好的处理方法。将表格内容转化为文本或Excel格式能够促进数据的快速流通与理解,同时也为自动化处理和进一步的数据挖掘提供了便利。而使用Python能够帮助我们更高效、精确地提取PowerPoint演示文稿中的表格,还可以实现表格提取的自动话进行。本文将介绍如何使用Python来提取PowerPoint幻灯片中的表格,并将表格数据写入文本文件以及Excel文件。

本文所使用的表格提取方法基于Spire.Presentation for Python,PyPI:pip install Spire.Presentation

用Python提取PPT表格并写入文本文件

该库中的ITable类表示演示文稿中的表格。我们可以遍历演示文稿中的幻灯片,再遍历幻灯片中的所有内容对象(IShape实例),并判断其是否为ITable实例,从而获取演示文稿中的所有表格。获取到表格之后,再使用ITable.TableRow[].TextFrame.Value属性获取表格单元格的数据,即可实现表格的提取。以下是操作步骤:

  1. 导入所需模块。
  2. 创建Presentation实例,使用Presentation.LoadFromFile()方法载入PowerPoint文件。
  3. 遍历幻灯片,再遍历幻灯片中的内容对象,判断其是否为ITable实例。
  4. 遍历ITable实例中的行,以及行中的单元格,使用TableRow[].TextFrame.Value获取单元格数据。
  5. 使用单元格数据构建字符串,并写入文本文件。
  6. 释放资源。

代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
fromspire.presentation import*
fromspire.presentation.common import*
 
# 创建一个Presentation实例
presentation =Presentation()
 
# 加载PowerPoint文件
presentation.LoadFromFile("示例.pptx")
 
tables =[]
# 遍历所有的幻灯片
forslide inpresentation.Slides:
    # 遍历所有的形状
    forshape inslide.Shapes:
        # 检查形状是否为表格
        ifisinstance(shape, ITable):
            tableData =""
            # 遍历所有的行
            forrow inshape.TableRows:
                rowData =""
                # 遍历行中的所有单元格
                fori inrange(0, row.Count):
                    # 获取单元格的值
                    cellValue =row[i].TextFrame.Text
                    rowData +=(cellValue +"\t"ifi< row.Count -1elsecellValue)
                tableData +=(rowData +"\n")
            tables.append(tableData)
 
# 将表格写入文本文件
foridx, table inenumerate(tables, start=1):
    fileName =f"output/Tables/Table-{idx}.txt"
    with open(fileName, "w") as f:
        f.write(table)
 
presentation.Dispose()

提取结果

用Python提取PPT表格并写入Excel工作表

除了将提取到的表格数据写入文本文件外,我们还可以使用Spire.XLS for Python(PyPI:pip install Spire.XLS)将提取到的数据写入到Excel工作表中,并进行其他格式设置及文件转换等操作。以下是操作步骤:

  1. 导入所需模块。
  2. 创建Presentation实例,使用Presentation.LoadFromFile()方法载入PowerPoint文件。
  3. 创建Workbook对象从而新建一个Excel工作簿,使用Workbook.Worksheets.Clear()方法清除工作簿中的默认工作表。
  4. 遍历幻灯片,再遍历幻灯片中的内容对象,判断其是否为ITable实例。将ITable实例添加到列表中。
  5. 遍历列表中的ITable实例,使用Workbook.Worksheets.Add()方法为每个ITable实例创建一个工作表。
  6. 遍历ITable实例中的行以及行中的单元格,使用TableRow[].TextFrame.Value获取单元格数据,再使用Worksheet.Range[].Value属性将数据写入到工作表中的对应单元格。
  7. 进行工作表格式设置。
  8. 保存Excel工作簿,或将其转换为其他格式的文件。
  9. 释放资源。

代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
fromspire.presentation import*
fromspire.presentation.common import*
fromspire.xls import*
fromspire.xls.common import*
 
# 创建一个Presentation实例
presentation =Presentation()
 
# 加载PowerPoint文件
presentation.LoadFromFile("示例.pptx")
 
# 创建一个Excel文件并清除默认工作表
workbook =Workbook()
workbook.Worksheets.Clear()
 
tables =[]
# 遍历所有的幻灯片
forslide inpresentation.Slides:
    # 遍历所有的形状
    forshape inslide.Shapes:
        # 检查形状是否为表格
        ifisinstance(shape, ITable):
            tables.append(shape)
 
# 遍历所有的表格
fort inrange(len(ttables)):
    table =tables[t]
    sheet =workbook.Worksheets.Add(f"Sheet-{t+1}")
    fori inrange(0, table.TableRows.Count):
        row =table.TableRows[i]
        forj inrange(0, row.Count):
            sheet.Range[i +1, j +1].Value =row[j].TextFrame.Text
    # 自动调整行和列的大小
    sheet.AllocatedRange.Style.Font.FontName ="HarmonyOS Sans SC"
    sheet.AllocatedRange.Style.Font.Size =12.0
    sheet.AllocatedRange.AutoFitColumns()
    sheet.AllocatedRange.AutoFitRows()
 
# 保存Excel文件
workbook.SaveToFile("output/PresentationTables.xlsx", FileFormat.Version2016)
 
presentation.Dispose()
workbook.Dispose()

提取结果

本文介绍了如何使用Python提取PowerPoint演示文稿中的表格数据,并写入文本文件或Excel工作簿。

到此这篇关于使用python提取PowerPoint幻灯片中表格并保存到文本及Excel文件的文章就介绍到这了,更多相关python提取PowerPoint中表格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

    • 这篇文章主要介绍了Python 备份程序代码实现的相关资料,需要的朋友可以参考下
      2017-03-03
    • 今天小编就为大家分享一篇基于numpy中的expand_dims函数用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2019-12-12
    • 这篇文章主要介绍了python计算Content-MD5并获取文件的Content-MD5值方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2020-04-04
    • Button=组件用于实现各种各样的按钮,本文主要介绍了Python中Tkinter组件Button的具体使用,具有一定的参考价值,感兴趣的可以了解一下
      2022-01-01
    • 这篇文章主要介绍了pytorch如何定义新的自动求导函数问题,具有很好的参考价值,希望对大家有所帮助。以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。
      2022-12-12
    • 这篇文章主要介绍了Python并发之多进程的方法实例代码,文中也提到了进程与线程的共同点,需要的朋友跟随脚本之家小编一起看看吧
      2018-08-08
    • 这篇文章主要介绍了python3 sleep 延时秒 毫秒实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
      2020-05-05
    • 这篇文章主要介绍了Python中的if判断语句中包含or问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
      2022-07-07
    • 本文主要介绍了Django中auth模块用户认证的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
      2023-03-03
    • 这篇文章主要介绍了详解Python中的各种函数的使用,是Python入门中的基础知识,需要的朋友可以参考下
      2015-05-05

    最新评论