首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

一个使用xlwings操作excel数据优化60倍处理效率的案例

  • 23-09-22 18:21
  • 2475
  • 12033
blog.csdn.net

☞ ░ 前往老猿Python博文目录 ░

一、引言

老猿在将自己的博文数据(包括url地址、标题和阅读数量)从博客中获取后,使用xlwings保存到excel对象时发现,不同的处理方法性能相差非常大。

案例程序每次获取博文数据后,对新的博文将其信息保存到excel,对老的博文则将其数据更新,每次处理的阅读量单列一列,存储数据类似如下:
在这里插入图片描述
前面两列分别为url和标题,后面随着处理次数增多会有多列数据记录下访问时间及当时的博文阅读数量,涉及处理的博文有900多篇,阅读量数据有近10列。

二、案例背景说明

本案例中只以输出阅读量数据为例,阅读量位于第三列开始,保存在二维列表urlReadInfoList中,二维列表中的元素也是列表,每个列表保存一行数据的多列阅读量。在初始输出时,老猿使用如下语句:

def saveArticlesInfo():	
	......
	logPag("将文章阅读数量填入excel对象中...")
    line = 2  #第一行为标题,从第二行开始保存
    for readinfo in urlReadInfoList:
        sheet.range(line,3).value = readinfo #一次输出一行
        line += 1
    logPag("设置excel数据的宽度...")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

上面是拷贝了saveArticlesInfo的部分代码,其中使用的函数logPag是将对应参数信息前加一个输出时刻的具体时间值之后再输出,以跟踪代码耗时。

针对这900多行10列的阅读量数据处理耗时近1分钟,具体输出信息如下:

20200704 211802: 将文章阅读数量填入excel对象中...
20200704 211858: 设置excel数据的宽度...
  • 1
  • 2

三、优化措施

为了提高效率,老猿将其采用以列为单位输出,为了保证前期代码不用修改,在此输出时做了个变换处理,将阅读量数据的行和列的维度交换了一下,下面是交换函数:

def exchangeLineColumn(array):
    columncount = len(array[0])
    rowcount = len(array)
    columnData = []
    for i in range(columncount):
        columnData.append([])

    for line in array:
        columnPos = 0
        for column in line:
            columnData[columnPos].append(column)
            columnPos += 1
    return columnData

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

然后在输出前调用该交换函数,将交换后的数据以列为单位输出。代码如下:

   logPag("将文章阅读数量填入excel对象中...")
   # line = 2
   # for readinfo in urlReadInfoList:
   #     sheet.range(line,3).value = readinfo
   #     line += 1
    readInfoList= exchangeLineColumn(urlReadInfoList)
    columnno = 3 #阅读量从第2行3列开始
    for readinfo in readInfoList:
         sheet.range(2,columnno).options(transpose=True).value = readinfo
         columnno += 1
    logPag("设置excel数据的宽度...")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

最后看运行结果:

20200704 214611: 将文章阅读数量填入excel对象中...
20200704 214611: 设置excel数据的宽度...
  • 1
  • 2

以上输出结果可以看到,处理用时不到1秒,效率至少提高了60倍。

补充说明:

其实上面的方式还可以更好地解决办法,就是一次性写入多行多列:

   logPag("将文章阅读数量填入excel对象中...")
   sheet.range("C2").value = urlReadInfoList
   # line = 2
   # for readinfo in urlReadInfoList:
   #     sheet.range(line,3).value = readinfo
   #     line += 1
    #readInfoList= exchangeLineColumn(urlReadInfoList)
    #columnno = 3
    #for readinfo in readInfoList:
    #     sheet.range(2,columnno).options(transpose=True).value = readinfo
    #     columnno += 1
   logPag("设置excel数据的宽度...")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

四、结论

使用xlwings操作excel时,对行和列的访问尽量避免单个单元数据访问,使用整行或整列数据操作时,最好是一次性尽可能操作多的数据,如果行列数据分布极度不均时这可以大幅提高效率。

具体操作方法请参考《Python学习随笔:使用xlwings设置和操作excel多行多列数据以及设置数据字体颜色填充色对齐方式的方法》。

跟老猿学Python、学5G!

☞ ░ 前往老猿Python博文目录 ░

文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树数据分析Excel文件333596 人正在系统学习中
老猿Python
微信公众号
专注Python相关语言、图像音视频处理、AI
注:本文转载自blog.csdn.net的LaoYuanPython的文章"https://blog.csdn.net/LaoYuanPython/article/details/107132602"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top