博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Python】Docx解析
阅读量:6488 次
发布时间:2019-06-24

本文共 1542 字,大约阅读时间需要 5 分钟。

1、cd D:\ProgramData\Anaconda3

2、pip install python-docx

3、python代码处理

# -*- coding: utf-8 -*- import osimport docxfrom win32com import client as wcdocs = [] def traverse(f):    fs = os.listdir(f)    for f1 in fs:        tmp_path = os.path.join(f,f1)        if not os.path.isdir(tmp_path):            #print('文件: %s'%tmp_path)            if  os.path.splitext(tmp_path)[-1].lower() == ".doc" or os.path.splitext(tmp_path)[-1].lower() == ".docx":                #print('文件: %s'%tmp_path)                docs.append(tmp_path)        else:            #print('文件夹:%s'%tmp_path)            traverse(tmp_path)def parseDoc(f):    doc = docx.Document(f)    parag_num = 0    for para in doc.paragraphs :        print("----------------------------------------------------")        print(para.text)        print("----------------------------------------------------")        parag_num += 1          print ('This document has ', parag_num, ' paragraphs')def doc2docx(full_path):    #dirname = os.path.dirname(full_path)    #filename = os.path.basename(full_path)    #newpath = full_path.replace('doc','docx')    newpath = full_path + "x"    if os.path.exists(newpath):        return    # 首先将doc转换成docx    word = wc.Dispatch("Word.Application")    # 找到word路径 + 文件名 ,即可打开文件     doc = word.Documents.Open(full_path)        # 使用参数16表示将doc转换成docx,保存成docx后才能 读文件    doc.SaveAs(newpath,16)    doc.Close()    word.Quit()            path = 'E:/NLP/Docs/'traverse(path) for k,v in enumerate(docs):    if k < 1:        print(k,v)        parseDoc(v)        #doc2docx(v)

 

转载地址:http://laauo.baihongyu.com/

你可能感兴趣的文章
wget 下载jdk
查看>>
详细介绍思科的VTY
查看>>
双十二超人学院送福利
查看>>
人生就是放弃和选择
查看>>
OpenMP编程->调度优化
查看>>
WIN32汇编基础
查看>>
Oracle自适应共享游标
查看>>
Can't connect to local MySQL server through socket
查看>>
软考信息系统监理师2016年3月18日作业
查看>>
Spring boot中使用log4j记录日志
查看>>
Linux之文本处理工具-sed
查看>>
coco2d-x实现场景跳转
查看>>
中国大陆开源镜像站汇总
查看>>
集群之LVS的详细介绍
查看>>
Oracle11g Data Guard物理备用数据库搭建与配置(第1部分 主数据库实例创建)
查看>>
maven工程 看不到Maven dependencies
查看>>
27次课(sed)
查看>>
EMP框架下使用ireport生成PDF报表
查看>>
【iphone4 iOS4+升级到 iOS 5 beta7详细过程与iOS 5系统截图】-Himi升级iOS 5 beta7 流程...
查看>>
【iOS开发必备指南合集】申请企业级IDP、真机调试、游戏接入GameCenter 指南(实现仿官方的成就提示)、游戏接入OpenFeint指南;...
查看>>