我发表的主题 | 我参与的主题 注册 | 登陆 | 资料 | 短信 | 在线 | 搜索 | 用户 | 排行 | 帮助 
论坛短信(0 新)
莫里康俱乐部 8 音乐软硬件 8 将PDF转化为文本文字的好办法--使用Office 2003   
回复本帖发表新帖发起投票 点击统计:4288
 帖子主题:将PDF转化为文本文字的好办法--使用Office 2003 字大:  
hwg



荣誉:管理员
等级:业余侠客
经验:540
帖子:388
注册:2004/3/31
状态:离线
档案 搜索 邮件 短信 引用 编辑 删除 移动 屏蔽/恢复 楼主
为了将PDF转化为文本,在网上查了很久,下载,试用,但一个个都失败了.一是不支持中文,二是对加密的中文更不行.不过功夫不负有心人,最后还是解决了这个问题,那就是使用Office 2003新增的一个功能,顺利地完成了转化工作.看着这些成果,真是从心里感谢这些软件的编制者.....为了减少大家的摸索,现将网上一篇文章转在下面以供有此需要的朋友们参考:

看加密文档的文字 Office 2003中的虚拟打印机

Office 2003自带了一个虚拟打印机,如果没有安装,请运行Office 2003的安装程序,利用其“添加或删除功能”中的“高级自定义”将组件Microsoft Office Document Imaging Writer安装到系统中即可。利用Office 2003的这一虚拟打印机,任何加密的文档都可以把其中的文字提取到Word文档中,只要其提供了打印功能,甚至包括tif图像中的文字;实现文字到图像的转换。

下面利用这一方法来提取加密pdf文档中的文字:

  运行Acrobat Reader,打开要提取文字的pdf文档,单击菜单“文件→打印”,在出现的“打印”窗口中,打印机名称一定要选择“Microsoft Office Document Imaging Writer”,单击后面的“属性”按钮,可以设置页面大小、输出文件格式(包括mdi和tiff两种格式,默认为msi)及默认保存位置。设置好“打印”窗口中的其他相关参数后,单击“确定”按钮,出现“另存为”窗口,在此即可把页面“打印”成一个mdi文件,同时系统会自动启动“Microsoft Office Document Imaging”并显示出刚刚保存的mdi文件。

  在Microsoft Office Document Imaging的窗口中,单击菜单“工具→将文本发送到Word”,在弹出的窗口中单击“确定”,系统会自动对整个页面进行OCR识别,识别完毕之后,会自动启动Word,并把识别出来的文字显示在Word文档中,识别效果非常不错。如果只需要页面中的部分文字,可单击标准工具栏中的“使用OCR识别文本”,先进行文字识别,然后用鼠标框选出需要的部分,再执行“将文本发送到Word”,选中“当前选中范围”即可。

  在Word中适当对文字及格式进行修改,即可将其保存成doc文档。到此pdf文档中的文字已经提取到了Word中了。
  提示:如果上面“打印”成的格式是tif,则需要手动从“开始”菜单“Microsoft Office工具”中启动Microsoft Office Document Imaging,然后再“打开”tif文件,同样可以把文字识别到Word中。  

以上选自: http://tech.tom.com/1380/1385/200514-150529.html




                  [此贴子已经被作者于2005-5-29 7:44:09编辑过]
-------------------------------------------
2005/5/28 21:59:43
bruceyew



等级:新手上路
经验:130
帖子:62
注册:2005/6/1
状态:离线
档案 搜索 邮件 短信 引用 编辑 删除 屏蔽/恢复 2
用acrobat professional直接另存为.txt/.rtf不是更加简单?

如果pdf文件加了密的话,找个pdf password recovery解开就是了。
-------------------------------------------
2005/6/2 13:05:43
首页 上页 当前第 页 下页 尾页
回复主题:将PDF转化为文本文字的好办法--使用Office 2003
 表情符号:(更多表情请点这里)
帖子字数:最大 16384 字符

UBB 支持

HTML标记: ×

表情符号
               
 上传附件:(附件最大 100 KB)
    
程序内核:Spb 3.0.4013 当前风格:默认 风格制作:netasp
执行时间:40.0 毫秒 页面装载:0.006 秒