hwg 荣誉:管理员 等级:业余侠客 经验:540 帖子:388 注册:2004/3/31 状态:离线 |
档案 搜索 邮件 短信 引用 编辑 删除 移动 屏蔽/恢复 |
楼主 |
为了将PDF转化为文本,在网上查了很久,下载,试用,但一个个都失败了.一是不支持中文,二是对加密的中文更不行.不过功夫不负有心人,最后还是解决了这个问题,那就是使用Office 2003新增的一个功能,顺利地完成了转化工作.看着这些成果,真是从心里感谢这些软件的编制者.....为了减少大家的摸索,现将网上一篇文章转在下面以供有此需要的朋友们参考:
看加密文档的文字 Office 2003中的虚拟打印机
Office 2003自带了一个虚拟打印机,如果没有安装,请运行Office 2003的安装程序,利用其“添加或删除功能”中的“高级自定义”将组件Microsoft Office Document Imaging Writer安装到系统中即可。利用Office 2003的这一虚拟打印机,任何加密的文档都可以把其中的文字提取到Word文档中,只要其提供了打印功能,甚至包括tif图像中的文字;实现文字到图像的转换。
下面利用这一方法来提取加密pdf文档中的文字:
运行Acrobat Reader,打开要提取文字的pdf文档,单击菜单“文件→打印”,在出现的“打印”窗口中,打印机名称一定要选择“Microsoft Office Document Imaging Writer”,单击后面的“属性”按钮,可以设置页面大小、输出文件格式(包括mdi和tiff两种格式,默认为msi)及默认保存位置。设置好“打印”窗口中的其他相关参数后,单击“确定”按钮,出现“另存为”窗口,在此即可把页面“打印”成一个mdi文件,同时系统会自动启动“Microsoft Office Document Imaging”并显示出刚刚保存的mdi文件。
在Microsoft Office Document Imaging的窗口中,单击菜单“工具→将文本发送到Word”,在弹出的窗口中单击“确定”,系统会自动对整个页面进行OCR识别,识别完毕之后,会自动启动Word,并把识别出来的文字显示在Word文档中,识别效果非常不错。如果只需要页面中的部分文字,可单击标准工具栏中的“使用OCR识别文本”,先进行文字识别,然后用鼠标框选出需要的部分,再执行“将文本发送到Word”,选中“当前选中范围”即可。
在Word中适当对文字及格式进行修改,即可将其保存成doc文档。到此pdf文档中的文字已经提取到了Word中了。
提示:如果上面“打印”成的格式是tif,则需要手动从“开始”菜单“Microsoft Office工具”中启动Microsoft Office Document Imaging,然后再“打开”tif文件,同样可以把文字识别到Word中。
以上选自: http://tech.tom.com/1380/1385/200514-150529.html
[此贴子已经被作者于2005-5-29 7:44:09编辑过] |
-------------------------------------------
|
2005/5/28 21:59:43 |
|