使用桌面文件网络引导Windows

在微软的TechNet中Wes Miller 描述啦一些基本原理 (关于预启动执行环境(Pre-boot eXecution Environment) (PXE),远程安装服务(Remote Installation Services )(RIS)的过去, 以及其他一些PXE技术在微软的部署使用)。

如果想了解PXE技术的基本原理,微软在“远程安装服务(RIS)”上的尝试过程,以及微软对未来PXE技术应用的期望不妨去看下原文。

How PXE Works

Wes Miller is a Senior Technical Product Manager at CoreTrace (www.CoreTrace.com) in Austin, Texas. Previously, he worked at Winternals Software and as a Program Manager at Microsoft. Wes can be reached at technet@getwired.com.

从pdf图片中抓取文字

从pdf中抓取文字原理:

利用office的虚拟打印机Microsoft Office Document Image Writer把图片或者pdf打印到tiff或者mdi格式的文件,然后关联使用Microsoft Office Document Imaging打开tiff或者mdi文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”(或者直接选择“将文本发送到word”,会提示你先进行ocr识别,然后会自动开始),最后将把整个PDF文件识别输出到word文件中。

原理就是这样子啦,操作也很简单,Microsoft Office Document Imaging的安装我就不说啦,早些时候已经说过啦,可以参考:windows的的墨水服务『office2007的Microsoft Office Document Image安装』

下边说说pdf文件中文字的识别

以文本形式保存的PDF文件:可以使用gmail发附件然后使用view html查看或者acrobat reader直接选中文字部分复制粘贴到记事本中或者word中即可。

以图片形式存在的pdf文件:这样gmail的附件就无能为力啦,就用到Microsoft Office Document Imaging啦,不过这个貌似对中文支持的不好(我的office 2007 +xp sp2的环境),这个倒是个多面玲珑角色,可以搞定很多格式文档的转换。

加密的pdf文件:先解密在继续啦。

繁体pdf文件:先识别到word,然后利用word的“工具”--“语言”---“中文繁简转换”

上边说过这个Microsoft Office Document Imaging对中文的图片中的文字识别的可能有问题(直接崩溃啦嘛),so 昨晚我抓去图片中的文字就不是使用的这个Microsoft Office Document Imaging,而是使用的尚书七号,如果需要可以到这里下载地址:http://cid-70082f3907228a49.skydrive.live.com/self.aspx/soft/shangshuqihao-ocr-zhuceban.zip

首先把pdf转换为图片bmp,jpg的都行,也可以用photo shop来搞成图片(不过注意图片质量一定要好啊)。然后使用尚书七号打开,具体步骤:

工具菜单——版面分析(自动分析后若有错误可以自己用鼠标修改)——开始识别——纠错(有错误就改吧,鼠标选中就修改啦!!)——输出到指定格式——保存为txt的文本就是啦(根据自己需要啦有txt,rtf,htm,xls)。

这几个图没分顺序,不过很好认啦。

补充:
1,由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要 超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后 请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。

2,建议如果发生打 印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit—outputs下的printer,然后选择snagit—-file—-finish output,即可生成msi文件,其他一样。

3,对于把pdf转换为图片格式可以使用更专业的软件,搜下就有啦“pdf转换为图片”。比如:pdftojpg

windows的的墨水服务『office2007的Microsoft Office Document Image安装』

刚到进程里看看,发现个wisptis.exe,咦…以前没见过,google啦下(习惯先去g下若没答案在自己找,这样都把人给搞懒啦感觉,不过反过来啦,人家发现好的东西我在去摸索遍发现遍,那才白痴呢,还不如把时间用在更需要的事情上,so,拿来主义..)

闲话少说:

刚装office 2007啦,本来要用用他的Microsoft Office Document Image Writer和Microsoft Office Document Imaging的网上找啦半天还是在微软的官方讨论区找到“安装办法”(中文的也找啦,就发现在前边的一个,还是要什么回复后才能看垃圾啊,繁体字的还不如看e文直接明白的多呢!!)

安装办法就是:

开始——控制面板——添加删除程序——office的那个项——然后更改——选中office工具里边的Microsoft Office Document Imaging项(选为全部运行就可以啦)——继续——然后就可以看到打印机里边多啦一个Microsoft Office Document Image Writer的虚拟打印机。需要说明的是服务里的print服务最好改为自动的,这个服务为停止状态时是装不上Microsoft Office Document Image Writer的也就没办法使用Microsoft Office Document Imaging强大的文档转换功能。

英文安装说明:

To resolve this issue, install the Microsoft Office Document Imaging program. To do this, follow these steps:
1.     Click Start, click Run, type appwiz.cpl, and then click OK.
2.     In the Currently installed programs list, click the 2007 Office version that you have installed.
3.     Click Change.
4.     Click Add or Remove features, and then click Continue.
5.     Expand Office Tools.
6.     Click Microsoft Office Document Imaging, and then click Run all from My Computer.
7.     Click Continue.

原文地址:http://forums.microsoft.com/MSDN/ShowPost.aspx?PostID=953422&SiteID=1

不过这个还是没有解决我从pdf文件中抽出文本的问题,pdf中的文本貌似是图片来的,所以用gmail也是转换不过来的,主要是这个office的ocr转换可能对中文支持的不好(若我设为默认语言为英文那么ocr识别会一直通畅,只不过发送到word里的内容都是乱码来的,若设为中文那就没戏啦连word都看不到,就会提示你发送不发送错误报告!),郁闷,看看事件日志吧:

事件类型:    错误
事件来源:    Microsoft Office 12
事件种类:    无
事件 ID:    1000
日期:        2008-4-23
事件:        0:51:52
用户:        N/A
计算机:    LS033
描述:
Faulting application mspview.exe, version 12.0.4518.1014, stamp 45417584, faulting module kernel32.dll, version 5.1.2600.3119, stamp 46239c32, debug? 0, fault address 0x00012a5b.

有关更多信息,请参阅在 http://go.microsoft.com/fwlink/events.asp 的帮助和支持中心。
数据:
0000: 41 00 70 00 70 00 6c 00   A.p.p.l.
0008: 69 00 63 00 61 00 74 00   i.c.a.t.
0010: 69 00 6f 00 6e 00 20 00   i.o.n. .
0018: 46 00 61 00 69 00 6c 00   F.a.i.l.
0020: 75 00 72 00 65 00 20 00   u.r.e. .
0028: 20 00 6d 00 73 00 70 00    .m.s.p.
0030: 76 00 69 00 65 00 77 00   v.i.e.w.
0038: 2e 00 65 00 78 00 65 00   ..e.x.e.
0040: 20 00 31 00 32 00 2e 00    .1.2…
0048: 30 00 2e 00 34 00 35 00   0…4.5.
0050: 31 00 38 00 2e 00 31 00   1.8…1.
0058: 30 00 31 00 34 00 20 00   0.1.4. .
0060: 34 00 35 00 34 00 31 00   4.5.4.1.
0068: 37 00 35 00 38 00 34 00   7.5.8.4.
0070: 20 00 69 00 6e 00 20 00    .i.n. .
0078: 6b 00 65 00 72 00 6e 00   k.e.r.n.
0080: 65 00 6c 00 33 00 32 00   e.l.3.2.
0088: 2e 00 64 00 6c 00 6c 00   ..d.l.l.
0090: 20 00 35 00 2e 00 31 00    .5…1.
0098: 2e 00 32 00 36 00 30 00   ..2.6.0.
00a0: 30 00 2e 00 33 00 31 00   0…3.1.
00a8: 31 00 39 00 20 00 34 00   1.9. .4.
00b0: 36 00 32 00 33 00 39 00   6.2.3.9.
00b8: 63 00 33 00 32 00 20 00   c.3.2. .
00c0: 66 00 44 00 65 00 62 00   f.D.e.b.
00c8: 75 00 67 00 20 00 30 00   u.g. .0.
00d0: 20 00 61 00 74 00 20 00    .a.t. .
00d8: 6f 00 66 00 66 00 73 00   o.f.f.s.
00e0: 65 00 74 00 20 00 30 00   e.t. .0.
00e8: 30 00 30 00 31 00 32 00   0.0.1.2.
00f0: 61 00 35 00 62 00 0d 00   a.5.b…
00f8: 0a 00                     ..
呵呵,扯远啦都,晚啦关于pdf 图片中抓取文字天亮再说吧。

这个墨水服务业就是wisptis.exe进程应该是随带office安装进来的(同时进来的还有微软2007输入法,我的谷歌输入法被这个替换啦!错误还是别有用心?),它的全称:windows ink services platform tablet input subsystem。windows墨水服务写字板平台输入子系统,支持直接输入。在Tablet PC上影响数字转换器,而在一般的PC上只会影响到鼠标的运作。

下边是删除方法:

把下面内容存为bat文件,可在记事本中另存为。

—————————————-
rem — UnRegister MS XP Tablet PC Ink Pen components
@echo off
set sys32=%SystemRoot%\System32
set pfcfink=%CommonProgramFiles%\Microsoft Shared\INK
“%sys32%\WispTis.exe” /unregserver
“%sys32%\regsvr32.exe” /u /s “%sys32%\inked.dll”
“%sys32%\regsvr32.exe” /u /s “%pfcfink%/inkobj.dll”
“%sys32%\regsvr32.exe” /u /s “%pfcfink%/inkdiv.dll”
“%sys32%\regsvr32.exe” /u /s “%pfcfink%/tpcps.dll”
set pfcfink=
set sys32=
pause
—————————————-