批处理for语句 文本解析显神威

发布时间:2020-05-20编辑:脚本学堂
本文介绍下,批处理中for语句的详细用法,相当经典的一篇文章,如果你有意研究下批处理的内容,这篇一定不要错过。

如果说,for语句是批处理中最强大的语句的话,那么,for /f 就是精华中的精华。
for /f 的强大,和它拥有众多的开关密切相关。因为开关众多,所以用法复杂,本章将分成若干小节,为大家逐一介绍强大的 for /f 语句。

(一) 为解析文本而生:for /f 的基本用法

  所有的对象,无论是文件、窗体、还是控件,在所有的非机器语言看来,无外乎都是形如"c:test.txt"、"CWnd"之类的文本信息;而所有的对象,具体的如ini文件中的某条配置信息、注册表中的某个键值、数据库中的某条记录……都只有转化为具有一定格式的文本信息,方可被代码识别、操控。可以说,编程的很大一部分工作,都是在绞尽脑汁想方设法如何提取这些文本信息。

  而提取文本信息,则是for /f的拿手好戏:读取文件内容;提取某几行字符;截取某个字符片段;对提取到的内容再切分、打乱、杂糅……只要你所能想到的花样,for /f 都会想方设法帮你办到,因为,for /f 就是被设计成专门用于解析文本的。

  先来看个例子。

  假如有个文本文件test.txt,内容如下:
[txt1]
论坛的目标是:不求最大,但求最好,做最实用的批处理论坛。
论坛地址:bbs.bathome.cn。
这里是:新手晋级的福地,高手论剑的天堂。

那么,将如下代码保存为test.cmd,并放在test.txt同一目录下运行,将会在屏幕上原样显示test.txt的内容:
[code4]
 

复制代码 代码示例:
@echo off
for /f %%i in (test.txt) do echo %%i
pause

这段代码,主要是让你树立这样一种观念:读取文本文件的内容,请使用 for /f 语句!

进阶话题:for /f 语句是把整个test.txt一次性显示出来的?

在这段代码中,虽然执行结果是把test.txt中的所有内容都显示出来了,貌似 for /f 语句是把整个test.txt一次性显示到屏幕上,实际上并非如此。

无论for语句做何种变化,它的执行过程仍然遵循基本的for流程:依次处理每个元素,直到所有的元素都被处理为止。只不过在for /f语句中,这里的元素是指文件中的每一行,也就是说,for /f 语句是以行为单位处理文本文件的。这是一条极为重要的规则,在上一章中也强调过它的重要性,希望在接下来的学习过程中,你能时刻牢记这一原则,那么,很多问题将会迎刃而解。以下是验证这一说法的演示代码(在[code4]的基础上添加了&pause语句):
[code5]
 

复制代码 代码示例:
@echo off
for /f %%i in (test.txt) do echo %%i&pause
pause

(二) 切分字符串的利器:delims=
也许你对[code4]这段代码不屑一顾:不就是把test.txt的内容显示出来了么?好像用处不大啊。
好吧,我们来玩个魔术。
还是[txt1]这段文本,把[code4]改造一下:
[code6]
 

复制代码 代码示例:
@echo off
for /f "delims=," %%i in (test.txt) do echo %%i
pause
 

再次运行test.cmd,看到什么变化了吗?!
[result2]
论坛的目标是:不求最大
论坛地址:bbs.bathome.cn。
这里是:新手晋级的福地
请按任意键继续...
结果,每行第一个逗号之后的所有内容都不见了(如果有不存在逗号的行,则保留原样),也就说,你成功地提取到了每行第一个逗号之前的所有内容!

试想一下,这段代码会有什么用呢?
如果别人给了你一个软件清单,每行都是"英文软件名(逗号)中文软件名"的格式,而你却只想保留英文名的时候,这段代码将是多么有用啊!再假设,有这么一个IP文件,第一列是数字格式的IP地址,第二列是具体的空间地址,列与列之间用逗号分隔,而你想提取其中数字格式的IP,呵呵,我不说你也知道该怎么办了吧?

要是文本内容不是以逗号分隔,而是以其他符号分隔,那么,把"delims=,"的逗号换成相应的符号就可以了。

在这里,我们引入了一个新的开关:"delims=,",它的含义是:以逗号作为被处理的字符串的分隔符号。

在批处理中,指定分隔符号的方法是:添加一个形如 "delims=符号列表" 的开关,这样,被处理的每行字符串都会被符号列表中罗列出来的符号切分开来。

注意:如果没有指定"delims=符号列表"这个开关,那么,for /f 语句默认以空格键或跳格键作为分隔符号。请把[txt1]中不同位置上的标点符号改为空格或跳格,再运行[code4]试试。

进阶话题:如果我要指定的符号不止一个,该怎么办?

在上面的讲解中,我提到了指定分隔符号的方法:添加一个形如"delims=符号列表"的开关。不知道你注意到没有,我的说法是"符号列表"而非"符号",这是大有讲究的,因为,你可以一次性指定多个分隔符号!

还是以[txt1]为例,把[code6]再改造一下:
[code7]
 

复制代码 代码示例:
@echo off
for /f "delims=.," %%i in (test.txt) do echo %%i
pause

结果显示:
[result3]
论坛的目标是:不求最大
论坛地址:bbs
这里是:新手晋级的福地
请按任意键继续...

这样,第一个点号或第一个逗号之前的内容都被提取出来了。

[code7]的执行过程是:逐行读取test.txt中的内容,以点号和逗号切分每一行的内容(不存在点号和逗号的行,则不再切分,为了描述的方便,我们把被点号或逗号切分的一个一个的字符串片段,称之为节),然后,for /f 会提取第一节的内容作为最终结果,显示在屏幕上。需要注意的是,在这里,所有行的字符串被切分成了两个以上的节,但是,[code7]的代码只会提取第一节字符串的内容,因为 for /f 语句默认只提取第一节的符串。

(三) 定点提取:tokens=
上一节在讲解 delims= 的时候,我一再强调 for /f 默认只能提取到第一节的内容,现在我们来思考一个问题:如果我要提取的内容不在第一节上,那怎么办?
这回,就该轮到 tokens= 出马了。

tokens= 后面一般跟的是数字,如 tokens=2,也可以跟多个,但是每个数字之间用逗号分隔,如 tokens=3,5,8,它们的含义分别是:提取第2节字符串、提取第3、第5和第8节字符串。注意,这里所说的“节”,是由 delims= 这一开关划分的,它的内容并不是一成不变的。

例子:
[txt2]
尺有所短,寸有所长,学好批处理没商量,考虑问题复杂化,解决问题简洁化。

对[txt2]这段文本,假设它们保存在文件test.txt中,如果我想提取“学好批处理没商量”这句话,该如何写代码呢?

我们稍微观察一下[txt2]就会发现,如果以逗号作为切分符号,就正好可以把“学好批处理没商量”化为单独的一“节”,结合上一节的讲解,我们知道,"delims=," 这个开关是不可缺少的,而要提取的内容在以逗号切分的第3节上,那么,tokens= 后面的数字就应该是3了,最终的代码如下:
[code8]
 

复制代码 代码示例:
@echo off
for /f "delims=, tokens=3" %%i in (test.txt) do echo %%i
pause

如果我们现在要提取的不只一个“节”,而是多个,那又怎么办呢?比如,要提取以逗号切分的第2节和第5节字符串,是写成这样吗?
[code9]
 

复制代码 代码示例:
@echo off
for /f "delims=, tokens=2,5" %%i in (test.txt) do echo %%i
pause

运行批处理后发现,执行结果只显示了第2节的内容。

原来,echo 后面的 %%i 只接收到了 tokens=2,5 中第一个数值2所代表的那个字符串,而第二个数值5所代表的字符串因为没有变量来接收,所以就无法在执行结果中显示出来了。

那么,要如何接收 tokens= 后面多个数值所指代的内容呢?

for /f 语句对这种情况做如下规定:

  如果 tokens= 后面指定了多个数字,如果形式变量为%%i,那么,第一个数字指代的内容用第一个形式变量%%i来接收,第二个数字指代的内容用第二个形式变量%%j来接收,第三个数字指代的内容用第三个形式变量%%k来接收……第N个数字指代的内容用第N个形式变量来接收,其中,形式变量遵循字母的排序,第N个形式变量具体是什么符号,由第一个形式变量来决定:如果第一个形式变量是%%i,那么,第二个形式变量就是%%j;如果第一个形式变量用的是%%x,那么,第二个形式变量就是%%y。

  现在回头去看[code9],你应该知道如何修改才能满足题目的要求了吧?修改结果如下:
[code10]
 

复制代码 代码示例:
@echo off
for /f "delims=, tokens=2,5" %%i in (test.txt) do echo %%i %%j
pause

如果有这样一个要求:显示[txt2]中的内容,但是逗号要替换成空格,如何编写代码?

结合上面所学的内容,稍加思索,你可能很快就得出了答案:
[code11]
 

复制代码 代码示例:
@echo off
for /f "delims=, tokens=1,2,3,4,5" %%i in (test.txt) do echo %%i %%j %%k %%l %%m
pause

写完之后,你可能意识到这样一个问题:假如要提取的“节”数不是5,而是10,或者20,或者更多,难道我也得从1写到10、20或者更多吗?有没有更简洁的写法呢?

答案是有的,那就是:如果要提取的内容是连续的多“节”的话,那么,连续的数字可以只写最小值和最大值,中间用短横连接起来即可,比如 tokens=1,2,3,4,5 可以简写为 tokens=1-5 。

还可以把这个表达式写得更复杂一点:tokens=1,2-5,tokens=1-3,4,5,tokens=1-4,5……怎么方便就怎么写吧。

大家可能还看到一种比较怪异的写法:
[code12]
 

复制代码 代码示例:
@echo off
for /f "delims=, tokens=1,*" %%i in (test.txt) do echo %%i %%j
pause

结果,第一个逗号不见了,取代它的是一个空格符号,其余部分保持不变。
其中奥妙就在这个星号上面。
tokens=后面所接的星号具备这样的功能:字符串从左往右被切分成紧跟在*之前的数值所表示的节数之后,字符串的其余部分保持不变,整体被*所表示的一个变量接收。
理论讲解是比较枯燥的,特别是为了严密起见,还使用了很多限定性的修饰词,导致句子很长,增加了理解的难度,我们还是结合[code12]来讲解一下吧。

[txt2] 的内容被切分,切分符号为逗号,当切分完第一节之后,切分动作不再继续下去,因为 tokens=1,* 中,星号前面紧跟的是数字1;第一节字符串被切分完之后,其余部分字符串不做任何切分,整体作为第二节字符串,这样,[txt2]就被切分成了两节,分别被变量%%i和变量%%j接收。

以上几种切分方式可以结合在一起使用。不知道下面这段代码的含义你是否看得懂,如果看不懂的话,那就运行一下代码,然后反复揣摩,你一定会更加深刻地理解本节所讲解的内容的:
[code13]
 

复制代码 代码示例:
@echo off
for /f "delims=, tokens=1,3-4,*" %%i in (test.txt) do echo %%i %%j %%k %%l
pause

(四) 跳过无关内容,直奔主题:skip=n
很多时候,有用的信息并不是贯穿文本内容的始终,而是位于第N行之后的行内,为了提高文本处理的效率,或者不受多余信息的干扰,for /f 允许你跳过这些无用的行,直接从第N+1行开始处理,这个时候,就需要使用参数 skip=n,其中,n是一个正整数,表示要跳过的行数。例如:
[code14]
 

复制代码 代码示例:
@echo off
for /f "skip=2" %%i in (test.txt) do echo %%i
pause

这段代码将跳过头两行内容,从第3行起显示test.txt中的信息。