首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

CMarkup定位解释---深入Markup分析器更新

CMarkup定位解释---深入Markup分析器更新


7.0版本中,分析器使用了新的分析方法,不再使用递归实现。在以前的版本中,使用递归方法实现时,每次在另一个元素中发现一个元素就调用自己,当它到达父结点的结束标签时返回。因为每次嵌套调用都要增加局部变量和参数到堆栈中,但是在堆栈的尺寸是有限的任何平台上,例如掌上操作系统,这时,递归就成为一个问题了。虽然大多数的文件不会大于10个元素的深度(嵌套),也许在栈中只需要500bytes,然而,这仍是一个潜在的危险。新的分析器使用了一个叫NodeStack的小数组,它就像一个栈,但是它在堆里的。

它保持着一直到当前深度的所有被嵌套的元素的标签名。


分析函数x_ParseElem实际上相当简单,它通过调用x_ParseNode查找和检查下一个结点来循环所有的结点,直到文档的结束。关于结点类型的讨论可以看在Nodes的文章。元素的结束标签被表示成0的结点类型,因为它是元素结点的结束。


NodeStack用来记录被嵌套的元素,当一个起始标签被遇到时,它将呆在NodeStack中,直到相对应的结束标签被发现。如果一个元素A包含其它一些元素,那么这些元素将会放到NodeStack中,并且置于元素A的上面,在恢复父元素(元素A)之前,需要匹配它们的结束标签然后从NodeStack中删除。


x_ParseNode函数是根据在文档中给定结点起始字符的偏移量来识别一个结点。出于对速度和简单考虑,结点被分析只是从第一个字符前进做一个简单的循环,在结点的类型被确定前,保持一个比特标志状态。


如果第一字符是小于号“<,它就是一个标签“<..>(对于文本和空格),如果是标签,检查第二个字符,它可能是元素标签名的起始、或者一个斜线(结束标签)、或者是一个感叹号(是注释、CDATA段或DOCTYPE)或是问号(PI),如果是感叹号,你必须要得到下一个字符来判断结点的类型。一旦知道了结点类型,分析器就可以正确扫描这种结点类型相应的结束字符串。

如果第一个字符不是小于号“<”,同时也不空格,那么它是一个文本结点,并且这个结点一直要到一个小于号”<”或者到文档的结束。如果第一个字符是一个空格,那么它也要一直到小于号”<”或文档结束,但是当看到第一个非空格就表明它是一个文本结点。如果到结点的结束都没有遇到非空格,那么,它就是一个空格结点。

现在,让我们这样的步骤来处理下面的简单XML文档。

<?xml version="1.0"?><test> hello world </test>

首先调用x_ParseNode,开始字符是文档的第一个字符,如果是小于号,表明是标签,所以OPENTAG位被设置,下一个字符是一个问号,那么在OPENTAG状态中,表明这是一个处理指令(PI),现在知道了结点类型,不需要设置OPENTAG位了。它会扫描PI的结束字符串 ?>,再返回。

第二步,调用x_ParseNode,开始字符是测试元素的第一个字符,是小于号,表明这是一个标签,所以设置OPENTAG位,下一个字符是一个有效字符,是元素标签名的第一个字符,那么在OPENTAG状态中,意味着这是一个文本结点。现在知道了结点类型,就不需要再设置OPENTAG位了。它会扫描到元素标签的结束字符”>”,接着返回。

第三步,调用x_ParseNode,起始字符是“ Hello World”的第一个字符,这不是小于号了,它是一个空格,所以TEXTORWS (文本或空格)位要被设置。下一个字符是文本字符,所以在EXTORWS
状态中,就意味着这是一个文本结点,现在,解析器知道了结点类型,就不用再设置
TEXTORWS
位了,它会扫描小于号或文档的结束,然后返回。

第四步,调用x_ParseNode,,开始字符是测试元素结束标签的第一个字符,这是一个小于号,表明它是标签,所以要设置OPENTAG位,下一个字符是斜线,在OPENTAG状态中,这意味着它是一个结束标签,现在知道标签的类型了,不用设置OPENTAG位了,它会扫描结束标签的结束字符“>”,然后返回。
返回列表