找回密码
 注册
查看: 1195|回复: 0

R语言 XML包 xmlToDataFrame()函数中文帮助文档(中英文对照)

[复制链接]
发表于 2012-10-2 07:10:00 | 显示全部楼层 |阅读模式
xmlToDataFrame(XML)
xmlToDataFrame()所属R语言包:XML

                                        Extract data from a simple XML document
                                         从一个简单的XML文档中提取数据

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

This function can be used to extract data from an XML document (or sub-document) that has a simple, shallow structure that does appear reasonably commonly. The idea is that there is a collection of nodes which have the same fields (or a subset of common fields) which contain primitive values, i.e. numbers, strings, etc. Each node corresponds to an "observation" and each of its sub-elements correspond to a variable. This function then builds the corresponding data frame, using the union of the variables in the different observation nodes. This can handle the case where the nodes do not all have all of the variables.
此功能可用于提取数据从一个XML文件(或子文档),有一个简单,浅层结构,并合理地普遍出现。我们的想法是,有具有相同的字段(或子集的通用字段),其中包含原始值,如数字,字符串,每个节点对应于一个“观察”和其子节点的集合元素对应于一个变量。此功能建立相应的数据框,使用工会的变量在不同的观察节点。这可以处理的情况下,其中的节点并不都具有的所有变量。


用法----------Usage----------


xmlToDataFrame(doc, colClasses = NULL, homogeneous = NA,
               collectNames = TRUE, nodes = list(),
               stringsAsFactors = default.stringsAsFactors())



参数----------Arguments----------

参数:doc
the XML content. This can be the name of a file containing the XML, the parsed XML document. If one wants to work on a subset of nodes, specify these via the nodes parameter.
XML内容。这可以是一个文件包含XML,解析的XML文档的名称。如果一个人想工作的一个子集的节点,通过nodes参数指定。


参数:colClasses
a list/vector giving the names of the R types for the corresponding variables and this is used to coerce the resulting column in the data frame to this type. These can be named. This is similar to the colClasses parameter for read.table. If this is given as a list, columns in the data frame corresponding to elements that are NULL are omitted from the answer. This can be slightly complex to specify if the different nodes have the "variables" in quite different order as there is not a well defined order for the variables corresponding to colClasses.  
的列表/矢量给的R类型相应的变量的名称,这是用来强迫数据框中的这种类型的结果列。这些可以被命名。这类似的colClasses参数read.table。如果提供了这个作为一个列表,数据框中的对应是NULL的答案被省略的元素的列。这可能是稍微复杂一点,到指定的不同节点间是“变量”,在相当不同的顺序,因为没有一个定义良好的顺序对应的变量colClasses。


参数:homogeneous
a logical value that indicates whether each of the nodes contains all of the variables (TRUE) or if there may be some nodes which have only a subset of them. The function determines this if the caller does not specify homogeneous or uses NA as the value. It is a parameter to allow  the caller to specify this information and avoid these "extra" computations. If the caller knows this information it is more efficient to specify it.  
一个逻辑值,该值指示是否每个节点包含的所有变量(TRUE),或者如果可能会有一些节点,其中仅具有其中的一个子集。该功能确定,如果调用方不指定homogeneous或使用NA的价值。这是一个参数,以允许调用者指定此信息,避免这些“额外”的计算。如果在调用者知道此信息,它是更有效地指定它。


参数:collectNames
a logical value indicating whether we compute the names by explicitly computing the union of all variable names or, if FALSE, we use the names from the node with the most children. This latter case is useful when the caller knows that the there is at least one node with all the variables.  
一逻辑值,我们计算的名称是否明确计算的所有变量名的工会,或者,如果FALSE,我们使用的名称,大多数孩子的节点。这后者的情况下是非常有用的,当呼叫者知道,有至少有一个节点与所有的变量。


参数:nodes
a list of XML nodes which are to be processed
XML节点的列表,这是要被处理的


参数:stringsAsFactors
a logical value that controls whether character vectors are converted to factor objects in the resulting data frame.
一个逻辑值,该值控制字符向量是否被转换因子所得的数据框中的对象。


值----------Value----------

A data frame.
一个数据框。


(作者)----------Author(s)----------


Duncan Temple Lang



参见----------See Also----------

xmlParse getNodeSet  
xmlParsegetNodeSet


实例----------Examples----------


f = system.file("exampleData", "size.xml", package = "XML")
xmlToDataFrame(f, c("integer", "integer", "numeric"))

   # Drop the middle variable.[删除中间变量。]
z = xmlToDataFrame(f, colClasses = list("integer", NULL, "numeric"))


   #  This illustrates how we can get a subset of nodes and process[这说明,我们可以得到一个子节点和过程]
   #  those as the "data nodes", ignoring the others.[那些称为“数据节点”,忽略了他人。]
  f = system.file("exampleData", "tides.xml", package = "XML")
  doc = xmlParse(f)
  xmlToDataFrame(nodes = xmlChildren(xmlRoot(doc)[["data"]]))

    # or, alternatively[,或者也可以]
  xmlToDataFrame(nodes = getNodeSet(doc, "//data/item"))


  f = system.file("exampleData", "kiva_lender.xml", package = "XML")
  doc = xmlParse(f)
  dd = xmlToDataFrame(getNodeSet(doc, "//lender"))

转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-24 16:12 , Processed in 0.022581 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表