使用 Scala 解析器组合器解析 CSV 文件
Posted
技术标签:
【中文标题】使用 Scala 解析器组合器解析 CSV 文件【英文标题】:Use Scala parser combinator to parse CSV files 【发布时间】:2011-07-01 02:03:40 【问题描述】:我正在尝试使用 Scala 解析器组合器编写 CSV 解析器。语法基于RFC4180。我想出了以下代码。它几乎可以工作,但我无法让它正确分离不同的记录。我错过了什么?
object CSV extends RegexParsers
def COMMA = ","
def DQUOTE = "\""
def DQUOTE2 = "\"\"" ^^ case _ => "\""
def CR = "\r"
def LF = "\n"
def CRLF = "\r\n"
def TXT = "[^\",\r\n]".r
def file: Parser[List[List[String]]] = ((record~((CRLF~>record)*))<~(CRLF?)) ^^
case r~rs => r::rs
def record: Parser[List[String]] = (field~((COMMA~>field)*)) ^^
case f~fs => f::fs
def field: Parser[String] = escaped|nonescaped
def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ case ls => ls.mkString("")
def nonescaped: Parser[String] = (TXT*) ^^ case ls => ls.mkString("")
def parse(s: String) = parseAll(file, s) match
case Success(res, _) => res
case _ => List[List[String]]()
println(CSV.parse(""" "foo", "bar", 123""" + "\r\n" +
"hello, world, 456" + "\r\n" +
""" spam, 789, egg"""))
// Output: List(List(foo, bar, 123hello, world, 456spam, 789, egg))
// Expected: List(List(foo, bar, 123), List(hello, world, 456), List(spam, 789, egg))
更新:问题已解决
默认的 RegexParsers 使用正则表达式 [\s]+
忽略空格,包括空格、制表符、回车和换行符。上面的解析器无法分离记录的问题就是因为这个。我们需要禁用 skipWhitespace 模式。将空格定义替换为 [ \t]
并不能解决问题,因为它将忽略字段中的所有空格(因此 CSV 中的“foo bar”变为“foobar”),这是不希望的。因此解析器的更新源是
import scala.util.parsing.combinator._
// A CSV parser based on RFC4180
// https://www.rfc-editor.org/rfc/rfc4180
object CSV extends RegexParsers
override val skipWhitespace = false // meaningful spaces in CSV
def COMMA = ","
def DQUOTE = "\""
def DQUOTE2 = "\"\"" ^^ case _ => "\"" // combine 2 dquotes into 1
def CRLF = "\r\n" | "\n"
def TXT = "[^\",\r\n]".r
def SPACES = "[ \t]+".r
def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ (CRLF?)
def record: Parser[List[String]] = repsep(field, COMMA)
def field: Parser[String] = escaped|nonescaped
def escaped: Parser[String] =
((SPACES?)~>DQUOTE~>((TXT|COMMA|CRLF|DQUOTE2)*)<~DQUOTE<~(SPACES?)) ^^
case ls => ls.mkString("")
def nonescaped: Parser[String] = (TXT*) ^^ case ls => ls.mkString("")
def parse(s: String) = parseAll(file, s) match
case Success(res, _) => res
case e => throw new Exception(e.toString)
【问题讨论】:
为什么常量是用def而不是val定义的?有什么好处吗? Check this out。 tl;dr def 使用更少的内存,val 更快。 对于编译时常量几乎没有什么区别——“val”将在构造函数中使用该常量初始化一个字段,然后创建一个返回其值的方法,而“def”将简单地返回常量 - 对于编译时常量,这实际上是免费的。 @rancidfishbreath 它是一个对象,所以只有 1 个实例,所以如果它节省任何内存,这将是微不足道的 【参考方案1】:您错过的是空白。我进行了一些额外的改进。
import scala.util.parsing.combinator._
object CSV extends RegexParsers
override protected val whiteSpace = """[ \t]""".r
def COMMA = ","
def DQUOTE = "\""
def DQUOTE2 = "\"\"" ^^ case _ => "\""
def CR = "\r"
def LF = "\n"
def CRLF = "\r\n"
def TXT = "[^\",\r\n]".r
def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ opt(CRLF)
def record: Parser[List[String]] = rep1sep(field, COMMA)
def field: Parser[String] = (escaped|nonescaped)
def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ case ls => ls.mkString("")
def nonescaped: Parser[String] = (TXT*) ^^ case ls => ls.mkString("")
def parse(s: String) = parseAll(file, s) match
case Success(res, _) => res
case _ => List[List[String]]()
【讨论】:
这与protected val whiteSpace = """\s+""".r
(RegexParsers
的默认设置)有何不同? ——啊,明白了。换行符也是空格,因此您的覆盖将其从考虑中删除。
非常感谢您指出空白问题!您的解决方案正确解析不同的记录。但是,它也会忽略字段中的空格。采纳您的更改后,请查看我更新的问题以查看我的解决方案。
如果你想支持非windows换行,请将文件中的CRLF更改为CRLF|LF(在Linux中只是\n)【参考方案2】:
从 2.11 开始,Scala 标准库中的 Scala Parser Combinators 库没有充分的理由不使用性能更高的 Parboiled2 库。 这是 Parboiled2 的 DSL 中 CSV 解析器的一个版本:
/* based on comments in https://github.com/sirthias/parboiled2/issues/61 */
import org.parboiled2._
case class Parboiled2CsvParser(input: ParserInput, delimeter: String) extends Parser
def DQUOTE = '"'
def DELIMITER_TOKEN = rule(capture(delimeter))
def DQUOTE2 = rule("\"\"" ~ push("\""))
def CRLF = rule(capture("\r\n" | "\n"))
def NON_CAPTURING_CRLF = rule("\r\n" | "\n")
val delims = s"$delimeter\r\n" + DQUOTE
def TXT = rule(capture(!anyOf(delims) ~ ANY))
val WHITESPACE = CharPredicate(" \t")
def SPACES: Rule0 = rule(oneOrMore(WHITESPACE))
def escaped = rule(optional(SPACES) ~
DQUOTE ~ (zeroOrMore(DELIMITER_TOKEN | TXT | CRLF | DQUOTE2) ~ DQUOTE ~
optional(SPACES)) ~> (_.mkString("")))
def nonEscaped = rule(zeroOrMore(TXT | capture(DQUOTE)) ~> (_.mkString("")))
def field = rule(escaped | nonEscaped)
def row: Rule1[Seq[String]] = rule(oneOrMore(field).separatedBy(delimeter))
def file = rule(zeroOrMore(row).separatedBy(NON_CAPTURING_CRLF))
def parsed() : Try[Seq[Seq[String]]] = file.run()
【讨论】:
既然你努力写了一篇关于它的好博客,我们不妨把链接贴在这里:-) maciejb.me/2014/07/11/… 不应该CRLF = rule(capture("\n\r" | "\n"))
是 CRLF = rule(capture("\r\n" | "\n"))
吗?又是NON_CAPTURING_CRLF
?
@Toby 当然应该!感谢您指出这一点,我已经更正了答案。
好东西。它不应该支持开箱即用的(双)引用值吗?在我看来应该是这样,但它并没有像我期望的那样解析它。即,“a,b”,“c”
@Toby 当然应该!我也修好了那个。 :-)【参考方案3】:
RegexParsers
解析器的默认空格是\s+
,其中包括新行。所以CR
、LF
和CRLF
永远没有机会被处理,因为它会被解析器自动跳过。
【讨论】:
以上是关于使用 Scala 解析器组合器解析 CSV 文件的主要内容,如果未能解决你的问题,请参考以下文章
Scala Sax 解析器无法处理 <!DOCTYPE XML>