ruby テキストから日本语を抜き出す正规表现。失败パターン,成功パターン

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ruby テキストから日本语を抜き出す正规表现。失败パターン,成功パターン相关的知识,希望对你有一定的参考价值。

require 'pp'

Japanese = %r/[
  \p{Hiragana}
  \p{InKatakana}
  \p{Han}
  \p{InCJKSymbolsAndPunctuation}
  \p{InCJKUnifiedIdeographs}
]{2,}/x # `+` -> `{2,}`

str = <<EOF
text in English
日本語のテキスト
にほんご の テキスト
EOF

pp str.scan(Japanese)
# => ["\n日本語のテキスト\nにほんご の テキスト\n"]
require 'pp'

Japanese = %r/[
  \p{Hiragana}
  \p{InKatakana}
  \p{Han}
  \p{InCJKSymbolsAndPunctuation}
  \p{InCJKUnifiedIdeographs}
]+/x

str = <<EOF
text in English
日本語のテキスト
にほんご の テキスト
EOF

pp str.scan(Japanese)
# => [" ", " ", "\n日本語のテキスト\nにほんご の テキスト\n"]

pp str.scan(Japanese).select{|x| !x.include? ' '}
# => ["\n日本語のテキスト\nにほんご の テキスト\n"]

以上是关于ruby テキストから日本语を抜き出す正规表现。失败パターン,成功パターン的主要内容,如果未能解决你的问题,请参考以下文章