在推文字符串中删除 @ImSRK 的大查询

Posted

技术标签:

【中文标题】在推文字符串中删除 @ImSRK 的大查询【英文标题】:Big-query for remove @ImSRK in the tweets string 【发布时间】:2019-05-26 17:12:20 【问题描述】:

我正在使用 Google 云在 Twitter 上进行情绪分析。在我的大表中,我有来自数千人的推文。我想从推文中删除@NarendraModi。你能帮我找到大查询吗?例如 @NarendraModi 恭喜先生 在上面的推文中,我想从字符串中删除 @narendramodi。 @Narendramodi 后面有一个空格

【问题讨论】:

【参考方案1】:

以下 BigQuery Standard SQL 示例使用 REPLACE 或 REGEXP_REPLACE

#standardSQL
WITH `project.dataset.table` AS (
  SELECT '@NarendraModi congratulation sir' tweet
)
SELECT REPLACE(tweet, '@NarendraModi ', ''),
  REGEXP_REPLACE(tweet, r'@NarendraModi\s*', ''),
  REGEXP_REPLACE(tweet, r'@\w+\s+', '')
FROM `project.dataset.table`   

输出是

Row f0_                 f1_                 f2_  
1   congratulation sir  congratulation sir  congratulation sir    

我剩下两个模式 1)“@somename:”和 2)“@somename”。

下面介绍其他模式

#standardSQL
WITH `project.dataset.table` AS (
  SELECT '@NarendraModi congratulation sir' tweet UNION ALL
  SELECT '@NarendraModi. congratulation sir' tweet UNION ALL
  SELECT '@NarendraModi: congratulation sir' tweet 

)
SELECT REGEXP_REPLACE(tweet, r'@\w+[:.\s]*', '')
FROM `project.dataset.table`   

结果

Row f0_  
1   congratulation sir   
2   congratulation sir   
3   congratulation sir   

【讨论】:

我有很多不同的推文,比如@narendraModi 您最初的问题并不清楚 - 无论如何 - 我刚刚添加了第三行来替换任何@xyz @Mikhali Berlyant 我正在大查询谷歌云平台上运行此查询。 我的答案是 BigQuery!如果您认为它对您不起作用 - 请具体说明究竟是什么以及如何不起作用,以便我们可以进一步帮助您 您好,很抱歉浪费您的时间。我做错了。我忘了写正则表达式。现在就像一个魅力。谢谢一百万!

以上是关于在推文字符串中删除 @ImSRK 的大查询的主要内容,如果未能解决你的问题,请参考以下文章

在推文中查找表情符号作为整个集群而不是单个字符

文本消息中字符串的猪计数出现

从 Python 中的字符串中删除转义实体 [重复]

从 Python 中的大字符串中删除编码的 HTML 标记

正则表达式之Dotall模式

python 感知/推断/生成导入#bigquery的大查询模式字符串