R中的事故单优先级分类

Posted 2023-03-12

技术标签:

【中文标题】R中的事故单优先级分类【英文标题】：incident ticket priority classification in R 【发布时间】：2018-08-30 10:08:26 【问题描述】：

我是 R 和机器学习的新手。在这里，我尝试建立一个随机森林分类模型，从事件单的描述中预测其优先级。我遵循以下步骤。

1) 输入

library(tm)
library(SnowballC)
library(caTools)
library(randomForest)
incidents = read.csv("incident.csv", stringsAsFactors = FALSE)

> str(incidents) 'data.frame':  4265 obs. of  7 variables:  $ number                : chr  "INC0031193" "INC0037867" "INC0159979" "INC0031446" ...  $
> u_detailed_description: chr  "Close & Ignore new Ticket New-Production
> SNOW Auto Routing test for XYZ SNOW ticketing in uat"  "" "" ""...  $
> priority              : chr  "3 - Moderate" "2 - High" "4 - Low" "3 -
> Moderate" ...  $ state                 : chr  "Canceled" "Canceled"
> "Canceled" "Canceled" ...  $ category              : chr  "Server"
> "Tools" "Server" "Server" ...  $ assignment_group      : chr 
> "Windows" "Tools" "SNOC Support" "Windows" ...

2) 数据清洗，创建DocumenTermMatrix并转换为DataFrame。

incidentCorpus <- Corpus(VectorSource(incidents$u_detailed_description))
incidentCorpus <- tm_map(incidentCorpus, tolower)
incidentCorpus <- tm_map(incidentCorpus, removePunctuation)
incidentCorpus <- tm_map(incidentCorpus, removeWords, stopwords("english"))
incidentCorpus <- tm_map(incidentCorpus, stemDocument)
incidentDTM <- DocumentTermMatrix(incidentCorpus)

3) 使用 caTools 将数据拆分为训练集和测试集。

set.seed(123)
split <- sample.split(incidentSparse$priority,SplitRatio = 0.7)
train <- subset(incidentSparse, split == TRUE)
test  <- subset(incidentSparse, split == FALSE)
train$priority <- as.character(train$priority) 
train$priority <- as.factor(train$priority
test$priority  <- as.character(testSet1$priority)
test$priority  <- as.factor(testSet1$priority)

4) 应用randomforest() 函数创建我的模型，并使用predict 函数对我的测试集进行分类。

incidentRandomF <- randomForest(priority ~ ., data = train, ntree = 200, mtry = 50, importance = TRUE, proximity = TRUE)

5) 模型的整体准确率在 90% 左右。

baselineAccuracy <- sum(diag(table(predict(incidentRandomF, type="class"), train$priority)))/nrow(train)

> baselineAccuracy
[1] 0.8392498

predFinalTestSet_RF <- predict(incidentRandomF, newdata = test,  type="class")
FinalTestSetAccuracy <- sum(diag(table(test$priority,predFinalTestSet_RF)))/nrow(test)

> FinalTestSetAccuracy
[1] 0.8828125

到目前为止，我的分类模型已准备就绪，现在我需要执行此模型以根据给定描述预测优先级，其中描述将由用户提供。

如何向 R 脚本提供用户输入以使其正常运行？

您的帮助将不胜感激。提前致谢。

【问题讨论】：

请提供一个可重现的例子：***.com/questions/5963269/… 感谢您的回复。我已经更新了这个问题。请检查。想要预测的人希望如何提供输入？您可以使用 rShiny 创建一个 Web 表单，或者他们可以向您发送一个看起来像您的测试集的 CSV，您可以分发您的训练模型，他们可以通过 R 输入值，这里有很多选项。 @Josh。感谢您的回复。我想用 ShinyR 创建 web 表单。如果您能给我提供一个高层次的想法或任何以前解决的问题，那将会很有帮助。 【参考方案1】：

因此，无需编写整个页面（或测试我在这里编写的代码），但希望足以说明如何开始（如果您还有其他问题，请告诉我），以下是 Shiny 应用程序的基本外观：

在一个名为 ui.R 的文件中：

fluidPage(

  # Copy the line below to make a text input box
  textInput("u_detailed_description", label = h3("Text input"), value = "Enter text..."),
  #Additional inputs for other fields here

  hr(),
  fluidRow(column(3, verbatimTextOutput("prediction")))

)

然后在server.R中：

function(input, output) 

  # You can access the value of the widget with input$u_detailed_description, e.g.
  output$value <- renderPrint( predict(incidentRandomF, newdata = input,  type="class") )

大量信息和文档，包括Shiny site 上的许多示例

在查找其他内容时，我偶然发现了 this repo，它显示有人在 Shiny 应用程序中显示模型的预测，它可能有助于阐明如何执行诸如保存模型并重新加载之类的事情。

【讨论】：

非常感谢 sn-ps 和信息。我会检查并告诉你结果。我已经修改了脚本，但是得到了错误 renderPrint 函数。警告：评估错误：找不到对象“自动”堆栈跟踪（最里面的第一个）：91：评估 90：评估 89：model.frame.default 88：model.frame 87：predict.randomForest 86：预测 85：renderPrint [D :\Sourav\Analytics\Service Now/server.R#50] 84: func 83: eval 82: eval 81: withVisible 80: evalVis 79: utils::capture.output 78: paste 77: origRenderFunc 76: output$prediction 1 : 运行应用我认为 train set 中的列与文本不匹配。可能是我需要与列相交。请提出建议。

以上是关于R中的事故单优先级分类的主要内容，如果未能解决你的问题，请参考以下文章