Data+Science+Insight

Data+Science+Insight:CSDN认证博客专家

博客地址:https://habit.blog.csdn.net

最新文章

R语言使用magick包的image_read函数读取图片数据查看图片并查看图片的元数据信息(图片的属性信息)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引sort_index函数基于多层行索引对dataframe数据排序(默认升序排序)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用方括号[]基于列索引元组列表索引多列数据(index tuple list)

R语言DALEX包的model_profile函数对h2o包生成的多个算法模型的连续变量进行分析使用Acumulated Local Effects (ALE)方法解释某个连续特征和目标值y的关系

pandas使用pd.MultiIndex.from_tuples函数生成多层索引结构(MultiIndex)输入数据为元组列表(列表中包含多个元组)使用index参数为指定数据集添加多层行索引

R语言使用skimr包的skim_with函数自定义指定需要查看的统计信息统计口径查看dataframe特定数据列的summary信息统计汇总信息(Specify statistics)

pandas使用pd.MultiIndex.from_tuples函数生成多层索引结构使用columns参数为指定数据集添加多层列索引使用index参数为指定数据集添加多层索引

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用iloc基于行索引位置筛选dataframe的指定单个数据行

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用iloc基于行索引位置和列索引位置筛选dataframe数据指定数据格内容

R语言使用caret包的train函数构建多元自适应回归样条(MARS)模型模型调优自定义设置tuneGrid参数多个超参数组合调优trainControl函数自定义调优评估指标

R语言使用dplyr包的select函数基于字符串向量vector中的字段名称筛选dataframe或者tibble中的数据( Select varibales)

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类slice函数根据起始索引和结束索引抽取字符串内容的子字符串(左闭右开区间-1代表最后一个索引位置)

R语言merge函数连接多个dataframe数据集迭代内连接dataframe数据( iteratively merge data frames in R)默认merge函数通过公共列名合并数据

R语言ggplot2可视化基本分面图(faceting)使用gghighlight包基于一定规则单独突出高亮每个分面图(highlight each facet individually)

R语言使用ggpubr包的ggboxplot函数可视化分组箱图(添加jitter抖动数据点自定义不同分组数据点的形状自定义调色板不添加填充色)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引元组和列层索引元组筛选dataframe数据(其中列索引元组只包含最外层)

pandas使用pd.MultiIndex.from_tuples函数生成多层索引结构(MultiIndex)tuples参数指定输入数据为元组列表(列表中包含多个元组)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引元组和列层索引元组筛选dataframe数据(其中列索引元组只包含最外层)

R语言使用ggpubr包的ggbarplot函数可视化排序条形图(自定义填充色自定义条形边缘色自定义调色板条形图全局排序从大到小文本标签角度)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用reset_index函数把行索引重置为列数据(原来的行索名称转化为列索引的最外层)

R语言ggpubr包ggsummarystats函数可视化分组小提琴图(自定义分组颜色添加抖动数据点jitter)并在X轴标签下方添加分组对应的统计值(样本数N中位数四分位数的间距iqr)

R语言ggplot2可视化设置y轴坐标为百分比(percent)但是百分比数值包含小数点零(50.0%)移除百分比后面的0(是50%而非50.0%)

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类lower函数将指定字符串数据列内容转化为小写字符(lower case)

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类split函数基于指定分隔符拆分数据列的内容为列表设置参数n控制拆分的次数获取所有列表中第一个位置的元素内容

R语言使用system.time函数统计多个函数运行的累加(累计)时间计算h2o包生成的多个算法模型进行特征重要度分析累计耗费的时间

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类upper函数将指定字符串数据列内容转化为大写字符(upper case)

R语言ggplot2可视化箱图配置position_dodge参数避免数据点互相覆盖实现抖动数据点(jitter points)并使用线条(line)连接两个箱图中不同分组成对的数据点

pandas使用read_csv函数读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引元组和列层索引元组筛选dataframe数据

R语言dataframe数据索引方式table函数计算两个分类变量的频率表使用with函数则可以不使用索引符号直接使用dataframe的变量变量因子化(factor)并查看summary统计

pandas使用read_csv函数读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引的最外层两个行索引索引行数据

R语言R原生以及ggplot2设置线条类型宽度(粗细)颜色的函数ggplot2手动自定义设置线条类型粗细颜色函数(line typesthicknesscolour)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用方括号[]基于行层索引最外侧索引的范围筛选dataframe数据(指定起始索引和结束索引)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用loc基于行层索引元组范围筛选dataframe数据(指定起始元组和结束元组)

R语言使用caret包中的createDataPartition函数进行机器学习数据集划分划分训练集和测试集并指定训练测试比例

pandas读取csv数据参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用xs函数获取列切面数据(axis参数指定对列进行切面level参数指定列层索引名称key参数指定索引值)

pandas读取csv数据参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用set_index函数把数据列转化为行索引(keys参数指定需要被转化的数据列)

pandas使用read_csv函数读取csv数据sort_index函数基于多层行索引对数据排序(设置ascending参数列表指定不同层行索引的排序方向)

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类使用方括号索引根据起始索引和结束索引抽取字符串内容的子字符串(左闭右开区间)

R语言使用econocharts包创建微观经济或宏观经济图supply函数创建默认的供给曲线(supply curve)自定义配置supply函数的参数丰富可视化效果

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类slice函数根据起始索引抽取字符串内容的子字符串(如果只有一个数字默认索引到字符串结束)

pandas使用read_csv函数读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于单个行索引元组索引单行数据(index tuple)

R语言使用cor函数计算相关性矩阵进行相关性分析,使用corrgram包可视化相关性矩阵行和列使用主成分分析重新排序下三角形中使用底纹和颜色表示相关性变量按其原始顺序绘制上三角形空白

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用loc基于行层索引元组范围筛选dataframe数据(指定起始元组和结束元组)

pandas使用read_csv函数读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引的最外层行索引和列层索引的最外层列索引筛选

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用方括号[]基于行层索引最外侧索引的范围筛选dataframe数据(指定起始索引和结束索引)

pandas使用pd.MultiIndex.from_tuples函数生成多层索引结构(MultiIndex)输入数据为元组列表(列表中包含多个元组)names参数指定多层索引的名称

R语言使用ggpubr包的ggdotplot函数可视化棒棒糖图(自定义分组数据点色彩自定义调色板全局排序从小到大添加点图的线段segments)

python使用openCV图像加载(转化为灰度图像)Harris角点检测器算法(Harris Corner Detector)进行角点检测在图像上标记每个角点可视化标记了角点的图像数据

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类startswith函数判断数据列的起始字符是否是指定字符串并返回布尔值序列

R语言使用DALEX包的predict_profile函数分析对于指定的某一条样本(实例观察)在其它变量不变的情况下当前变量对结果变量的影响(Ceteris paribus)

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类split函数基于指定分隔符拆分数据列的内容为列表设置参数n控制拆分的次数(此处为1则拆分一次,列表长度为2

R语言基于h2o包构建二分类模型:使用h2o.randomForest构建随机森林模型使用h2o.auc计算模型的AUC值

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类slice函数根据起始索引和结束索引抽取字符串内容的子字符串(左闭右开区间)

R语言使用skimr包的skim函数查看dataframe特定数据列的summary信息统计汇总信息(Select specific columns to summarize)

pandas使用pd.MultiIndex.from_tuples函数生成多层索引结构输入数据为元组列表(列表中包含多个元组)使用columns参数为指定数据集添加多层列索

R语言ggplot2可视化绘制散点图(scatter plot)使用gghighlight包突出高亮散点图中的特定数据点并添加文本标签(highlight and text annotation)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用iloc基于行索引位置范围筛选dataframe数据行(指定起始位置和结束位置)

R语言使用ggpubr包的ggboxplot函数可视化分组箱图(添加jitter抖动数据点自定义不同分组数据点的形状自定义调色板不添加填充色)

pandas使用pd.MultiIndex.from_tuples函数生成多层索引结构(MultiIndex)输入数据为元组列表(列表中包含多个元组)names参数指定多层索引的名称

R语言使用ggpubr包的ggbarplot函数可视化排序条形图(自定义填充色自定义条形边缘色自定义调色板条形图全局排序从大到小文本标签角度)

pandas使用read_csv函数读取csv数据columns.get_level_values属性查看数据集的列索引中指定层级的索引内容(使用索引位置或者名称)

R语言使用wilcox.test函数进行两组数据的Wilcoxon秩和检验(Mann–Whitney U检验)评估两组数据是否来自相同的概率分布

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引的最外层行索引索引行数据(outermost row index)

R语言使用fs包的dir_ls函数批量获取指定文件路径下的多个文件名称使用purrr包的map_df函数批量读入多个tsv文件生成合并的dataframe(csv类似)

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用方括号[]基于列索引名称元组索引列数据(index tuple)

R语言使用fs包的path_filter函数按照规则或者正则匹配公式过滤满足条件的路径(Filter paths)

Pandas使用str属性获取数据列的字符串方法类split函数基于指定分隔符拆分数据列的内容为列表设置参数n控制拆分的次数设置expand参数将拆分结果列表内容转化为多列dataframe

R语言使用fs包的is_file函数is_dir函数is_link函数查看文件对象是否是文件目录超链接

R语言ggplot2可视化绘制散点图(scatter plot)使用gghighlight包突出高亮散点图中的特定数据点并自定义添加彩色文本标签(color text annotation)

Error: cannot allocate vector of size XX Gb

pandas读取csv数据sort_index函数基于多层行索引对数据排序(设置level参数基于多层索引中的多个层行索引进行数据排序ascending参数指定不同层的排序方向)

R语言将字符串按照一定的格式(format)转化为日期格式ggplot2可视化水平分面图(faceting)自定义X轴的时间标签旋转

Pandas处理dataframe的文本数据列:使用str属性获取数据列的字符串方法类split函数基于指定分隔符拆分数据列的内容为列表设置参数n控制拆分的次数获取所有列表中指定位置的元素内容

Li‘s 影像组学视频学习笔记(28)-ROI/病灶体积的计算Li‘s have a solution and plan.

R语言自定义ggpot2可视化结果中点形状大小色彩填充色边框线类型边框线色彩点样式pch(plot characters)自定义的核心函数

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引使用方括号[]基于行层索引最外侧索引的范围筛选dataframe数据(指定起始索引和结束索引)

R语言dplyr包使用group_by函数和summarise函数计算单分类变量分组均值ggplot2可视化线图(line plot)并设置线条类型为虚线(set line types)

R语言ggplot2可视化基本分面图(faceting)使用gghighlight包基于一定规则单独突出高亮每个分面图(highlight each facet individually)

pandas使用read_csv函数读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引的最外层行索引和列层索引的最外层列索引筛选

pandas读取csv数据index_col参数指定作为行索引的数据列索引列表形成复合(多层)行索引loc基于行层索引元组和列层索引元组筛选dataframe数据(其中列索引元组只包含最外层)