pandas取后四位值

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas取后四位值相关的知识,希望对你有一定的参考价值。

参考技术A 我最近必须获得某些项目的最后设置状态,标记为ID.我找到了这个答案: Python : How can I get Rows which have the max value of the group to which they belong?

令我惊讶的是,只有~2e6行的数据集相当慢.但是我不需要获得所有最大值,只需要最后一个.

import numpy as np
import pandas as pd
df = pd.DataFrame(

"id": np.random.randint(1, 1000, size=5000),

"status": np.random.randint(1, 10, size=5000),

"date": [

time.strftime("%Y-%m-%d", time.localtime(time.time() - x))

for x in np.random.randint(-5e7, 5e7, size=5000)

],

)

%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])

1 loops, best of 3: 576 ms per loop

%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)

100 loops, best of 3: 4.82 ms per loop

第一个是我在链接中找到的解决方案,这似乎是一种允许更复杂操作的方法.

但是对于我的问题,我可以排序和删除重复项和重新索引,这会更好地执行.特别是在较大的数据集上,这确实有所不同.

我的问题:有没有其他方法可以实现我想做的事情?可能会有更好的表现?

最佳答案 解决此问题的另一种方法是在groupby上使用聚合,然后在完整数据帧上进行选择.

df.iloc[df.groupby('id')['date'].idxmax()]

这似乎比您提出的解决方案快5-10倍(见下文).请注意,这仅在’date’列是数字而不是字符串类型时才有效,并且此转换还可以加快基于排序的解决方案:

# Timing your original solutions:

%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])

# 1 loops, best of 3: 826 ms per loop

%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)

# 100 loops, best of 3: 5.1 ms per loop

# convert the date

df['date'] = pd.to_datetime(df['date'])

# new times on your solutions

%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])

# 1 loops, best of 3: 815 ms per loop

%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)

# 1000 loops, best of 3: 1.99 ms per loop

# my aggregation solution

%timeit df.iloc[df.groupby('id')['date'].idxmax()]

# 10 loops, best of 3: 135 ms per loop

算法leetcode每日一练2160. 拆分数位后四位数字的最小和


文章目录


2160. 拆分数位后四位数字的最小和:

给你一个四位 正 整数 num 。请你使用 num 中的 数位 ,将 num 拆成两个新的整数 new1new2new1new2 中可以有 前导 0 ,且 num所有 数位都必须使用。

  • 比方说,给你 num = 2932 ,你拥有的数位包括:两个 2 ,一个 9 和一个 3 。一些可能的 [new1, new2] 数对为 [22, 93][23, 92][223, 9][2, 329]

请你返回可以得到的 new1new2最小 和。

样例 1:

输入:
	num = 2932
	
输出:
	52
	
解释:
	可行的 [new1, new2] 数对为 [29, 23] ,[223, 9] 等等。
	最小和为数对 [29, 23] 的和:29 + 23 = 52 。

样例 2:

输入:
	num = 4009
	
输出:
	13
	
解释:
	可行的 [new1, new2] 数对为 [0, 49] ,[490, 0] 等等。
	最小和为数对 [4, 9] 的和:4 + 9 = 13 。

提示:

  • 1000 <= num <= 9999

分析

  • 面对这道算法题目,二当家的陷入了沉思。
  • 首先肯定要将一个4位数字拆成4个1位数字。
  • 但是之后到底怎么安排个位与十位来组成两个2位数字呢?
  • 题目要求结果尽可能小,显然那就要求十位尽可能小,其次个位尽可能小。
  • 由于每个数位都必须用到,那我们仅需要贪心的把4个数位中的最小的2个当成十位,剩下的当成个位即可。

题解

java

class Solution 
    public int minimumSum(int num) 
        int[] ns = new int[4];

        for (int i = 0; i < 4; i++) 
            ns[i] = num % 10;
            num /= 10;
        

        Arrays.sort(ns);

        return 10 * (ns[0] + ns[1]) + ns[2] + ns[3];
    


c

int cmp(const void *a, const void *b) 
    return *(int *) a - *(int *) b;


int minimumSum(int num) 
    int ns[4];

    for (int i = 0; i < 4; i++) 
        ns[i] = num % 10;
        num /= 10;
    

    qsort(ns, 4, sizeof(int), cmp);

    return 10 * (ns[0] + ns[1]) + ns[2] + ns[3];


c++

class Solution 
public:
    int minimumSum(int num) 
        int ns[4];

        for (int i = 0; i < 4; i++) 
            ns[i] = num % 10;
            num /= 10;
        

        sort(ns, ns + 4);

        return 10 * (ns[0] + ns[1]) + ns[2] + ns[3];
    
;

python

class Solution:
    def minimumSum(self, num: int) -> int:
        ns = []
        while num:
            ns.append(num % 10)
            num //= 10
        ns = sorted(ns)
        return 10 * (ns[0] + ns[1]) + ns[2] + ns[3]
        

go

func minimumSum(num int) int 
    ns := make([]int, 4)
	for i := 0; i < 4; i++ 
		ns[i] = num % 10
		num /= 10
	
	sort.Ints(ns)
	return 10*(ns[0]+ns[1]) + ns[2] + ns[3]


rust

impl Solution 
    pub fn minimum_sum(mut num: i32) -> i32 
        let mut ns = vec![0; 4];
        (0..4).for_each(|i|
            ns[i] = num % 10;
            num /= 10;
        );
        ns.sort();
        10 * (ns[0] + ns[1]) + ns[2] + ns[3]
    



原题传送门:https://leetcode-cn.com/problems/maximum-twin-sum-of-a-linked-list/


非常感谢你阅读本文~
欢迎【👍点赞】【⭐收藏】【📝评论】~
放弃不难,但坚持一定很酷~
希望我们大家都能每天进步一点点~
本文由 二当家的白帽子:https://le-yi.blog.csdn.net/ 博客原创~


创作挑战赛 新人创作奖励来咯,坚持创作打卡瓜分现金大奖

以上是关于pandas取后四位值的主要内容,如果未能解决你的问题,请参考以下文章

js截取手机号后四位,并倒序输出

Pandas:深市股票代码前补足0

2991:2011 求2011^n的后四位。

算法leetcode每日一练2160. 拆分数位后四位数字的最小和

算法leetcode每日一练2160. 拆分数位后四位数字的最小和

怎样把一串数字字符串的后四位换成****?