pandas取后四位值
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas取后四位值相关的知识,希望对你有一定的参考价值。
参考技术A 我最近必须获得某些项目的最后设置状态,标记为ID.我找到了这个答案: Python : How can I get Rows which have the max value of the group to which they belong?令我惊讶的是,只有~2e6行的数据集相当慢.但是我不需要获得所有最大值,只需要最后一个.
import numpy as np
import pandas as pd
df = pd.DataFrame(
"id": np.random.randint(1, 1000, size=5000),
"status": np.random.randint(1, 10, size=5000),
"date": [
time.strftime("%Y-%m-%d", time.localtime(time.time() - x))
for x in np.random.randint(-5e7, 5e7, size=5000)
],
)
%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])
1 loops, best of 3: 576 ms per loop
%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)
100 loops, best of 3: 4.82 ms per loop
第一个是我在链接中找到的解决方案,这似乎是一种允许更复杂操作的方法.
但是对于我的问题,我可以排序和删除重复项和重新索引,这会更好地执行.特别是在较大的数据集上,这确实有所不同.
我的问题:有没有其他方法可以实现我想做的事情?可能会有更好的表现?
最佳答案 解决此问题的另一种方法是在groupby上使用聚合,然后在完整数据帧上进行选择.
df.iloc[df.groupby('id')['date'].idxmax()]
这似乎比您提出的解决方案快5-10倍(见下文).请注意,这仅在’date’列是数字而不是字符串类型时才有效,并且此转换还可以加快基于排序的解决方案:
# Timing your original solutions:
%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])
# 1 loops, best of 3: 826 ms per loop
%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)
# 100 loops, best of 3: 5.1 ms per loop
# convert the date
df['date'] = pd.to_datetime(df['date'])
# new times on your solutions
%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])
# 1 loops, best of 3: 815 ms per loop
%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)
# 1000 loops, best of 3: 1.99 ms per loop
# my aggregation solution
%timeit df.iloc[df.groupby('id')['date'].idxmax()]
# 10 loops, best of 3: 135 ms per loop
算法leetcode每日一练2160. 拆分数位后四位数字的最小和
文章目录
- 2160. 拆分数位后四位数字的最小和:
- 样例 1:
- 样例 2:
- 提示:
- 分析
- 题解
- 原题传送门:https://leetcode-cn.com/problems/maximum-twin-sum-of-a-linked-list/
2160. 拆分数位后四位数字的最小和:
给你一个四位 正 整数 num
。请你使用 num
中的 数位 ,将 num
拆成两个新的整数 new1
和 new2
。new1
和 new2
中可以有 前导 0 ,且 num
中 所有 数位都必须使用。
- 比方说,给你
num = 2932
,你拥有的数位包括:两个2
,一个9
和一个3
。一些可能的[new1, new2]
数对为[22, 93]
,[23, 92]
,[223, 9]
和[2, 329]
。
请你返回可以得到的 new1
和 new2
的 最小 和。
样例 1:
输入:
num = 2932
输出:
52
解释:
可行的 [new1, new2] 数对为 [29, 23] ,[223, 9] 等等。
最小和为数对 [29, 23] 的和:29 + 23 = 52 。
样例 2:
输入:
num = 4009
输出:
13
解释:
可行的 [new1, new2] 数对为 [0, 49] ,[490, 0] 等等。
最小和为数对 [4, 9] 的和:4 + 9 = 13 。
提示:
- 1000 <= num <= 9999
分析
- 面对这道算法题目,二当家的陷入了沉思。
- 首先肯定要将一个4位数字拆成4个1位数字。
- 但是之后到底怎么安排个位与十位来组成两个2位数字呢?
- 题目要求结果尽可能小,显然那就要求十位尽可能小,其次个位尽可能小。
- 由于每个数位都必须用到,那我们仅需要贪心的把4个数位中的最小的2个当成十位,剩下的当成个位即可。
题解
java
class Solution
public int minimumSum(int num)
int[] ns = new int[4];
for (int i = 0; i < 4; i++)
ns[i] = num % 10;
num /= 10;
Arrays.sort(ns);
return 10 * (ns[0] + ns[1]) + ns[2] + ns[3];
c
int cmp(const void *a, const void *b)
return *(int *) a - *(int *) b;
int minimumSum(int num)
int ns[4];
for (int i = 0; i < 4; i++)
ns[i] = num % 10;
num /= 10;
qsort(ns, 4, sizeof(int), cmp);
return 10 * (ns[0] + ns[1]) + ns[2] + ns[3];
c++
class Solution
public:
int minimumSum(int num)
int ns[4];
for (int i = 0; i < 4; i++)
ns[i] = num % 10;
num /= 10;
sort(ns, ns + 4);
return 10 * (ns[0] + ns[1]) + ns[2] + ns[3];
;
python
class Solution:
def minimumSum(self, num: int) -> int:
ns = []
while num:
ns.append(num % 10)
num //= 10
ns = sorted(ns)
return 10 * (ns[0] + ns[1]) + ns[2] + ns[3]
go
func minimumSum(num int) int
ns := make([]int, 4)
for i := 0; i < 4; i++
ns[i] = num % 10
num /= 10
sort.Ints(ns)
return 10*(ns[0]+ns[1]) + ns[2] + ns[3]
rust
impl Solution
pub fn minimum_sum(mut num: i32) -> i32
let mut ns = vec![0; 4];
(0..4).for_each(|i|
ns[i] = num % 10;
num /= 10;
);
ns.sort();
10 * (ns[0] + ns[1]) + ns[2] + ns[3]
原题传送门:https://leetcode-cn.com/problems/maximum-twin-sum-of-a-linked-list/
非常感谢你阅读本文~
欢迎【👍点赞】【⭐收藏】【📝评论】~
放弃不难,但坚持一定很酷~
希望我们大家都能每天进步一点点~
本文由 二当家的白帽子:https://le-yi.blog.csdn.net/ 博客原创~
创作挑战赛 新人创作奖励来咯,坚持创作打卡瓜分现金大奖
以上是关于pandas取后四位值的主要内容,如果未能解决你的问题,请参考以下文章
算法leetcode每日一练2160. 拆分数位后四位数字的最小和