Guava 骚操作，10分钟搞定日志脱敏需求！

日期：2024-12-26 作者：bhls 移动：http://ljhr2012.riyuangf.com/mobile/quote/38208.html

Guava之于Javaer，如同Excel之于办公达人。

都非常好用，但实际上大部分人只用到了其1%不到的功能。

敏感信息脱敏实际上是隶属于安全领域的一个子领域，而日志脱敏又是敏感信息脱敏的一个子领域。

好了，打住，不闲聊这些有的没的，直接开整：到底什么是日志脱敏？

1.1 未脱敏之前

如下有一个关于个人信息的类

在日志脱敏之前，我们一般会这样直接打印日志

然后打印完之后，日志大概是这样

如下：需要把敏感字段中的一部分字符使用特殊符号替换掉（这里我们用来做特殊符号）

所以，很自然的，我们就写了个脱敏组件，在每一个字段上用注解来标识每一个字段是什么类型的敏感字段，需要怎么脱敏。

比如，对于上面的个人信息，在打印日志的时候需要研发人员做两件事：

使用脱敏组件提供的注解来标识敏感字段

使用脱敏组件先脱敏，再打印日志

如下，先使用脱敏组件提供的工具类脱敏个人信息，然后再打印日志

具体的使用和实现原理可以参考：

https://github.sheincorp.cn/vipshop/vjtools/blob/master/vjkit/docs/data_masking.md

到了企业里面，你得满足客户（也就是研发人员）奇奇怪怪（也许只是一开始你觉得是奇奇怪怪，但是实际上很合理）的需求。比如，我们就有研发人员提出：需要按照Map中的Key来配置脱敏规则

啥意思呢？简单来说，如果我有一个Map类型的数据，如下

那么在配置文件中指定好对应的key的脱敏规则后就可以把Map中的敏感数据也脱敏。

大概配置文件如下：

那先不管需求是否合理吧，反正客户就是上帝，满足再说。

然后，我们就开始实现了。

基本思路：复制Map，然后遍历复制后的Map,找到Key有对应脱敏规则的value，按照脱敏规则脱敏，最后使用Json框架序列化脱敏后的Map。

2分钟

我们直接看问题。有使用我们这个组件的研发人员找过说:我c a o，你们把我的业务对象Map中的值修改掉了。

我们本来想直接回怼：你们是不是姿势不对，不会用啊。但是本着严(zhi)谨(qian)的(bei)原(da)则(nian)(guo)，还是问了句，你在本地复现了吗？

我们发现：有嵌套类型的Map的时候就会有问题

测试程序如下：

输出结果如下：

虽然问题很大，但是我们还是要沉着应对问题，仔细分析问题。做到泰山崩于前而色不变，才是打工人的正确处事方式。不然只会越急越慌，越慌越不冷静，最后买1送3（修1个bug，新引入3个bug）

简单debug，加上看源代码，其实这个问题还是比较容易发现的，主要问题就是在复制Map对象的姿势不对

如下，我们是使用这样的方式来复制Map的。本来是想做深度clone的，但是这种事做不到深度clone的。对于有内嵌的对象的时候只能做到浅clone。

所以，只有一层关系的简单Map是可以脱敏成功的，且不会改变原来的Map。但是对于有嵌套的Map对象时，就会修改嵌套Map对象中的值了。

从上面的分析中就可以得出其根本原因：没有正确地深度clone Map对象

那很自然地，我们的解决思路就是找到一种合适的深度 clone Map对象的方式就OK了。

然后我就问ChatGPT了，ChatGPT的回答有下面几个方法

使用序列化和反序列化： 通过将对象序列化为字节流，然后再将字节流反序列化为新的对象，可以实现深度克隆。需要注意被克隆的对象及其引用类型成员变量都需要实现Serializable接口。
使用第三方库： 除了上述两种方式，还可以使用一些第三方库，例如Apache Commons的SerializationUtils类、Google的Gson库等，它们提供了更简洁的方法来实现深度克隆。
使用JSON序列化和反序列化： 将对象转换为JSON字符串，然后再将JSON字符串转换为新的对象。需要使用JSON库，如Jackson、Gson等。
使用Apache Commons的BeanUtils类： BeanUtils提供了一个cloneBean()方法，可以对JavaBean进行深度克隆。需要注意，被克隆的对象及其引用类型成员变量都需要实现Serializable接口。
最佳实践是根据需求和具体情况灵活应用，或者采用第三方库实现对象克隆，如 Apache Commons BeanUtils、Spring BeanUtils 等。

上面几个方式基本上可以分为3类：

序列化和反序列化： JDK自带的序列化（需要实现Serializable接口）；利用Gson,FastJson,Jackson等JSON序列化工具序列化后再反序列化；其他序列化框架序（如Hessain等）列化反序列化
利用第三方库： 第三方库直接clone对象。但都有一定的限定条件
视情况而定： 基本上没有一种通用的方法，可以适配是有的深度clone场景。所以ChatGPT提出了这一种不是办法的办法

然后就是卡卡一顿猛敲，如下：常规递归操作

好的，我懂的。咱看到这，图的就是一个乐，你让我思考，这不是强人所难吗

思考，思考是不可能存在的。

那咱们就直接看问题：就是啥都好，问题就是性能比较差！！！

如果你是一个老司机，你可能看到上面的代码就已经感觉到了，性能是相对比较低的。

基本上，Map层级越深，字段越多，内嵌的集合对象元素越多，性能越差!!!

至于差到什么程度，其实是可以通过微基准测试框架JMH来实际测试一下就知道了。这里我就不测试了。

那我们还有什么办法来解决这个性能问题吗？

如果我们还是集中于深度clone对象上做文章，去找寻性能更高的深度clone框架或者是类库的话，那么其实这个问题就已经走偏了。

我们再来回顾一下我们之前的问题:

我们需要对Map对象按照key来脱敏,所以我们选择了深度clone Map，然后对Map遍历按照key脱敏后序列化。

那其实我们最终要解决的问题是：Map对象序列化后的字符串得是按照key的脱敏规则脱敏后的字符串。

所以，其实我们除了深度clone这一条路外，还有另外两条路：

自定义Map类型的序列化器：在序列化Map的时候，如果有脱敏规则则应用脱敏规则来序列化Map
转换Map为脱敏后的Map：自定义Map对象，将脱敏规则作为转换函数来把普通的Map转换为脱敏的Map

对于第一种方式，要看你使用的Json框架是否支持（一般Map类型用的都是内置的Map序列化器，不一定可以自定义）。那第二种方式，到底应该如何玩呢. 如下：

如上，Map不再是clone的玩法，而是转换的玩法，所以，这种操作是非常轻量级的。

但是这种玩法也有缺点：比较麻烦，需要override好多方法（不然就需要熟读Map序列化器来找到最小化需要override的方法，并且不太靠谱），并且全部都要是转换的玩法。

Returns a view of a map whose values are derived from the original map's entries. In contrast to transformValues, this method's entry-transformation logic may depend on the key as well as the value. All other properties of the transformed map, such as iteration order, are left intact.

返回一个Map的试图，其中它的值是从原来map中entry派生出来的。相较于transformValues方法，这个基于entry的转换逻辑是既依赖于key又依赖于value。变换后的映射的所有其他属性（例如迭代顺序）均保持不变

这不正是我们上面需要实现的 MaskMap吗！！！

那脱敏的地方只要转换一下Map就可以了，如下：

我们调用了transformEntries方法，是可以根据key（可以找到脱敏规则）和value（可以判断类型）来转换的。但是Map中的有些API实际上可能只有value（比如）或者只有key(比如get()方法)的，那这种是如何生效的？

你是不是有那么一点好奇呢？

我们就不去想了，直接看代码：

对于方，只有key参数：

但是比较容易通过key拿到对应的value，然后把key和value传给转换函数就可以了

这里的实现其实有一个细节，不知道大家注意没有。

就是这一个判断：，我们上面实现的时候直接没有考虑到值为null的情况（但value为null,但是有对应的key的时候还是应该要调用转换函数的）

对于方，只返回值

也是一样，返回一个转换后的 Collection，其中Collection中的值也是经过 transformer转换的。

而对于迭代器也是一样的，都有对应的实现类把转换逻辑放进去了。

6.1. Guava的Veiw思想

其实上面的这种 Veiw的基本思想，在Guava中有非常多的场景应用的，如

com.google.common.base.Splitter#split
com.google.common.collect.Lists#partition
com.google.common.collect.Sets#difference
...other

这种 Veiw 的基本思想，其实就是懒加载的思想：在调用的时候不实际做转换，而是在实际使用的时候会做转换

比如：在调用的时候实际上并不是立刻马上去分隔字符串，而是返回一个Iterable的View对象。只是在实际迭代这个Iterable的View对象时才会实际去切分字符串。

在比如在调用的时候并不会立刻马上去做两个集合的差操作，而是返回一个 SetView的View对象,只有在实际使用这个View对象的API的时候才会真正做差操作。

注意点：这种思想大部分场景下，会是性能友好型的，但是也有例外。我们要分清楚场景。

比如，分割字符串的方法，如果调用完之后不做任何操作，或者只会遍历一次（大部分场景都是只遍历一次），那么这其实就是最好的方法。但是如果调用完之后，还需要遍历很多次，那么这种场景下，性能可能不是最好的。

所以，对于我们来讲，如果Guava工具包中没有我们需要的View的方法，那么我们可以自己按照这个思想来造一个。如果已经有了，要区分场景使用.

6.2. 简单聊一下Guava API的兼容性

升级过Guava版本的同学可能深有体会，升级Guava是一件比较头疼的事情。因为Gauva API的兼容性是做得很差的。（当然这里主要还是因为大部分同学没有认真阅读官方的文档导致的）

所以对于做组件的同学，对于Guava的使用一定要慎重：能不用就不用，必须要用的话一定不能使用以@Beta注解标注的方法或者类。

Gauva确实是一个保藏库，当你要造轮子的时候不妨先看看Gauva中有没有现成的轮子。每看一次，也许就多一次惊喜。

这一次是Map对象脱敏场景遇上了Guava的，那么你又有什么场景偶遇了Guava呢？，可以在评论区聊一下。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行