须臾之学

如何解决 Docker 镜像无法拉取的问题

2024-07-10T15:13:09.000Z

注意：本文涉及的外部网址和信息具有时效性，但解决方案部分是通用的。

由于众所周知的原因，GFW 需要保护我们免受「有害」Docker 镜像的损害，因此国内大部分主流镜像加速服务已经停止或只提供白名单服务。当然，你可以继续使用一些非主流的镜像，可以在这里查看：Docker Hub 镜像加速器。随着政策的落实，我认为国内的镜像加速服务可能只有两种结局：要么关闭，要么采用白名单模式。

这种情况下，如果你的正常开发服务需要用到「无害」的镜像服务的话，白名单内的镜像可以继续使用，但是如果刚好你认为的「无害」被 GFW 认为「有害」的情况下，原则上你还是需要遵纪守法的，但是如果你出于个人学习的目的仍然想使用的，可以用以下几种方式来解决：

申请加入白名单
科学上网
自建镜像站

下面分别介绍这几种方案。

申请加入白名单

我在这里直接推荐 DaoCloud，他们的镜像服务之前一直很稳定，这次也很为国内的开发者考虑，没有直接关闭镜像站，非常值得称赞：DaoCloud - 白名单 & 限流 & 降级的公开信息。

这是最推荐的方式，相信大家大部分时候只是工作上使用而已。如果你需要的镜像不在白名单内，可以尝试申请。虽然流程可能有点慢，但它是免费的。

科学上网

首先，接下来要操作系统是 Linux，如果是其他系统，用 Docker Desktop 设置起来更简单。其次，需要你已经有科学上网的手段，接下来假设你的代理地址是 http://127.0.0.1:7890，可以根据你的需求修改。最后，这里主要涉及 Docker 本身的一些基础知识，比如 Docker 有两个地方需要使用到 Proxy：

Docker client
Docker server

Docker client

这里的代理主要是容器和镜像使用，需要修改 ~/.docker/config.json：

{
 "proxies": {
    "default": {
      "httpProxy": "http://127.0.0.1:7890",
      "httpsProxy": "http://127.0.0.1:7890",
      "noProxy": "localhost,::1,127.0.0.1,10.0.0.0/8,127.0.0.0/8,172.16.0.0/12,192.168.0.0/16"
    }
 }
}

这个配置主要是在两个地方生效，一个是在运行 docker run 时生效，实际原理是将对应的变量设置为 Container 的环境变量，因此修改之前正在运行的 Container 无法生效。另一个是在 docker build 时也会生效，因为有些资源需要科学上网才能获取。

配置会一直生效，如果不想放在配置文件里，也可以使用命令行传入的方式：

docker build \
     --build-arg HTTP_PROXY="http://127.0.0.1:7890" \
     --build-arg HTTPS_PROXY="http://127.0.0.1:7890" \
     --build-arg NO_PROXY="localhost,::1,127.0.0.1,10.0.0.0/8,127.0.0.0/8,172.16.0.0/12,192.168.0.0/16" \
     .

docker run \
     --env HTTP_PROXY="http://127.0.0.1:7890" \
     --env HTTPS_PROXY="http://127.0.0.1:7890" \
     --env NO_PROXY="localhost,::1,127.0.0.1,10.0.0.0/8,127.0.0.0/8,172.16.0.0/12,192.168.0.0/16" \
     nginx

Docker server

这里有两种修改方式，任选其一即可，但都需要重启 Docker 服务。

修改 daemon.json，路径是 /etc/docker/daemon.json：

{
  "proxies": {
     "http-proxy": "http://127.0.0.1:7890",
     "https-proxy": "http://127.0.0.1:7890",
     "no-proxy": "localhost,::1,127.0.0.1,10.0.0.0/8,127.0.0.0/8,172.16.0.0/12,192.168.0.0/16"
  }
}

修改完后，执行 systemctl restart docker。

如果使用的是 Ubuntu 新版本等使用 Systemd 的系统，也可以通过新增配置文件的方式：

1	sudo mkdir -p /etc/systemd/system/docker.service.d

在该目录下，新建一个 proxy.conf 文件，内容如下：

[Service]
Environment="HTTP_PROXY=http://127.0.0.1:7890"
Environment="HTTPS_PROXY=http://127.0.0.1:7890"
Environment="NO_PROXY=localhost,::1,127.0.0.1,10.0.0.0/8,127.0.0.0/8,172.16.0.0/12,192.168.0.0/16"

最后，执行以下命令来应用更新：

1
2
3

sudo systemctl daemon-reload
sudo systemctl restart docker
sudo systemctl show --property=Environment docker  # 确认生效

其他

如果使用的是 Docker Desktop，在 Preferences > Resource > Proxies 中设置即可，最简单。

对于 Mac，推荐使用 OrbStack，需要设置两个地方：

这里需要像 Linux 设置 Docker 服务器一样设置：

自建镜像站

推荐两个自建镜像站的方案，自建时注意不要共享给太多人，毕竟还是自己或公司内部使用。而且由于不是国内 IP，可能需要与科学上网结合使用。

CF-Workers-docker.io：使用 Cloudflare Workers，不用自建机器，省成本。
Docker-Proxy：需要有国外机器，流量算自己的，成本相对高一些。

其他类似的方案也有很多，大家可以自行搜索。

另外，我也见过用 GitHub Actions 拉取镜像，然后用 docker save 打包镜像后，手动下载到本地进行 docker load 的方式，偶尔使用还是可以考虑的。

Refs

【PLG 系列】（一）入门

2024-07-08T13:09:15.000Z

前言

关于简写的解释：我们一般把之前基于 ElasticSearch、Logstash、Kibana 的日志聚合系统简称为 ELK，那么如今我们也可以把 Promtail、Loki、Grafana 的日志聚合系统简称为 PLG。

在正式开始之前，我们可以简单回顾一些之前的相关文章：

其实，我在 2019 年 Loki 刚出来不久就开始接触并使用了。当时，我正在评估用最低的成本给我们初创的小公司搭建一个日志收集系统，Loki 刚好符合需求。它所需资源比 ELK 小得多，并且即使我们未来成长为几万人的大公司，它依然能支持。

这里不妨与 ELK 的仔细比较一下：

资源消耗低：Loki 的标签查询机制比 ElasticSearch 的全文索引更高效，减少了资源(CPU 内存以及磁盘)的消耗。Loki 不对日志内容进行全文索引，而是使用标签来组织和查询日志数据，这种设计显著降低了资源需求。同时，这也意味着对初创公司来说，Loki 更加经济实惠。
易于部署和维护：PLG 系统整体设计更简洁，组件之间的集成更加紧密，减少了配置和维护的复杂性。相比之下，ELK 系统需要配置和维护多个复杂的组件（ElasticSearch、Logstash、Kibana），对系统管理员的技术要求较高，这点相信配置过 Logstash 的一定有体会。
扩展性强：Loki 是水平可扩展的，能够轻松处理日志数据的增长。随着日志数据量的增加，可以通过增加节点来扩展 Loki 的处理能力。而 ElasticSearch 的扩展通常需要更多的规划和配置。
轻量级设计：Promtail 作为日志收集代理，比 Logstash 更轻量级，占用的系统资源更少。Promtail 专为与 Loki 集成而设计，简化了日志收集和传输的流程。
灵活的查询语言：Loki 采用与 Prometheus 类似的标签查询语言（PromQL），这种统一的查询语言使得用户在监控指标和日志时，能够使用相同的语法，简化了学习和使用成本（实际上，Loki 刚出来的时候，它的主要宣传点就是强调与 Prometheus 的相似性）。

现在再来写这篇文章也有好处，不会停留在表面，我可以更全面地介绍这个工具，并分享一些实践经验。我在写这篇文章时，Loki 的最新版本已经是 v3.1 3.1.0 (2024-07-02)。

日志管理的重要性

在复杂的分布式系统中，日志是排查问题和优化性能的关键工具。良好的日志管理能够帮助我们：

监控系统健康：实时了解系统运行状态，及时发现异常。
故障排除：快速定位问题源头，减少故障排除时间。
性能优化：分析日志数据，发现潜在的性能瓶颈和优化机会。

三个组件

Loki

Loki 是一个水平可扩展的日志聚合系统，旨在与 Prometheus 结合使用，以提供完整的监控解决方案。Loki 采用了 Prometheus 的标签查询语言（PromQL）和 Grafana 的查询构建器，可以轻松地查询和可视化日志数据。

与传统的日志管理系统相比，Loki 具有更低的资源消耗和更高的性能，适用于大规模的日志数据收集和分析。它支持日志数据的分片存储和压缩，以优化存储空间和查询性能。

Promtail

Promtail 是日志采集终端，与之搭配的还有 Docker driver client。它们的作用是在每台需要采集日志的机器中，收集、处理并发送本地日志到 Loki。

Grafana

Grafana 不用多作介绍，它是一个强大的可视化工具，被绝大多数 IT 公司使用。通过 Grafana，用户可以创建丰富的可视化仪表板，实现对日志、指标等数据的全面监控和分析。Grafana 强大的插件系统和灵活的查询语言，使其成为日志管理、性能监控和故障排除的理想工具。

有趣的是，Grafana 最早其实是 Kibana 3 的分支，也就是说 Kibana 是它的祖先。具体可以查看 v1.0 的代码，Readme 中介绍了它的由来：

This software is based on the great log dashboard Kibana.

另外还可以看作者 Torkel Ödegaard 关于它的历史介绍 The (Mostly) Complete History of Grafana UX:

Before Grafana, there was Kibana 3.

介绍完这三个组件后，我们来实际测试体验一下：

安装

这里我直接照搬了官网的例子，安装方法已经提供在 Loki 代码库中，有一个可供测试的例子：Getting Started。这个简单的例子甚至使用了读写分离，展示了 Loki 的拓展性。

安装之前，需要确保机器上有 Docker 运行环境。如果 Docker 版本较旧，Docker Compose 可能需要手动安装。另外，由于近期国内镜像政策的调整，Docker Hub 的镜像可能无法访问，所以可能需要你有一些科学上网的手段。

这里由于篇幅，接下来实际的体验就由你自己来体验了，我相信你会喜欢这个工具的。同时，我也会另外再写一篇文章来详细介绍 Loki 的使用。

总结

本文介绍了 Grafana 这一强大的可视化工具，它广泛应用于 IT 行业，帮助用户通过创建丰富的可视化仪表板来全面监控和分析日志、指标等数据。通过本文的介绍，读者应该能够对 Grafana 的功能、起源以及如何开始使用它有一个基本的了解。未来的文章将进一步深入探讨 Loki 的使用，为读者提供更详细的指导。总的来说，Grafana 作为一个监控和分析工具，其强大的功能和灵活性使其成为 IT 行业内不可或缺的一部分。(此处由 GPT 生成)

【MQTT 系列】（五）实现反向 RPC

2024-06-23T05:09:19.000Z

今天，我将向大家介绍我基于 Golang 实现的 MQTT 反向 RPC 框架：Go reverse RPC。

RRPC 的定义

RRPC 即 Revese RPC，我们一般称设备端向服务端请求成为 RPC(Remote Protocal Call)，所以反向即服务端向设备端请求，这在设备端是常见的做法，因为设备端没有独立的公网 IP，服务器端无法直接向设备端请求，这种情况下，就需要设备端发起一个长链接到服务器端，然后服务器就能在这个长链接的基础上，对设备端进行 RPC 请求。

为什么需要 RRPC

首先是因为 MQTT 3.1/3.1.1 并没有对请求回复模式的原生的支持，直到 MQTT 5 才提供，其次就是我们通常用的发布订阅模式来实现 RPC 要么是针对每个方法进行单独的处理。其次在 Golang 中，相对于 HTTP 协议的中的 Gin、Beego、Echo 等优秀框架，MQTT 并没有现成并且好用的框架，我们经常实现的方式就是针对每个需要回复的地方单独处理，容易造成大量冗余的代码，不优雅，另一种方式是用数据库来记录请求，从而将请求跟响应联系起来，显然，如果是针对调用设备端的服务而言，这种实现方式跟数据库有耦合存在，不仅实现起来有些复杂，也容易在数据库中留下大量无法配对的请求，而且性能也不会太好。于是 RRPC 就出现了，它针对我们服务器对现成设备的服务调用提供了简洁、高效的实现方式，特别是在与第三方云平台的 MQTT 物联网协议对接时。

功能点

RRPC 的基本原理已经明确，现在我们来看一下它的功能点：

支持 MQTT 长连接协议（目前只实现了 MQTT）
支持 Protobuf 以及 JSON 等多种编码格式
支持数据压缩：GZip/Zlib/Brotli
提供监控：指标、日志以及追踪
支持错误恢复以及处理

如何使用

在这个项目的使用场景中，Client 代表客户端（在服务器端中使用），Server 代表服务端（在设备端中使用）。

首先，我们需要新建一个 MQTT 客户端实例，然后在服务端创建以及注册调用的方法：

import (
    "github.com/xizhibei/go-reverse-rpc/mqttpb"
    "github.com/xizhibei/go-reverse-rpc/mqttadapter"
)

mqttClient, err := mqttadapter.New("tcp://localhost", "client-id-123456-server")
if err != nil {
    panic(err)
}

server := mqttpb.NewServer(
    mqttClient,
    "test-prefix",
    "dev-123456",
)

server.Register("example-method", &rrpc.Handler{
    Method: func(c rrpc.Context) {
        var req Req
        err := c.Bind(&req)
        if err != nil {
            c.ReplyError(rrpc.RPCStatusClientError, err)
            return
        }

        // your business logic ...

        c.ReplyOK(req)
    },
    Timeout: 5 * time.Second,
})

不知道你有没有看到 Gin 的身影，我参照了它的设计。

然后，我们需要在客户端中，也是一样，创建一个 MQTT 客户端实例，然后向服务端进行请求：

import (
    "github.com/xizhibei/go-reverse-rpc/mqttpb"
    "github.com/xizhibei/go-reverse-rpc/mqttadapter"
)

mqttClient, err := mqttadapter.New("tcp://localhost", "client-id-123456-client")
if err != nil {
    panic(err)
}

client := mqttpb.New(
    mqttClient,
    "test-prefix",
    mqttpb.ContentEncoding_GZIP,
)

var res Req
err := client.Call(context.Background(), "dev-123456", "example-method", &reqParams, &res)

从上面的例子中，大家应该有初步的印象了，其中的关键在于：

连接到同一个 MQTT Broker tcp://localhost；
服务端需要先注册好 example-method 所对应的方法，并实现业务逻辑；
客户端发送请求调用设备号为 dev-123456 的 example-method 的方法；

设计与实现

从设计本身而言，并没有什么复杂的地方，因为本质上它还是所谓的 RPC，所以，先让我们来看看流程图：

graph LR    Client -->|Call| ClientStub    ClientStub -->|Marshal| Network    Network -->|Send| ServerStub    ServerStub -->|Unmarshal| Server    Server -->|Process| ServerStub    ServerStub -->|Marshal| Network    Network -->|Send| ClientStub    ClientStub -->|Unmarshal| Client

从中可以看到，主要的模块也就客户端以及服务端，客户端承担的职责是发送请求以及接收回复，服务端承担的职责是接收以及处理请求，要达到发送，接收处理以及返回。因此两边必然要有基础的协议来进行序列化以及反序列化，以及发送以及接收数据流。

那么，上面的例子的原理是什么呢？让我们用时序图来解释：

sequenceDiagram    Client->>MQTTBroker: Subscribe test-prefix/dev-123456/response/+    Server->>MQTTBroker: Subscribe test-prefix/dev-123456/request/+    Client->>MQTTBroker: Send to test-prefix/dev-123456/request/123, call "example-method"    MQTTBroker->>Server: Forward data to test-prefix/dev-123456/request/123    Server->>Server: Dispatch call to method "example-method", handle it    Server->>MQTTBroker: Send reply to test-prefix/dev-123456/response/123    MQTTBroker->>Client: Forward data to test-prefix/dev-123456/response/123

这里有几个非常关键的地方：

request 以及 response 这两个关键词是约定好的，当前设计不可修改，后续可以考虑改为可修改；
request 以及 response 后面建议加上唯一的请求 ID，方便 RPC 解析处理；
Publish 以及 Subscribe 的 QoS 默认为 0，且不可修改（思考题：为什么？）；

另外一个值得注意的地方在于，这个 RRPC 框架同时支持 JSON 以及 Protobuf 两种序列化与反序列化方式，因此如果是为了传输数据的可读性，那么选 JSON 即可，而如果是在意效率，那么 Protobuf 就是你的选择。在设备的性能以及电能足够的前提下，还可以选择给 Protobuf 启用数据压缩，目前支持 GZip/Zlib/Brotli，这样就能进一步的节约网络流量，JSON 暂时不支持数据压缩，毕竟需要用到 JSON 的场景下，都是以纯文本为主。

计划

这个库的 MQTT 协议是以 paho.mqtt.golang 为基础的，它目前只支持 MQTT 3.1/3.1.1 版本，因此之后会计划支持 MQTT 5 支持。实际上对于 MQTT 5 协议，其实是更适合改造的，毕竟它在协议层面就支持了 RPC 模式；
计划支持常用的长连接协议：WebSocket 以及 AMQP 协议支持；
长期来看，如果项目越来越多人用的话，会考虑参考 gRPC 的方式，即定一个协议文件，生成相关的 SDK；
目前程序可观测性方面仅支持 Prometheus，计划在之后支持 OpenTelemetry；
其它语言的版本 Node.js / Java / C++ 等；

总结

目前整个框架还是有许多不足之处，也没有得到广泛的验证，只在之前公司的项目中得到了应用，这也是我将它开源出来的目的，希望物联网开发者可以考虑下这个框架并且提出你的宝贵意见。

最后，如果可以的话，请帮忙点个 Star 吧！

(MQTT Series) Part 4 - v3.1.1 Features

2024-05-02T12:44:51.000Z

In our last article (which feels like ages ago :P), we discussed MQTT’s publish-subscribe functionality. This time, let’s go straight into its features.

Quality of Service
Session Persistence
Retained Messages
Last Will Message
Keep Alive Protocol and Client Takeover
Conclusion
Refs

Quality of Service

QoS has three levels, represented by 0, 1, and 2, with the following meanings:

QoS 0: At most once, similar to UDP packets, send it and don’t guarantee delivery. This is the simplest service level and may lose messages. Due to its high performance, this level is suitable for periodic sensor data reporting.
QoS 1: At least once, this means the message will be sent at least once, even in unstable network conditions, ensuring the message arrives. It has slightly poorer performance and is suitable for scenarios where duplicates are handled (redundant data processed at the receiver’s end) but reliable delivery is needed.
QoS 2: Exactly once, this is the highest level, ensuring the message neither gets lost nor duplicates (although nothing is absolute, there is still a chance of data loss). Obviously, this method’s performance is the worst and is suitable for scenarios where strict requirements on message duplication are necessary, such as in aerospace.

In common home, office, and industrial IoT scenarios, we mostly use QoS levels 0 and 1. QoS 2 is less used due to poor performance, and for important data scenarios, we can simply handle duplicate data on the receiver’s end, which greatly improves performance. Additionally, we can use QoS 0 and implement our own message retransmission mechanism at the application layer to ensure no message loss.

Furthermore, besides QoS 0, the other two levels require client storage for message retransmission mechanisms. Therefore, if there are multiple client instances locally, it is necessary to allocate different storage areas for them to avoid conflicts and errors.

For example, in paho.mqtt.golang, MemoryStore is used by default as the Store. However, if you use its FileStore, you need to specify different folder paths to solve this problem.

Session Persistence

Session persistence means that after a client disconnects, it can resume the previous session state instead of losing all unprocessed messages. Obviously, this is very important for IoT devices that need to be connected to the network for a long time and may be in very poor environments. Session persistence allows the device to resume from where it was disconnected upon reconnection, preventing duplicate data processing and data loss.

This feature is related to the CleanSession configuration, and its principle is easy to understand. The Broker confirms whether the client needs to maintain a session, i.e., whether CleanSession=false is set, during client connection. When a session is maintained, the Broker stores the following information:

Session information itself, including some connection parameters;
Client subscription information;
Messages:
1. QoS 1&2 messages not confirmed by the client;
2. QoS 1&2 new messages when offline;
3. QoS 2 messages not completed confirmation;

Meanwhile, the client also stores messages outside QoS 0:

QoS 1&2 messages not confirmed by the Broker;
QoS 2 messages not completed confirmation;

Obviously, since paho.mqtt.golang uses MemoryStore by default, you need to pay special attention to changing it to FileStore.

Retained Messages

This feature is often misunderstood and misused. Many people mistakenly believe it is used for storing messages, but in fact, retained messages ensure that each topic only keeps the latest message.

Retained messages are set during sending to tell the Broker whether the current message needs to be retained. We can see from the code that retained is the third parameter sent, which we usually set to false, setting it to true when needed.

type Client interface {
   // ...
   
Publish(topic string, qos byte, retained bool, payload interface{}) Token

// ...
}

Common uses of retained messages include:

Device status updates: For example, a light controller in a smart home system publishes a status update message, and all clients subscribing to this topic (like mobile apps or other controllers) can immediately know the current status of the lights, and importantly, the device’s online/offline status;
Notification systems: In a notification system, when a new notification is published, retained messages ensure that all online users can see the latest notification immediately, without waiting for the next heartbeat check or subscription update.

Considerations:

As with offline messages with QoS 1&2, be careful when subscribing to topics with retained messages. If you subscribe to a bunch of topics that have retained messages, at the moment of successful subscription, a large amount of messages will be sent from the Broker (this also depends on the Broker, as they often limit the number of retained messages for subscribed topics);
If you want to delete retained messages, send an empty message to the same topic. Generally, unless you sent a message incorrectly marked as retained, you do not need to delete it, as the later message always overrides the previous one.

Last Will Message

Last will messages, as the name suggests, are messages left by the client after it goes offline. Simply put, it is a feature set by the client that allows the Broker to send a specified message to a specified Topic when it detects the client’s disconnection. Its most suitable application scenario is sending an offline message to a relevant Topic when the client disconnects, and other clients just need to subscribe to this Topic to get timely notifications of other clients going offline.

In paho.mqtt.golang, the connection configuration parameters involved are as follows, just as one sets a will before passing away, in MQTT protocol, the last will is set at the time of connection.

WillEnabled             bool
WillTopic               string
WillPayload             []byte
WillQos                 byte
WillRetained            bool

You can see that the required parameters are the same as for a normal message. If combined with Retained, you can easily implement device online/offline notification messages. However, keep in mind that the configured message is actually completed by the Broker on behalf of the client, since the client is offline when this message is sent.

Keep Alive Protocol and Client Takeover

This is actually to address the ‘half-open’ problem of TCP, where ‘half-open’ means that theoretically, TCP itself has a disconnection notification mechanism, but in practice, it often happens that one side disconnects without notifying the other. In the MQTT protocol, this used to occur frequently with mobile or satellite connections, but nowadays, it is more common with IoT devices disconnecting due to power outages.

Therefore, the MQTT protocol includes a KeepAlive option, so the client needs to negotiate a heartbeat cycle with the Broker to check if the other party is online. During this cycle, if there are message exchanges between the client and the Broker, there is no need to send a heartbeat packet. However, if there are no other message exchanges within this cycle, the client must send a heartbeat packet to tell the Broker that it is still online. Correspondingly, if the Broker does not receive a heartbeat packet within one and a half heartbeat cycles, it can consider the client offline and actively disconnect. Similarly, if the client does not receive a heartbeat reply packet from the Broker within a reasonable time frame (i.e., PingTimeout), it also needs to actively disconnect.

Have you noticed a problem? If the Broker does not disconnect the client connection, for example, the heartbeat cycle is very long, but the TCP connection is already half-open, and the client is already reconnecting, does it mean that multiple TCP connections between the client and the Broker might occur? But in reality, this will not happen because in the MQTT protocol, a ClientId is required, and the same ClientId can only maintain one connection with the Broker at most. The later connection will take over the previous one, i.e., kick the previous connection offline.

In paho.mqtt.golang, the parameters involved are as follows:

1
2
3

ClientID                string
KeepAlive               int64
PingTimeout             time.Duration

You can see from its source code that the default heartbeat cycle is 30 seconds, and the heartbeat timeout is 10 seconds.

Conclusion

Overall, these features of the MQTT protocol enable it to efficiently support various IoT application scenarios, including resource-constrained remote devices, unreliable network environments, and real-time data distribution. Understanding and using these features correctly helps to build more reliable and efficient IoT systems.

At the same time, I believe that with a better understanding of the protocol details, you can be more professional when using this protocol and avoid some common mistakes:

When implementing a client, interfacing with the server:
- Considering Retained as data that the server needs to retain;
- Ignoring the scenario and setting the QoS of all sent messages to 2;
When implementing a server, interfacing with a client:
- Requiring the other party to implement an application-layer heartbeat protocol;
- Blaming the other party for sending messages too frequently, with the client explaining that it reports messages at most once a minute (here’s a homework assignment for you, why?);

We’ve only discussed the features of MQTT v3.1.1 this time. In fact, MQTT also has v5 features, which I will continue to explain next time.

Refs

This article is licensed BY-NC-SA
Author: 习之北 (@xizhibei)
Original link: https://blog.xizhibei.me/en/2024/05/02/mqtt-4-features/

【MQTT 系列】（四）v3.1.1 特性

2024-05-02T12:44:51.000Z

在上次的文章中（似乎有那么亿点久了 :P），我们说了 MQTT 的发布订阅相关的功能，这次我们直接来说它的特性。

服务质量
保持会话
保留消息
遗嘱消息
保活协议以及客户端接管
总结
Refs

服务质量

QoS 有三个级别，分别用 0、1、2 来表示，代表的意义如下：

QoS 0: 最多一次，类似于 UDP 数据包，只管发送，不保证到达。这是最简单的服务级别，有可能丢失消息。由于其高性能，此级别适合用于周期性的传感器数据上报。；
QoS 1: 至少一次，这意味着消息至少会被发送一次，即使在网络不稳定的情况下也能保证消息的到达，性能稍差，比较适用于不在意重复（接收端做了重复数据的处理），但却在意数据需要确保送达的场景；
QoS 2：刚好一次，这是最高的级别，保证消息既不会丢失，也不会重复（不过事情没有绝对，还是有概率会丢失数据），显然这种方式的性能是最差的，比较适用于对消息的重复性有严格要求的场景，比如航空航天等；

在常见的家庭、办公室以及工业物联网场景中，我们常用的只有 QoS 0 跟 1 级别，QoS 2 这个级别由于性能差，用的比较少，而且对于数据比较重要的场景，我们也完全可以在接收端进行重复数据的处理即可，性能高了很多。并且，我们也完全用 QoS 0 在应用层实现自己的消息重发机制来实现消息的不丢失。

另外，除了 QoS 0，其它两个级别都需要用到客户端的存储来进行消息的重发机制，因此如果本地有多个客户端实例的情况下，需要注意给它们分配不同的存储区域，不然会导致冲突以及错误。

比如在 paho.mqtt.golang 中，默认使用 MemoryStore 来作为 Store 使用，但是如果你用了它的 FileStore，我们需要制定不同的文件夹路径来解决这个问题。

保持会话

保持会话是指客户端在断开连接之后，可以恢复到之前的会话状态，而不是丢失所有未处理的消息。显然，这对于需要长期连接到网络的物联网设备而言非常重要，它们所处的环境可能非常糟糕，需要在网络中断后恢复。保持会话就允许设备可以在重新连接时从上次断开的位置重新开始，防止处理重复的数据以及丢失数据。

跟这个特性相关的配置就是 CleanSession，具体的原理也很容易理解， Broker 会在客户端连接的时候就确认客户端是不是需要保持会话，即是不是设置了 CleanSession=false，需要保持会话的时候， Broker 会存储以下信息：

会话本身的信息，包含一些连接时候的参数；
客户端的订阅信息；
消息：
1. QoS 1&2 未被客户端确认的消息；
2. QoS 1&2 离线时候的新消息；
3. QoS 2 的未完成确认的消息；

同时，客户端也会存储 QoS 0 之外的消息：

QoS 1&2 未被 Broker 确认的消息；
QoS 2 的未完成确认的消息；

显然，由于 paho.mqtt.golang 默认使用 MemoryStore，这里你需要特别注意下，改成 FileStore。

这里需要注意的地方：

离线期间的数据可能会比较多（根据你的业务来计算），那么在客户端恢复连接的时候，可能会有大量的数据需要处理，需要考虑设备的性能进行接收的限制。或者，如果你不想处理离线期间的消息，即能接受它们的丢失，那么设置 CleanSession=true 会更适合你；
出了发送的 QoS，还有接收的 QoS，而这时候如果两者不一样，就会出现降级，即按低的 QoS 来处理；

保留消息

这一功能常被误解且被滥用。许多人误以为它用于存储消息，而实际上，保留消息确保每个主题（Topic）仅保存最新的一条消息。

保留消息是在发送的时候设置，用来告诉 Broker 当前这个消息是否需要保留，我们可以从代码中看到，retained 是发送的第三个参数，往往我们会设置它为 false，在需要的时候会设置它为 true 。

type Client interface {
   // ...
   
Publish(topic string, qos byte, retained bool, payload interface{}) Token

// ...
}

保留消息最常见的使用场景包括：

设备状态更新：例如，一个智能家居系统中的灯光控制器发布一个状态更新消息，所有订阅了这个主题的客户端（如手机应用或其他控制器）都能立即知道灯光的当前状态，当然还有个最重要的状态也可以使用：设备的上下线状态；
通知系统：在一个通知系统中，当有新通知发布时，保留消息可以确保所有在线的用户都能立即看到最新的通知，而无需等待下一次心跳检查或订阅更新；

需要注意的地方：

跟使用 QoS 1&2 需要注意离线期间的消息一样，订阅 Retained 相关的主题时，也需要注意，如果你订阅了一大堆的主题都有 Retained 消息，那么在订阅成功的那一刻，就会有大量的消息从 Broker 发送过来（这点也跟 Broker 相关，它们往往也会限制已订阅主题的 Retained 消息数量）；
如果想要删除 Retained 消息，给相同主题发送一个空的消息即可，一般来说除非你发送错了，比如把一个消息误标记成 Reatained 消息了，大多数情况下你并不需要删除，因为后一个消息总是会覆盖前一个消息；

遗嘱消息

遗嘱消息，顾名思义就是客户端下线之后留下的消息。简单来说就是客户端设置的，能够让 Broker 在检测到客户端断连时，向指定的 Topic 发送指定消息的一种功能。它最适合的应用场景就是客户端断连时，给相关的 Topic 发送一个下线消息，而其它客户只要订阅这个 Topic 便能及时获取其它客户端的下线通知。

在 paho.mqtt.golang 中涉及到的几个连接配置参数如下，就如同人留下遗嘱的时候是生前，MQTT 协议中，留遗嘱是在连接的时候设置：

WillEnabled             bool
WillTopic               string
WillPayload             []byte
WillQos                 byte
WillRetained            bool

可以看到，它需要的参数跟正常的消息一样，如果配合 Retained，就能简单实现设备的上下线通知消息了，不过需要注意的是，配置好的消息其实是由 Broker 代替客户端完成的，毕竟发送这条消息的时候，客户端处于离线状态。

保活协议以及客户端接管

这其实是为了解决 TCP 的「半开」问题，所谓的半开就是理论上 TCP 本身虽然有断开的通知机制，但是实际情况下，还是会出现一方断开，却不通知另一方的情况出现，在 MQTT 协议中，从前往往是手机或者卫星连接时出现，而如今更多的情况是物联网设备断电的情况下出现。

因此 MQTT 协议就有 KeepAlive 选项，于是客户端需要跟 Broker 协商一个心跳周期，来检测对方是否在线，在这个周期内，如果客户端跟 Broker 之间有消息交换，那么心跳包没必要发送，但是一旦在这个周期内，客户端没有其它消息交换，客户端就必须发送一个心跳包来告诉 Broker 自己仍然在线。对应的，如果 Broker 在一个半的心痛周期内没有收到心跳包，那么就可以认为客户端已经离线，需要主动断开。同样的，如果客户端没有在一个合理的时间范围内（即 PingTimeout）收到 Broker 的心跳回复包，那么也需要主动断开连接。

不知道你有没有意识到一个问题，那就是如果 Broker 在没有断开客户端连接的情况下，比如心跳周期很长，但是 TCP 连接已经处于半开了，但是客户端却已经在重连了，如果这时候客户端重连成功，是不是意味着会出现客户端跟 Broker 产生多个 TCP 连接？但现实却不会出现这个问题，因为 MQTT 协议中，需要设置 ClientId，同一个 ClientId 跟 Broker 最多只能保持一个连接，后一个连接会接管前一个连接，即把前一个连接踢下线，这就是所谓的客户端接管。

在 paho.mqtt.golang 涉及到的几个参数如下：

1
2
3

ClientID                string
KeepAlive               int64
PingTimeout             time.Duration

从它的源码可以看到，默认的心跳周期是 30 秒，而心跳的超时时间为 10 秒。

总结

总的来说，MQTT 协议的这些特性使其能够高效地支持各种物联网应用场景，包括资源受限的远程设备、不可靠网络环境、实时数据分发等。了解和正确使用这些特性，有助于构建更加可靠和高效的物联网系统。

同时，我也相信，了解了协议细节的你，能够在使用到这个协议时，更加专业，少犯一些低级错误：

实现客户端，对接服务端的时候：
- 把 Retained 认为是服务端需要保留的数据；
- 忽略场景，将所有发送的消息的 QoS 设置为 2；
实现服务端，对接客户端的时候：
- 要求对方实现应用层的心跳协议；
- 责怪对方发送消息频率太高了，客户端解释它最多一分钟上报一次消息（这里给你留个课后作业，为什么？）；

我们这次只说明了 MQTT v3.1.1 的特性，事实上 MQTT 还有 v5 特性，我会在下次再继续讲解。

Refs

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2024/05/02/mqtt-4-features/

我来深圳这五年之生活篇

2023-11-27T15:15:21.000Z

上次洋洋洒洒写了五千多字的工作篇，这次我们来继续聊聊我在深圳的生活，不过内容不多。

城市切换：深圳与上海

其实目前我对上海的印象已经开始渐渐淡忘，不过以前的那些朋友依然会有联系，因此对上海的记忆大多是跟他们有关。

我刚来深圳那会儿，对深圳最大的感受就是，这里不仅不会排斥你，还会给你各种方便。就说一个小事，我在上海五年只成功办理了一次居住证，这个办理特别麻烦，因为他需要你有居住证明，居住证明又需要你跟房东协商租赁登记，就意味着要交税，这个税谁出呢？当然只有我这个冤大头了。而到了深圳之后，居住证非常轻松地就办下来了，居住登记非常简单，也不用帮房东交税，而且之后港澳通行证之类的都可以凭居住证来办理，非常轻松。

这种与人方便的欢迎姿态让我挺想落户到这里的，因此等我安定下来后，找了个机会，非常轻松就办下来了。

如果你觉得我在贬低上海，那也不至于，相反，我对于上海的认同感更强，上海离我的家乡挺近，文化也接近，连语言都同是「吴语」，刚毕业就到上海工作了，整整五年，有朋友有同事，我一度认为自己会在上海渡过余下的职业生涯。

我刚来深圳那会儿，依然非常怀念上海的生活，这边的历史文化环境比较薄弱，所以，一旦我想念上海了，我就会去相对有那么些历史的蛇口，连认识女朋友的第一天，我也是带着她去蛇口逛街。

后来了解了，原来深圳的医院、学校以及文化娱乐都在广州或者香港，而深圳只留下钱跟加班。

我觉得真正适应深圳，有几件标志性的事件：

我来深圳不久开始去游泳馆游泳，以及后发现我住的小区居然有游泳池，果然运动才能解人愁；
落户，没想到落户都有奖金可以拿；
买了车，从此深圳可以随处探索了，深圳湾公园，大小梅沙；
我在深圳成家；

不过，我还是挺想回到五年前，找到那个决定离开上海的我，用我这几年都没穿过的厚实靴子，狠狠往屁股上踢一脚，然后回来继续加班。

兴趣

不知道是因为人到中年，还是我一直投身的智能硬件行业让我觉得有趣，又或是接触到硬件产品经理这个角色，我最近一两年开始折腾各种电子产品，比如群晖，再比如一些开发板。

最近我觉得自己开始慢慢克服心理的障碍，开始重新写文章了，目前我对自己的要求降低了太多，比如我不必绞尽脑汁去写「精深」的内容，也不必在意写错，更不必为了其他人而写，因为我觉得简单的要求能让我继续写下去。回顾我早期的文章，正如2016年总结里面说到的，我重新写（是的，也是重新写）的理由也是很简单，「安安静静写点东西」就行了。只不过当时随口说的话，到今天有了不同的理解，正是因为那时候没人关注，也没有任何写作的压力才能让我坚持，现在随便翻看，一堆的水文也能让我乐此不疲地写下去。

家庭

这几年来，最大的收获除了中途事业的短暂成功之外，就是成家这回事了，来深圳不久就认识了我现在的夫人，恋爱，结婚，然后就有了女儿。

我是去年年底的时候，跟女友走入婚姻殿堂，而今年，我的女儿降生了，这是来深圳着 5 年，也是疫情三年中，我最幸福的时刻。当女儿的小手堪堪握着我的小手指时，我心里充满无限的疼爱与憧憬，同时伴之而来的，就是责任了，接下来几年，我再也不能陪着夫人随便到处去玩了，能承担的风险对我来说也不知不觉降低了，我再也不能像之前那样随意更换生活的城市，毕竟我又多了一个父亲的角色，我需要考虑的东西也多了，当公司再次濒临倒闭的时候，我再也不能像之前那样「一人吃饱，全家不饿」了。总之，女儿的降生让我产生了非常大的保护欲，也给了我非常大的信心与希望。

理财

好了，既然写到了这个敏感的话题，先用一句鸡汤开场：

不是有希望了才坚持，而是坚持了才有希望

这句鸡汤话送给所有人，毕竟 A 股在前不久又打响了「3000 点保卫战」，不过我也没有更多的资金用来投入了，现在只是在硬撑而已，账户也不去看，没法看，看了也没意义，徒增烦恼。只是，我没有任何理由地去相信，A 股终会迎来恢复，我们面临的极端情况也会迎来春天。

格雷厄姆在《聪明的投资者》中说：「在证券领域，一旦获得了足够的知识并得出经过验证的判断之后，勇气就成为最重要的品德。」其实说的就是当前这个时候，大多数人要不就缺钱，要不就是勇气。只是「悲观者往往正确，但只有乐观才能挣钱」，继续坚持，不要倒在黎明之前。

最后

这篇其实就是当做跟朋友简单聊几句而已，感谢看到最后。如果对我的文章或者经历感兴趣，也欢迎微信交流。

我来深圳这五年之工作篇

2023-11-09T05:34:31.000Z

这个时间点，挺尴尬的，因为我又一次经历创业失败了，嘟嘟的坟头草也没长多高。不过，我倒是有时间又可以写一些回忆了，这次就不仅仅写创业历程了，也顺便写点工作之外的事情，不过全放在一篇里面会让工作之外的内容有些尴尬，因此我把重篇幅的工作篇章放这里，其它的另外写一篇。

我们先从工作说起，其实上次换工作的时候，我也说了一些内容，可以作为参考。

正文

先简单介绍下我所在的公司，叫算子(确实，我也觉着看起来挺高深的)，这个名字的由来，是因为创业初期就是以 AI 方向为主，深度学习离不开各种各样的算子，所以这个名字跟 AI 还是关联很紧密的。

我是 2018 年末加入的，加入的原因上次也说过了，不再赘述。距今刚好 5 年有余，因此在深圳的 5 年基本上也可以说是在算子的 5 年。

这 5 年，我把历程分为三个阶段：

第一阶段：默默探索

我们在这个阶段属于拿了融资不知道干什么的阶段，打算凭借人脸算法的优势去做一些项目。

我刚加入那会儿，处于刚好完成了煤矿识别相关的项目，但是接下来的方向还是找了挺久，打算尝试用人脸算法去做商场人流量识别，并以此给商场跟店铺做一些会员的管理内容。这个涉及到做硬件，同时也是我们第一次开始做硬件相关的项目，在深圳找了商场进行测试，效果挺炫酷的，但客户不愿买单，他们认为这个系统的价值不是很高。（后来发现有其它公司的把类似的项目做起来了，看来还是我们自身的原因。）

后来我们凭借在之前积累的人脉，开始尝试做了校园课堂学生状态管理这个项目，也是差不多的套路，还是做硬件项目，内容简单来说根据课堂上学生的人脸识别情况进行统计管理，不过由于忽视客户真实需求以及疫情开始导致项目失败。

这两个涉及到硬件的项目，我第一次听到了海思以及瑞芯微，也是第一次接触到 SoC 。

再后来，就是疫情开始了。我们开始做人脸 SDK 封装，我们学着商汤旷视，做了趣视视觉这个产品，卖 License 为主，那时候给我们这个产品设计了一个自认为很完美的 License 激活方案，也是第一次在嵌入式系统里面做东西，还是非常新奇的。前期效果还是不错的，我们甚至还运营了一个微信群，卖出去了一些，不过后来被疫情打乱了节奏，这个方向也没有坚持下去，因为我们发现了更有前景的东西。

第二阶段：绝境逢生

尝试过我们 SDK 的客户提了需求，要求我们把现有人脸算法封装进一款 Android 人脸门禁设备，我们完成之后，觉得这是个不错的落地应用，于是，我们也开始做人脸门禁产品，但是做的是 C++ 版本的，因为觉得 Android 版本的硬件成本高，C++ 的版本虽然开发成本高，只要出货量大就可以把成本摊薄。

期间我觉得 C++ 开发网络部分太慢，因此在试验了 Golang 版本之后，觉得开发效率提升不少，于是干脆就把网络部分全用 Golang 来实现了，但由于我们是个小团队，我不仅需要做 C++ 嵌入式的部分，也全揽下了用 Golang 实现的网络部分，另外服务器的活也压在我身上，毕竟创业公司需要人成为多面手。

做了半年左右有了成品，比预想快了三月有余，不过这次也同样不会那么轻松，没有收入叠加疫情影响，中间经历了快要倒闭的情况，所有人降薪，而老板借钱给我们发工资（不得不感慨，没有赌性，难做老板）。不过，在做出了 Demo 之后也遇到了一个不错的客户，我们凭借自己的研发能力给对方留下了不错的印象，因此也做成了第一笔大订单，这就算是绝境逢生了。

有了前面攒下来的经验基础，以及第一桶金，接下来，便是结合当时的防疫要求，我们开始做防疫产品。其实一开始做的是给人脸门禁加上了测温功能，后来老板找到了资源，才给我们做的人脸门禁加上了健康码核验功能，可以用来核验国家健康码（即国康码）是否是真实的，这是个可谓非常有价值的功能，市面上同类产品还比较少，因为那时候出现了有人凭借假的健康码混过了门岗检查这样类似的事件，于是我们对外宣传做了健康码智能核验终端。

虽然没有一炮走红，但是逐渐的，我们的客户开始变多了，并且也有客户开始陆续下单。

我们真正开始大卖，是随着疫情防控政策的收紧，以及各种疫情事件层出不穷之后。政府部门也意识到，健康码是个非常不错的工具，于是各地政府也开始大力推广自己健康码，并且健康码也确实在各地的防疫过程中，扮演了非常重要的角色。我们提供的产品，非常符合市场的需求，为防疫核验健康码提供了非常便利的方式，毕竟也不需要门岗来肉眼查看颜色了，同时也能够在很大程度上，防止健康码作假。

我们的优势还是挺明显的，因为大力投入资源在软件方面，尤其是在健康码这样的偏软件场景中。另外就是，对接资源这块，我们的效率非常高，能够及时解决客户的问题与需求。这也是小公司比较核心的竞争力，尤其是在对于一些中小客户来说，我们这样的小公司，能够积极配合，并且效率很高地去帮他们解决问题，这是大公司很多时候无法做到的。

我们的劣势也很明显，这个过程中，我们出现的最大问题，莫过于硬件质量了。我们都是互联网以及软件出身，对做硬件的了解不深，质量把控的问题非常大。这个问题在订单多的时候不是很明显，随着后期订单下降了，有客户会因为质量问题给我们退货，我们的返修率一度非常高。

供应链也是个大问题，它不仅关系到硬件质量，还有产能的问题，我们跟不上，就会丢订单。我们经客户介绍，开始跟行业的同行合作，我们提供软件，移植到他们提供硬件上，这就是个互利互惠的方式，我们凭借他们的硬件能力能够更快占领市场。事实也证明了这一点，在后来的统计中，几乎一半的设备都是经他们卖出去的。（不过后来他们借此抓住了机会，稳住了原本的客户之外，也抓住了一些中大型客户，并且在我们的软件先发优势逐渐失去的情况下，凭借硬件优势抢占了我们的市场，我除了暗自叹息之外，只剩佩服了。）

我处于中心地带，可谓收获颇多。

在这个过程中，我们没有专职的产品经理，因此很多需求都是我直接经手，我根据客户的需求，设计了几个有意思并且实用的功能：

扫码配置与升级：这是个非常有趣且实用的功能，背景是我们的设备没有加触屏，需要客户进一个网络的 Web 后台配置，导致客户配置机器非常麻烦，而且终端部署的地方不一定有人会操作，客户有时候需要开车几百公里去操作。我思考过好多解决方案，突然某天看着扫码器发呆了好久，灵感就来了（可能这就是所谓的「念念不忘，必有回想」），二维码不就是个信息输入载体么？既然可以把健康码作为二维码信息，当然也可以把配置信息作为二维码信息，其中当然还可以包含升级链接，于是花了两天做出了 Demo ，大家试用了之后，一致觉得非常有用，于是推给客户用，没想到过了两周，他们几乎完全放弃了进入后台配置的方式，毕竟扫个码那么简单的事情方便太多了。这样做了之后，可以让我们针对不同的客户需求，制作不同的升级二维码与配置即可，能够让我们非常快速地迭代软件，对接各地平台的时候最快可以在半个小时的时间内给到客户，并且升级部署成功。
设备监控：这个背景是我觉着如果把设备卖出去之后，如果无法及时收到反馈的话，我们会非常被动，于是我想到既然服务器可以监控，我们卖出去的设备也可以监控，我在我们服务器监控平台中，加入基于 MQTT 协议的设备监控实现，能够让 Prometheus 收集设备中的运行指标，接下来只要配置监控图标以及告警即可。这套简单的方案可以让我们了解所有设备的各种运行状态，能够比客户更快发现问题，有时候客户找上门的那刻，我们就已经他找我们的原因了。同时，我们也能非常快速的统计所有设备的各种运行状态，给我们的日常运营提供了非常大的指引作用。
远程管理：这个功能与设备监控是配合使用的，可以让我们能够远程快速定位问题，查看实时日志，调整系统参数，有些问题甚至可以远程直接处理掉，这个也简单，基于 MQTT 做个远程穿透就行。

前期对接主要靠我支撑，那时候工作强度非常高，很多时候都是当天客户提交，第二天甚至当晚就要结果，一句「明天领导要看」，就能压倒所有人。不过这个过程也挺充实的，不光是因为我知道越早部署好，想过防疫工作就能越快开展，也因为我们也能拿到订单。其中有次非常深刻，那天晚上已经非常累了，但还是硬撑着帮客户把对接搞定了。事后老板告诉我，那次搞定，客户直接下单了几百台机器，这就是成就感的来源了。

不过，揽下太多活也不好，那段时间身心非常疲惫，效率下降不可避免（给诸位交个底，博客断更也是那时候开始的），最遗憾的一件事情也发生在这个时候，我没控制住自己的脾气，怼了一个客户，间接导致他们选了其它同行，丢了挺大的订单。痛定思痛，我们继续扩张，招新人，我也慢慢把任务分派给其他新来的同事，并且教他们一步步入手，到最后完全脱手，开始做其它一些更重要的事情，尤其是产品方向问题。一段时间下来，我慢慢体会到领导者的意义，相对于上一份工作的领导岗位，我觉得自己开始真正入门管理。

这里也顺便说说几件管理上的收获：

三级等保：在主导这件事之前，听说过二级等保，不过等看完三级等保的资料后，还是头大了好几圈，幸好那时候我们的服务器安全措施还是有一些基础的，并没有花多少精力就搞定了，不过后来发现他们连服务以及设备上的应用安全也要审核的时候，还是头疼了挺久，所幸最终通过了。这个过程，是我第一次体会到「治大国若烹小鲜」，也就是指定菜单「计划」，调动公司所有的资源把所有的食材「各种材料、人力、物力」准备好，控制好火候「事情推进的节奏」，及时洒调料「控制关键节点」，然后等所有材料审核通过「煮熟后一锅出」。
敏捷纠偏：这是我整个管理过程中，最有收获的一段时间，因为那时候明明采取的是敏捷开发流程，但是服务开发团队效率非常低下。我静下心来研究了挺久，才意识到我们采取的一直是小瀑布开发模式，也就是在一个短周期的迭代中，进行所有需求的统一「规划-开发-测试-上线」流程，一旦有任务阻塞，就意味着当前迭代所有需求都无法上线，而正常的迭代是所有需求应该是独立的，且必须要控制并行的需求数量。定位到问题就好办了，给大家进行敏捷的培训，好好回顾了下一个该有的迭代是怎么样的，讨论并实施了几项措施，陪着大家进行一个完整的迭代过程，没想到效果非常显著，进行到第二次迭代的时候，需求上线速度快了非常多，几乎每天都能看到成果。
管理监督：职业生涯中遇到了第一个品德较差的同事，他利用我们的信任，在给他负责的服务器上部署自己的服务赚钱，这勉强忍了。但是他离职之前就开始准备盗用客户资源，最后几周的代码带走不提交，逼着我只能反编译，发现他还给特么给应用挂了马。等我发现后，死不承认，给我气了好久，如今回想起来，这也算是给我好好上了一堂管理监督课了。

吹了一波自己，说回我们公司的业务，我们算是转型成功了，累计卖出了不小的数字，团队快速扩张，并且以此为基础陆续做了防疫扫码盒子以及手持设备，一度成为健康码核验防疫产品中的行业龙头。期间我也过了把做 Android 客户端的瘾，因为中间了解过 Flutter ，想着怎么用到我们的产品中，这不，机会就来了，用了一个星期，Demo 就出来了，我做了几轮迭代之后，就交给了后来新招的专职 Android 研发同事。

后来我们对我们的生意模式做了一些总结，其实我们就是以做 ToG/ToB 项目的方式卖防疫硬件产品，靠着对定制需求的「不挑食」，对接了大大小小几百个健康码平台。当然了，这些平台的背后都是各地大数据局在支持，即使我们的业务直接是 ToB，但是本质上还是 ToG。

我认为产品的成功，很大程度上归结于我们建立的快速迭代机制，即在基于标准产品功能的基础上，快速为客户开发定制的需求，然后给客户部署完毕，获取反馈，进行调整后尽快满足客户需求，同时在这个过程中，积极收集终端客户的反馈以及运行数据，一旦我们发现了这个功能可能是普遍性的需求的话，我们会将这个功能合并进主分支，并推广给其他客户。

第三阶段：坠落悬崖

成也萧何，败也萧何。我们最初成功的原因，也是后来失败的原因，随着疫情政策的放开，我们的状况可谓情转直下，需求端的客户几乎消失不见。

其实，我们预想过这件事情，甚至考虑过提前转型，只不过没想到它是以这样的方式来临，并且来的那么快。我们仓促应对，业务收缩，开始第一次裁员。接下来，我们调整部署，考虑到我们已经积累的销售渠道，开始回归人脸门禁本身，做考勤方向的人脸门禁。

在做考勤人脸门禁之后，我们凭借之前的经验教训，将之前的产品大刀阔斧做了不少修改，同时更注重产品质量，因此产品出来之后，质量比防疫产品提升非常多。不过，我们也意识到了之前防疫产品的质量是多么的不足，基本功不够扎实，等待防疫需求退潮，发现我们才是那个没穿内裤的，如今回想起来，那些客户对于产品质量的抱怨不绝于耳。

现实还是狠狠打了我们的脸，我们高估了市场的温度，经济下行的程度让我们始料未及，那疫情刚放开的那几周，也是我遇到的人生中最冷的时光，平时热闹的大街上几乎都没吃饭的地方，只能用荒凉来形容。而今年 2023 年疫情放开之后的开春，让我们感受到市场无以伦比的寒冷，于是我们又经历了几次裁员，直到最后，我也不得不离开。有时候，我会回想，如果半年之前，我们能够快速止损，清退所有业务，积极寻找新方向的话，现在可能没有那么狼狈。只是，既然是创业，不轻易放弃是基本素养，如果我们那么容易放弃的话，在疫情初期我们就已经解散了。至于我自己，还是获得了不少经验，不仅因为了解了完全陌生的硬件行业，还因为最后产品跟项目最终都是我来做了，毕竟初期的产品跟项目要么离职，要么被裁，除了职位的上升能够让人思维升级，换工作内容也不例外，正所谓「屁股决定脑袋」。

有句话说的好，「凭运气赚的钱，总会凭实力亏掉」，虽然说的是股市，但是用来形容我们的创业历程也有一些对的地方。我们凭借着疫情防控的浪潮活了下来，确实有运气成分存在，但是没有实力的话，其实也抓不住运气，因为运气是给有准备的人的，所以我们常说「运气也是实力的一部分」。最终难以活下来，的确是我们自己的实力有问题，但面对这个寒冷的市场，也有比我们实力更强的公司更早倒下了。

后记

我一直认为自己运气挺好的，在互联网行业快要进入下行期的前两年，我开始进入智能硬件行业。

其实过程非常痛苦，毕竟不是那么容易转行的，跳出自己舒适区也非常难，我大多数时间还是喜欢做自己擅长的软件相关的工作，管理是一知半解，也不会有人来手把手教我怎么做，连我最陌生的硬件设计，我也得知道是怎么回事，最后还得把自己当成项目经理跟产品经理。当团队里面的所有人都不会或者不想做某件事情时，我需要跳出来去承担，比如 ISP 调试、RTSP 实现，或者人脸算法移植（现在回想，真有种我不入地狱，谁入地狱的感觉）。

可能这就是创业的魅力，也是我从老板身上学到的最重要的素质：我们要一直去挑战不可能，当其它所有人做不到，或者说不可能的时候，我就要跳出来说：「我不信，让我来试试」。毕竟如果事情都那么简单，那我们为什么还要去创业，简单的事情大家都做，凭什么给你机会？乖乖去其它公司打工，按照别人给你的既定路线走不就得了，创业就是要去做不可能的事情。另外，我认为即使去其它公司打工，也会面临类似的情况，毕竟简单的事情好做，但是只有难的事情才能体现你的价值。

如果你问遗憾吗？那肯定有，而且不少，一方面遗憾我在工作中没有做到更好，另一方面遗憾我没有早做准备，这两点本身是矛盾的，因为我一直是处于坚持的状态，无法也没有去想如果公司倒了怎么办。

而如果你问后悔吗？不后悔，人生没有后悔药，更不会所有事情都一帆风顺，以后的路还很长，收拾收拾，可以准备下一段旅程了。

巧用群晖，让你的耳朵在每一次游泳时都能充满新意

2023-08-21T11:00:04.000Z

在游泳时听歌的一个常见痛点是，耳机上存放的音乐内容越来越过时或者听腻了，要手动通过电脑来管理音乐，但是操作却非常麻烦。本文将会使用群晖（DS218+），通过简单的 USB Copy 或者自动化脚本来解决这个问题，实现自动帮耳机（Sony Walkman NW-WS623，以下统称 Walkman）更新歌曲。

Walkman 的痛点
简易版方案
高阶版方案
- 怎么使用
最后

重要提示
本文将涉及编写并执行自定义脚本，存在一定安全风险。请不要轻易信任和运行不明来源的脚本，以免造成数据损坏或信息泄漏。请在自己完全理解的前提下谨慎操作。

Walkman 的痛点

夏天到了，游泳的最佳时节也到了。每次去游泳，游泳耳机是必不可少的，它让我在泳池里面不会那么枯燥了，只要戴上我心爱的 Walkman 扑通入水后，整个游泳馆就会只剩下我这最靓的仔。

不过美中不足的是，除了偶尔会被蛙泳的人踹脸，就剩下我的 Walkman 里面的音乐却是几年前的这件事了。在这过去的几年里，我的个人音乐库里面的红心歌曲也已经更新了好多，现在有必要把 Walkman 里面的歌单更新一下了。

上周末从游泳馆回家的路上，一直想着要更新歌单，想着想着，结果一进门，心里记着的事儿也就跟我扔在一边的游泳装备一样，啪嗒掉在了地上。

直到隔天晚上，偶然瞥到游泳装备，这件需要解决的小麻烦这才又浮上心头。于是，那天晚上我大概花了一个小时才把这件事情搞定：

把 Walkman 从游泳装备中取出；
打开电脑；
忘记连接线，又去我的杂物箱里面拿到数据连接线；
把电脑跟 Walkman 连接；
先清空 Walkman 里面 Music 文件夹；
打开了我的音乐下载文件夹，随机挑了几百个音乐（对的，手动，挑到眼花）；
开始漫长的拷贝过程（估算了下，得有接近 20 分钟）；

实在不能忍受着这个效率，我得想办法节约自己的时间。回头看到了自己家那台一直在吃灰的群晖，我突然有了灵感：用群晖的 USB Copy 功能直接导出歌曲不就行了。

简易版方案

群晖的 USB Copy 功能还是挺简单易用的，通过简单的设置，你就能让它在你把 Walkman 插入群晖前面的 USB 口时，自动复制歌曲到 Walkman，并且在复制完成之后自动弹出设备，然后用「滴」一声告诉你完成了，你只需要直接拔出来就能直接使用了。

下面是简单的教程：

第一步，打开 USB Copy：

第二步，选择数据导出：

第三步，设置任务，来源选一个你挑好的音乐文件夹列表，注意：

大小不能超过 Walkman 本身的大小，不然会导致失败报错；
目的地记得选 Walkman 专门的文件夹，截图未体现；
复制模式必须是镜像，因为其他模式都是用来备份目的的；

第四步，选择触发时间：

最后一步，选择文件过滤，我只为听歌，因此这里只选音频：

创建完成后，可以将你的 Walkman 插上去试试效果。

不过我想把空间利用率拉满，折腾一次可以顶好久，因此我在测试的时候，等了好久也没听见「哔」声，再去群晖上瞧一眼，果然是挂了。群晖提示我空间不够，原因也很简单，因为我的 Walkman 可用的空间也就 3.5GB 不到，而之前电脑上拷贝的歌曲已经把 Walkman 的空间占满了，虽然我设置的复制策略是镜像，但是实际执行的时候，群晖是不会先把空间删掉腾出来再进行复制的，这样就会导致没有足够的交换空间导致复制失败。

解决的方案也是有的，那就是留足足够的空间，因为大多数情况下，我一次游泳也不会听那么多的歌曲，也没那么多时间来听，那么，实际上我只向里面拷贝几十首歌就行了，算一首歌 10M 的话，顶多拷贝 500M 左右的歌曲就行了，问题也就迎刃而解了。

不过，如果你跟我一样有些强迫症，非要把空间利用率尽量拉满，可以像我一样尝试更高阶一些的方法。

高阶版方案

我重新规划了歌曲更新流程，因为本来 Walkman 的 USB 连接线这几年只是用来充电了，这次顺便就能把歌单同步跟充电，这两件事一起做了。

所以我设想了如下的流程：

游泳回到家，把 Walkman 直接插入群晖的任意一个 USB 口；
等待一个晚上，充电+歌单同步；
下次游泳前，把 Walkman 拔出，放入装备包；

是的，就那么简单，但是，为了能做到这种流程，我需要准备以下几个事情：

定期同步电脑中的歌曲到群晖的音乐文件夹
写一个脚本，它能够
1. 每天晚上定时执行
2. 随机选取我的歌曲，做成一个歌单
3. 把歌单中的歌曲拷贝到 Walkman
4. 拷贝完成后弹出，方便随时拔出

那么脚本的话，我就贴在下面了，自取即可。

#!/bin/bash

set -e

# 标记文件，用来标记这个设备是用来拷贝的，可以把其它 U 盘设备排除在这个流程之外，
# 也就是说不存在这个文件的设备会被跳过。在这里我用的是 Walkman 上自带的文件，
# 如果你用的是其它的耳机，可以直接在耳机上创建一个同样名字的文件，
# 或者把下面的名字改为你耳机上已经存在着的并且不会改的名字
marker_filename="default-capability.xml"

# Walkman 用来存放音乐的文件夹名称
dest_dirname="MUSIC"

# 最大空间，默认 3.5G 不到，留下100M左右用来当作交换空间
max_size=$((3400 * 1024 * 1024))

# 音乐文件所在目录
music_dir=/volume1/music/Music

# 要放音乐链接的临时目录，记得选一个同一个共享文件夹的
music_symlink_dir=/volume1/music/walkman

rm -rf $music_symlink_dir || true
mkdir -p $music_symlink_dir

music_dir_size=$(du -sb $music_dir | cut -f1)
if [ $music_dir_size -lt $max_size ]; then
  echo "音乐源目录 $music_dir_size 小于设置的最大值 $max_size ，将最大值设置为 $max_size"
  max_size=$music_dir_size
fi

for line in $(cat /tmp/usbguidtab); do
  usb_dev=$(echo "$line" | cut -d= -f1)

  mount_root=$(mount | grep "$usb_dev" | awk '{print $3}')
  if [ ! -d "$mount_root" ]; then
    echo "跳过：$usb_dev 非U盘储存设备，或者挂载失败，可尝试插拔"
    continue
  fi

  echo "USB device $usb_dev mount on $mount_root"
  
  walkman_capability_file="$mount_root/$marker_filename"
  if [ ! -f "$walkman_capability_file" ]; then
    echo "跳过：$mount_root: 标记文件 $marker_filename 不存在"
    continue
  fi

  walkman_music_dir="$mount_root/$dest_dirname"
  if [ ! -d "$walkman_music_dir" ]; then
    echo "跳过：$mount_root: 目的地文件夹 $dest_dirname 不存在"
    continue
  fi

  # 先找出所有音频文件
  orig_files=()
  while IFS=  read -r -d $'\0'; do
      orig_files+=("$REPLY")
  done < <(find $music_dir -type f \( -iname \*.mp3 -o -iname \*.m4a -o -iname \*.wav \) -not -path "*/@eaDir/*" -print0)
  echo "源文件夹音乐数量：${#orig_files[@]}"

  # 打乱顺序，方便随机挑选
  files=()
  while read -r item; do
      files+=("$item")
  done < <(shuf -e "${orig_files[@]}")

  size=0
  index=0
  while [ $size -lt $max_size ]; do
    file="${files[$index]}"

    if [ -n "$file" ]; then
      echo "选中音乐文件：$file"

      next_size=$(( size + $(du -sb "$file" | awk '{print $1}') ))
      if [ "$next_size" -gt "$max_size" ]; then
        break
      fi

      ln "$file" $music_symlink_dir
      size=$next_size

      index=$(( index + 1 ))
    fi
  done

  rsync -av --delete-before "$music_symlink_dir/" "$walkman_music_dir/" 2>&1
  rm -rf ${music_symlink_dir:?}/

  sync # 刷盘
  /usr/syno/bin/synousbdisk -umount "$usb_dev" # 安全弹出，方便拔出
  echo 2 > /dev/ttyS1 # 哔一声用来提醒
done

接下来说说怎么用。

怎么使用

首先，我们需要确定参数：

Walkman 中的音乐文件夹名，我的是 MUSIC，必须要确定存在，否则会被跳过；
Walkman 中的标志文件，我用的是设备自带的文件 default-capability.xml，你的设备如果不存在这个文件，则可以创建一个跟我一样同名的（内容可空），用来表示你只会使用这个设备来同步音乐，而不是其他同时插在群晖上的设备，不存在这个文件的设备会被跳过；
最大空间，我的是 3.5G，但是为了留一些交换空间，我就设置了 3400M；
音乐文件夹目录，按照下面的提示，在群晖的 File Station 中，找到你的音乐文件夹的路径，比如我的就是 /volume1/music/Music；
临时目录：在同一个共享文件夹下面，你需要指定一个不存在的临时目录，比如我的就是 /volume1/music/walkman，用来存放随机筛选的音乐（放心，完成之后会删的）；

查看音乐文件夹的目录：

将你的参数替换掉我在脚本中的数值即可，你的定制脚本就完成了。

然后，我们来设置你的定制脚本：

打开群晖的系统面板，任务计划。

第一步，新增，计划的任务，用户定义的脚本。

第二步，常规 Tab，任务名称随便填了，比如我填的就是 Walkman，用户账户需要选择 root，因为最后弹出 Walkman 需要 root 权限（admin 实测权限不够，截图的账号不正确，实际应为 root）。

这里需要提醒一句，对于不理解脚本的小白来说，轻易不要相信他人给的脚本，尤其是需要高权限运行的情况下。如果是恶意脚本，轻则被投毒挂马挖矿，重则被加密勒索或者数据全毁，慎重，慎重，慎重。

第三步，点击计划 Tab，可以先留空，我就是留着它默认时间的，每天凌晨执行就行。

第四步，任务设置，通知设置这边，如果想收邮件通知的话就勾选，不需要也无所谓，最后将上面的脚本粘贴到用户定义的脚本里面就行。（如果你不是跟我一样的 Walkman，理论上也可以用，但是需要你能修改脚本。）

最后一步，点击确定即可。

设置完成后将 Walkman 连接到群晖，然后选中任务，点击「运行」，手动执行一遍，测试一下。另外如果你设置了邮件通知，那么在任务结束的时候，你应该会收到任务完成的邮件提示。

最后

P.S. 我买的这个 Walkman 当时搜了挺多的资料，看了各种推荐才下单的，如今已经用了差不多 4 年了（刚刚去瞟了一眼电商平台，价格依然坚挺）。其实当时也考虑过骨传导耳机，对比了下价格后，我立马觉得还是入耳的更好，因为它不需要额外戴耳塞了，它本身就是耳塞 🌝。

P.P.S. 这个脚本已经改了几个版本，目前能支持自动检测插入 U 口的设备，并且可以支持多个，功能还是比较简陋的，目前在我的使用习惯下勉强凑合了，有能力的同学修改下这个脚本，就能支持把追更的最新播客，有声书，相声（游泳时听郭德纲，想想就挺带感的。。。）之类的音频也放进去，显然在遇到这种经常需要更新音频的情况下，这个流程就显得更契合了。

另外，如果有其它不会修改脚本的同学也有类似的需求，或者遇到了使用问题，可以在评论区留言，我会尝试继续改进这个脚本。

P.P.P.S. 最后的最后，这个流程唯二的问题就是：

在游泳之后，忘记把 Walkman 从游泳装备取出去插进群晖；
在游泳之前，忘记把 Walkman 拔出放入游泳装备；

不过相信我，忘个几次之后，记性还是会长的。

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2023/08/21/use-synology-wisely-so-that-your-ears-can-be-full-of-new-songs-every-time-you-swim/

2021 年度总结

2022-01-03T15:36:18.000Z

今年最大的体会，就是体力与精力的双重下降：身体上颈椎与腰椎都有问题，下半年经常心悸跟腰背疼，去推拿了好几次，年底了又多了个干眼症。

另外，我的精力已经从纯技术路线转移了。

创业

今年的疫情依然没有结束，但是我所在的公司开始做防疫相关的产品了，于是我们这一年来成长了不少，业务也真正有起色了。

不过，成功是有代价的，尽管目前只是小成功。

感觉自己的体力与精力最明显的下降是在 8 月份时候，因为那时候遇到了一波比较大的本土疫情，而我们公司的订单量也开始上升，但是我们却遇到了产品方面的问题，于是几乎每天都在加班加点（腰疼跟心悸也是那时候发生的）。你们看我的博客更新频率也能看出些，因为真是忙，忙到让我怀疑人生，非常累。这期间让我不想看书，不想游泳，也不想去更新博客（似乎找到了拖更的正当理由），只想周末的时候窝在沙发里。

现在回想，其实自己就是在逃避思考，光顾着战术勤奋，却不肯花时间，或者也可以说不懂去思考战略。

什么是战略呢？就是一个团队里面，不能所有人都埋头顾着眼前的事情，一定要有人看着前方的道路，花时间解决重要而不紧急的问题，紧急不重要的事情少做，或者交给别人去做。就如打游戏冲关一般，你不能光顾着打虾兵蟹将，不然只会被无穷无尽的它们给淹死，你的最终目标是打败 Boss 后通关，因此你需要在路上不断积累能够打 Boss 的资源与能力。因此如果你是一个团队在冲关时，一定有人要负责制定打 Boss 的计划，管好分工协作。

所以，我在 2021 最大的收获就是真正入门管理。

管理

曾经觉得自己可以以一当十，所有事情不放心交给别人，都要自己干，累死自己（我要打十个变成被十个打），不懂何为「和光同尘」，终于在被提醒在为别人打工的时候，我才真正有所醒悟。

我学着从管理者的角度来思考：

如何从自己的研发任务脱身出来，如何让公司跟团队能够活下去；
如何调整研发队伍来适应公司业务发展的转向，如何规划团队的规模，以及人员构成，来提前为未来的业务发展提供保障；
如何制定目标、建立流程、然后定义角色与职责，让每个人按部就班，用一个组织的能力来做个人不可能完成的事情；

经过了这小半年的实践，我在管理上的算是真正有所得，我不再小觑了管理人员在团队中能发挥的作用，也不再像从前那样总是认为会议总是无关紧要。所以我学着定义自己的角色与职责，也学着把手上的活分给别人并且教别人把事情做好，学着在没有招到人的时候当经理项目以及产品经理。毕竟我亲身经历了我们公司这样的小团队，因为长时间忽略管理而导致了严重损失，人员流失，甚至一度濒临散伙倒闭。

回首看去，自己一度觉得很轻松，竟是有人替自己负重前行。而当自己把担子拾起，竟发现这种重量是何其沉重。

记得曾经有人给我劝告，过早经手管理的活，会让自己的职业道路受影响，现在看来，有一定的道理。因为至少对于我来说，管理上的事情并不像做技术那么简单，管人可比管代码管机器难多了。一直沉浸在具体业务执行中的我，很多管理上的事情我是无法去理解的，也做不好，不如先把自己的技术能力提高了，再去尝试。

事实也确实如此，软件架构的目的是在于实现功能的复用、质量与维护，而组织架构的本质是为了实现企业战略目标而进行的分工与协作的安排，他们是相通的：软件架构中的模块与分层思想与组织架构是完全一致的。

博客

今年的博客，刚开始还能勉强跟上去年的节奏，但是下半年受工作内容影响，几乎放弃了更新，不过最终还是咬牙更新了几篇。

但是，我陷入了为了创作而创作的陷阱，因为心境受到了影响：我开始介意读者对我的想法，我的文章写的内容会不会太浅薄了？这个技术知识现在才知道，会不会被认为没有实力？有时候好不容易有了灵感，但是写了一版后觉得深度不够，发出去会好丢脸，就放在草稿箱里面，想着之后去完善，但是每次看草稿箱就会觉得头大，所以最终的结果就是一直吃灰了。

当我回顾这个博客最开始的那些「幼稚文章」，那时候的心境与如今完全不能相比，当时我可以对那时所在的公司流程指指点点，对领导也敢当面顶撞，对手上接手的历史代码嗤之以鼻，随便一个小知识我就敢写文章来总结。但随着经验与知识的增加，我知道了我是那么的渺小与无知，天外有天，人外也总是有人，如今已经没了那种锐气，因为我成了当初喷的对象了。

说实话，我一度想把当初那些「幼稚文章」删掉，只留下那些看起来还行的文章。不过我一直没有这么做，因为那些都是我成长的例证，删除便是否定曾经的自己，没有必要。

理财

今年的投资真是一滩烂泥，不过我觉着在今年的大环境下，目前保持不亏的状态就已经是不错了。话说回来，这也许是个可以贪婪的时候，毕竟市场总是会时高时低。

相信不少人跟我一样，会下决心在市场上涨的时候说等市场下跌到什么样的时候，自己就会立马入手，但是等市场真正跌的时候，反而不敢入手了，因为不知道它还会跌到什么程度，对不确定的恐惧会让自己畏首畏尾。然而，定投这件事情可以帮助自己克服这种情绪，并且，在下半年的时候我努力克服恐惧，又入手了一部分的代表国运的指数基金（我依然相信我们会有光明的未来）。

最后

感谢你的关注，新年快乐。

首发于 Github issues: https://github.com/xizhibei/blog/issues/182 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2022/01/03/summary-of-2021/

(MQTT Series) Part 3 - Publishing Subscribing and Topics

2021-12-11T16:09:19.000Z

Basic Concepts
Difference from Message Queues
Topic
Example
Finally

Following up on the last introduction (this blogger really drags out the updates :P), let’s discuss some basic concepts of MQTT.

Basic Concepts

In the very simple MQTT Hello World last time, we actually touched on a very important concept: publishing and subscribing.

It’s easy to recall from design patterns, indeed, MQTT fundamentally implements an architectural publish-subscribe pattern.

Let’s recall, where’s the benefit of the publish-subscribe pattern? Decoupling. If the observer pattern is a low coupling between sender and receiver, then the publish-subscribe pattern completely decouples them.

Difference from Message Queues

Then what comes to mind are the various message queues in distributed applications (such as ActiveMQ, RabbitMQ, RocketMQ, Kafka, etc.), and it’s easy to mistakenly think that they are similar, but their application scenarios and ranges are completely different.

First, it’s important to understand that MQTT is just an application layer protocol, comparable to the AMQP protocol in message queues, with MQTT Broker corresponding to various message queues.

Cloud message queue middleware communication protocols are more complex and do not need to consider complex network conditions, but MQTT is much simpler and requires less memory and network resources;
Cloud message queue middleware communication protocols need to store messages, which will be stored indefinitely without client subscriptions, serving purposes like message buffering and smoothing peaks and valleys, whereas MQTT does not store messages, directly discarding them if there are no subscribers;
MQTT clients will receive messages as long as they subscribe to a topic with data, but this is not necessarily the case with message queues, not only do the queues need to be created first, but in the case of multiple clients subscribing to the same queue, each message will be received by only one client;

At this point, they can actually be used in combination, such as devices transmitting data to servers via the MQTT protocol, then placing it into message queues for caching to prevent data loss if the server cannot process timely.

Speaking of which, actually, ActiveMQ supports MQTT, and RabbitMQ also supports MQTT, see more details in MQTT Adapter.

Topic

Topics in MQTT are easy to understand, you can think of them like paths in HTTP protocol or Linux, but you need to remove the first “root directory” because it represents an empty root directory in MQTT.

You can send any data to any topic if you have the permission, and you can also subscribe, but note three symbols:

‘+’ represents a single-level directory match, it can only be placed between directories, not combined with other characters;
1. Valid examples:
  1. a/b/c/+
  2. a/+/c
  3. a/+/c/+/e
2. Invalid examples:
  1. a/b/c+
  2. a+
  3. a/+b
‘#’ represents a multi-level directory match, it can only be the last part of a subscription topic, if there is content before it, it must have a ‘/‘, you can also think of it as subscribing to all topics with its preceding content as a prefix;
1. Valid examples:
  2. a/#
  3. a/b/c/#
2. Invalid examples:
  1. a#
  2. #a
  3. #/a/b
‘$’ is a reserved prefix for internal topics, even if you subscribe with a single ‘#’, the Broker will not send them to you unless you explicitly subscribe, like the common $SYS topics;

Additionally, aside from testing, try not to subscribe to the ‘#’ topic, as it’s likely to cause problems when the client sends too much data.

Example

Before continuing, it’s best to set up your own local test Broker to avoid interference from other people’s messages on public servers.

Below, we’ll use Go as an example to demonstrate message publishing and receiving.

The most commonly used library currently is paho.mqtt.golang, which can be obtained directly by using:

1	go get github.com/eclipse/paho.mqtt.golang

As an MQTT client, the first thing to do is establish a connection.

opts := mqtt.NewClientOptions().
  AddBroker("tcp://localhost:1883").
  SetClientID("test-client-id")

c := mqtt.NewClient(opts)
if token := c.Connect(); token.Wait() && token.Error() != nil {
  panic(token.Error())
}

defer c.Disconnect(250)

time.Sleep(time.Second)

In the example above, we established a connection with the simplest options and disconnected after a second. If you’re interested in the options here, you can see MQTT Client options, where the default options are clear at a glance.

Next is publishing and subscribing, below is a very simple example:

{
    token := c.Subscribe("testtopic/#", 0, func(c mqtt.Client, m mqtt.Message) {
fmt.Println(string(m.Payload()))
})
    token.Wait()
    if token.Error() != nil {
   fmt.Println(token.Error())
   os.Exit(1)
    }
}

{
    token := c.Publish("testtopic/123", 0, false, "Hello world")
    token.Wait()
}

time.Sleep(10 * time.Second)

Alternatively, you can also try linking publishing and subscribing as mentioned in the first article, such as sending data on the program and receiving on the desktop client, and vice versa.

Finally

In this introductory article, we omitted connection parameters, as well as QoS and Retained two parameters during publishing and subscribing, which are very important details. They will appear in future articles (rest assured, we will let your descendants notify you of updates 🙈).

Originally posted on Github issues: https://github.com/xizhibei/blog/issues/181, feel free to Star and Watch

This article is licensed BY-NC-SA
Author: 习之北 (@xizhibei)
Original link: https://blog.xizhibei.me/en/2021/12/11/mqtt-3-sub-pub-and-topics/

【MQTT系列】（三）发布、订阅与主题

2021-12-11T16:09:19.000Z

基本概念
与消息队列的区别
Topic
例子
最后

接着上次的简介（这个博主真会拖更 :P），我们来说说 MQTT 的一些基本概念。

基本概念

在上次非常简单的 MQTT Hello World 中，我们其实就已经涉及到了一个非常重要的概念：发布与订阅。

想象大家很容易想起的，便是设计模式里面的发布订阅模式，确实，本质上 MQTT 实现的，就是架构上的发布订阅模式。

让我们回想下，发布订阅模式的好处在哪里？解耦。如果说观察者模式是发送方与接收方的低耦合，那发布订阅模式是两方的完全解耦了。

与消息队列的区别

而随后想起的便是各种分布式应用里面的各种消息队列中间件了（比如 ActiveMQ、RabbitMQ、RocketMQ、Kafka 等），我们很容易理解错误的地方在于，认为他们两个是一类，但是它们应用的场景与范围完全不一样。

首先，需要明白的是 MQTT 只是一个应用层的协议，与之可以对比的是消息队列中的 AMQP 协议，MQTT Broker 则对应各种消息队列。

云端的消息队列中间件通信协议更复杂，并且不需要考虑复杂的网络条件，但是 MQTT 则简单很多，对内存、网络的资源要求更低；
云端的消息队列中间件通信协议需要储存消息，没有客户端订阅的话，会一直储存，用来达到暂存消息、削峰填谷的目的，但是 MQTT 则不需要存储，遇到客户端没有订阅的情况，就会直接丢弃；
MQTT 客户端只要订阅了有数据的主题，都会收到，但是消息队列则不一定，不仅队列需要先创建，而且在多个客户端订阅同一个队列的情况下，每个消息只会由一个客户端收到；

说到这里，其实他们可以配合起来使用，比如设备通过 MQTT 协议将数据传送至服务器后，放到消息队列进行缓存，防止服务器无法及时处理而丢失数据。

话说回来，其实 ActiveMQ 支持 MQTT， RabbitMQ 也支持 MQTT，详细情况请看 MQTT Adapter。

Topic

MQTT 里面的 Topic 很容易理解，可以把它与 HTTP 协议或者 Linux 中的路径来对待，但是需要把第一个 “根目录” 给去掉，因为这在 MQTT 中代表一个空的根目录。

你可以在有权限的情况下，发送任意数据到任何 topic，也可以订阅但是需要注意三个符号：

‘+’ 表示匹配配单级目录，它只能放在相邻目录，即不能与其它字符组成一个目录；
1. 合法的例子：
  1. a/b/c/+
  2. a/+/c
  3. a/+/c/+/e
2. 不合法的例子
  1. a/b/c+
  2. a+
  3. a/+b
‘#’ 表示匹配多级目录，它只能是订阅主题的最后部分，前面如果有内容，则必须有一个 ‘/‘，你也可以理解为订阅含有它前面内容作为前缀的所有主题；
1. 合法的例子
  2. a/#
  3. a/b/c/#
2. 不合法的例子
  1. a#
  2. #a
  3. #/a/b
‘$’ 这是保留的内部主题前缀，即使你用单独一个 ‘#’ 去订阅，Broker 也不会给你发送，必须要明确订阅后才会收到，比如常见的 $SYS 主题；

另外需要提一句，除了测试，尽量不要订阅 ‘#’ 的主题，当客户端发送数据量太大时，大概率会出问题。

例子

在继续之前，你最好是搭建一个自己的本地测试 Broker，这样的话，可以尽量避免被公共服务器上面，其他人的消息干扰。

下面我们以 Go 为例来说明消息发布与接收。

目前最常用的库是 paho.mqtt.golang，我们可以直接使用以下方式来获取。

1	go get github.com/eclipse/paho.mqtt.golang

作为 MQTT 客户端，第一件要做的时间，便是建立连接。

opts := mqtt.NewClientOptions().
  AddBroker("tcp://localhost:1883").
  SetClientID("test-client-id")

c := mqtt.NewClient(opts)
if token := c.Connect(); token.Wait() && token.Error() != nil {
  panic(token.Error())
}

defer c.Disconnect(250)

time.Sleep(time.Second)

在上面的例子中，我们用最简单的选项建立了连接，并且在一秒后断开了连接。如果对这里的选项感兴趣，可以看下代码 MQTT Client options，里面的默认选项也能一目了然。

然后，便是发布与订阅，下面便是一个非常简单的例子：

{
    token := c.Subscribe("testtopic/#", 0, func(c mqtt.Client, m mqtt.Message) {
fmt.Println(string(m.Payload()))
})
    token.Wait()
    if token.Error() != nil {
   fmt.Println(token.Error())
   os.Exit(1)
    }
}

{
    token := c.Publish("testtopic/123", 0, false, "Hello world")
    token.Wait()
}

time.Sleep(10 * time.Second)

或者，你也可以按照第一篇文章里面的内容，尝试联动下发布与订阅，比如程序上发送数据，在桌面客户端中接收，反之亦然。

最后

在这次的入门篇里面，我们忽略了连接时的参数，也忽略了发布订阅时的 QoS 以及 Retained 两个参数，这些都是非常重要的细节，它们将会在之后的文章中出现（放心，会让你们的孙辈们通知你们更新的 🙈 ）。

首发于 Github issues: https://github.com/xizhibei/blog/issues/181 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/12/11/mqtt-3-sub-pub-and-topics/

(MQTT Series) Part 2 - Setting Up a Broker

2021-10-31T12:17:30.000Z

Mosquitto
P.S.
Ref

Another hiatus, two months. 🙈

In my last introduction, I briefly mentioned how to use a public Broker for testing. Obviously, you can’t use a test server as a production environment server; you need one of your own.

Mosquitto

Mosquitto is arguably the most famous open-source MQTT Broker, with just enough functionality. Some advanced features like permission management require the installation of plugins, or even custom plugin development to extend its capabilities.

It also offers a public Broker for testing: https://test.mosquitto.org/

Installing it is very straightforward, just install the appropriate package, for example, on Mac brew install mosquitto, and on Linux sudo api install mosquitto. If you prefer Docker, the official image is eclipse-mosquitto. I’ll skip the running details and focus mainly on its configuration¹:

Listening on the default unencrypted port 1883:

1	listener 1883 0.0.0.0

If you don’t want to configure user password login, here you can configure to allow anonymous connections, meaning no user password:

1	allow_anonymous true

But if you configured to disallow anonymous access, then you need to set up username and password. The user password in this file can be configured using the tool provided by mosquitto: mosquitto_passwd mosquitto/config/pwfile username, and then follow the prompt to enter the password.

Additionally, you need to add this line in the configuration file:

1	password_file /mosquitto/config/pwfile

Furthermore, if you need to restrict permissions for each user, you need to configure an ACL:

1	acl_file /mosquitto/config/aclfile

This configuration is simple, it supports three syntaxes:

topic [read|write|readwrite|deny] , this can set permissions for anonymous client topics;
user , this is used in conjunction with topic permissions;
pattern [read|write|readwrite] , this can be used for individual user permissions, where can contain %c representing the logged-in Client ID and %u representing the username;

Here’s an example:²

Allow anonymous users to read all user-level topics:

1 2	topic read # topic read $SYS/broker/messages/#

Allow user ‘web’ to read all topics:

1
2
3

user web
topic read #
topic read $SYS/#

Clearly, this level of permissions only satisfies the most basic requirements. If you need to integrate with your platform to implement dynamic login authentication, you would need to use an auth_plugin. One officially recommended plugin is mosquitto-go-auth.

Clustering

Mosquitto itself does not support cluster deployment, but it can be implemented through the backend, see MQTT server support for details.

TLS Certificates

With increasing national requirements for privacy protection, encrypted transmission is becoming an increasingly important component, meaning all personal information transmission must be encrypted.

For MQTT, HTTPS certificates can be used because fundamentally, they are both TLS certificates and thus can be applied to MQTT as well.

If you use a certificate issued and signed by an authoritative CA, simple configuration would be:

1
2
3

listener 8883 0.0.0.0
certfile /path/to/certs/example.com.cer
keyfile /path/to/certs/example.com.key

But if using a self-signed certificate, the client connection process is a bit more complex, requiring proper CA configuration.

Like HTTPS mutual authentication, MQTT can also use mutual authentication. In this case, when a client connects, the server will require the client to provide a certificate and use your configured CA certificate to verify the client certificate’s signature.

1 2	cafile /path/to/certs/ca.pem require_certificate true

Testing

Once setup is complete, you can perform simple tests using a client. However, after a basic test, most people might think it’s ready for full use, but you can do more to ensure reliability.

For instance, you might estimate the number of client connections you need, the number of messages, concurrency, and message sizes to get a general range, and then perform benchmark testing.

I used the MQTT benchmarking tool, which easily tests the stress your newly setup Broker can handle.

It’s fairly user-friendly; if you’ve used HTTP benchmarking tools like Apache Bench, you’ll quickly get the hang of it. For example, from its homepage, a typical scenario is 10 clients, each sending 100 consecutive messages:

1	mqtt-benchmark --broker tcp://broker.local:1883 --count 100 --clients 10 --qos 1 --topic house/bedroom/temperature --payload {\"temperature\":20,\"timestamp\":1597314150}

In the output, you’ll see the results of the test and can identify potential issues that were not apparent during setup. Although spending an extra hour or two might seem wasteful, discovering these issues after some usage would cost much more than these additional hours. Plus, I believe the difference between engineers isn’t just in speed but in such professional diligence.

P.S.

You could also consider using a paid service to avoid maintenance labor and server costs. For instance, you could choose commercial Brokers like China’s EMQX and international HiveMQ. They support both commercial and open-source versions, and you can either set up on your own servers or use their provided servers. Being commercially supported, they offer more robust features and generally a better experience.

Ref

Originally posted on Github issues: https://blog.xizhibei.me/en/2021/08/29/mqtt-1-intro-hello-world/, feel free to Star and Watch

This article is licensed BY-NC-SA
Author: 习之北 (@xizhibei)
Original link: https://blog.xizhibei.me/en/2021/10/31/mqtt-2-mosquitto-broker-setup/

【MQTT系列】（二）Broker 搭建

2021-10-31T12:17:30.000Z

Mosquitto
P.S.
Ref

又停更了，两个月。 🙈

我在上次的简介里简单提到过，如何用公共的 Broker 来做测试，显然，你不能用测试服务器当做生产环境的服务器，我们还是需要一个属于自己的服务器。

Mosquitto

Mosquitto 可谓是开源届最有名气的 MQTT Broker 了，只是功能上勉强够用，有些如权限管理之类的高级功能需要自己安装插件，或者干脆自己的实现插件来拓展。

它还提供了一个公共的 Broker 可以用来测试： https://test.mosquitto.org/

它的安装非常简单，直接安装相应的程序即可，比如在 Mac 中 brew install mosquitto，而在 Linux 中 sudo api install mosquitto。如果想用 docker 也是类似，目前官方的镜像是 eclipse-mosquitto，运行细节，这里掠过，主要说说它的配置¹：

听默认的 1883 非加密端口：

1	listener 1883 0.0.0.0

如果不想配置用户密码登录，这里就可以配置允许匿名连接，也就是没有用户密码：

1	allow_anonymous true

但如果配置了不允许匿名，那么需要配置用户名密码。这个文件里面的用户密码可以用 mosquitto 提供的工具来配置：mosquitto_passwd mosquitto/config/pwfile username，然后按照提示输入密码即可。

然后，我们还需要在配置文件中加入这么一行：

1	password_file /mosquitto/config/pwfile

另外，如果需要对每个用户进行权限限制，则需要配置 acl：

1	acl_file /mosquitto/config/aclfile

这个配置也很简单，它支持三种语法：

topic [read|write|readwrite|deny] ，这个可以针对匿名客户的 topic 权限；
user ，这个是与 topic 权限联合使用；
pattern [read|write|readwrite] ，这个可以针对单个用户来做权限划分了，其中的可以包含 %c 代表登录的 Client ID 以及 %u 代表登录的用户名；

如下便是例子：²

允许匿名用户读取所有用户级别的 topic：

1 2	topic read # topic read $SYS/broker/messages/#

允许用户 web 读取所有 topic

1
2
3

user web
topic read #
topic read $SYS/#

显然，这种权限只能满足最低级别的要求，如果需要跟你们的平台整合起来，实现动态登录认证，则需要用到 auth_plugin，目前看到官方推荐的一个插件是 mosquitto-go-auth 。

集群

mosquitto 本身并不支持集群部署，但是可以通过后端来实现，详情请见 MQTT server support。

另外，由于我目前也没有搭建过集群，这里就不多说了。

TLS 证书

随着国家对隐私权的保护等级要求越来越高，加密传输是其中越来越重要的一个环节，也就是所有的个人信息传输必须加密。

其实对于 MQTT 来说，我们可以用 HTTPS 证书，因为本质上他们是一样的，都是 TLS 证书，因此也可以用在 MQTT 协议上。

如果你用经过权威 CA 签名颁发的证书，那就简单配置如下即可：

1
2
3

listener 8883 0.0.0.0
certfile /path/to/certs/example.com.cer
keyfile /path/to/certs/example.com.key

但如果要用自己签发的证书，客户端连接的时候就会稍稍复杂些，需要配置好 ca 才能连接。

另外，跟 HTTPS 双向认证一样，MQTT 也可以采用双向认证，这种情况下，当客户端连接的时候，服务器便会要求客户端提供证书，并且用你配置的 ca 证书来验证客户端证书的签名。

1 2	cafile /path/to/certs/ca.pem require_certificate true

测试

好了，当我们搭建完毕，就可以使用客户端进行简单的测试了。不过，可能大多数人简单测试后，都会认为已经可以正常投入使用了，不过，其实你可以做的更完善一些。

比如，你可以先预估下你需要连接的客户端数量，然后是消息的数量、并发数以及消息大小，得出个大概范围，再进行基准测试。

这里我用的是 MQTT benchmarking tool，它可以很方便测试出，你现在搭建完毕的 Broker 能承受多大的压力。

它本身还是比较容易使用的，如果你使用过 HTTP 接口的 Apache bench 之类的压测工具，就能很快上手。比如，它的主页上的一个例子便是，以 10 个客户的，每个客户端连续发送 100 条消息：

1	mqtt-benchmark --broker tcp://broker.local:1883 --count 100 --clients 10 --qos 1 --topic house/bedroom/temperature --payload {\"temperature\":20,\"timestamp\":1597314150}

最后，在输出中，你能看到测试后的统计结果，也能提前发现一些搭建过程中隐藏的问题。虽然这多出来的一两个小时可能在你看来比较浪费，但是这些问题如果在使用了一段时间后才被发现的话，你付出的成本就会远远高于你多花的一两个小时了。而且我相信，工程师之间的差距，不仅仅在于做事快慢，更会在这些专业素养上体现出来。

P.S.

其实你也可以考虑使用付费的服务，免去自己出维护的人力以及服务器成本。比如可以选择一些商业性质的 Broker，比如国内的 EMQX 以及国外的 HiveMQ，它们既支持商业版本，也有开源版本，既可以自己在服务器上搭建，也可以直接用他们提供的服务器。毕竟是商业支持，功能更完善，体验也会比较好。

Ref

首发于 Github issues: https://github.com/xizhibei/blog/issues/180 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/10/31/mqtt-2-mosquitto-broker-setup/

(MQTT Series) Part 1 - Introduction: Hello World

2021-08-29T15:43:27.000Z

Preface
Introduction to MQTT
Hello World
Ref

Preface

Over the past two months, I’ve practically stopped updating, although I’ve mentioned before that updates would not be timely, but it’s the first time it’s been delayed this long. I could excuse it by saying I’m busy, especially since my weekends spent on browsing Bilibili have also decreased significantly. This has led to another predicament: I now have material to write about, but these materials are only available when I’m busy, leaving me no time or energy to sort them out.

Nevertheless, the blog must go on, otherwise the accumulated experience and knowledge will remain unorganized.

Yes, I’m starting another series. On one hand, articles in a series appear more systematic and can be more helpful to beginners. On the other hand, it saves me from having to ponder too much on what to write next (which seems to be the real purpose).

Introduction to MQTT

MQTT is a very simple protocol, originally designed in 1999 by two IBM engineers, Andy Stanford-Clark and Arlen Nipper, for monitoring oil pipelines. It was designed for scenarios with limited bandwidth, lightweight, and very low power consumption. At that time, satellite bandwidth was just so small and painfully expensive.¹

In modern society, although the cost of bandwidth has greatly decreased, there are still many scenarios where this protocol is needed, such as in smart homes (still part of IoT). Many small IoT devices rely on a button cell battery to function for years, making MQTT very suitable as an application layer transmission protocol.

In summary, MQTT is a client-server architecture publish-subscribe messaging transmission protocol. It is very lightweight, open, and simple, making it very easy to implement. These characteristics make it highly suitable for fields like machine-to-machine (M2M) and Internet of Things (IoT), which are limited by small memory and narrow bandwidth.²

IBM submitted version 3.1 to OASIS in 2013, and in 2014, OASIS made minor changes and released version 3.1.1.

In 2019, OASIS added many features to MQTT, such as better error handling, shared subscriptions, message content types, etc., and upgraded to version 5. These features will be discussed in dedicated chapters later on.

Hello World

First, you need an MQTT Broker. Install mosquitto … oh? You don’t know what that is? Okay, let’s try a simpler approach.

First, we can use some public ones, like China’s EMQ (Hangzhou Yingyun Technology Co., Ltd.) provides broker.emqx.io (I must advertise for domestic software here, their MQTTX client is the most user-friendly I’ve used so far, and the Broker’s features are also very powerful, I plan to specifically introduce server setup in a separate article).

Then, their MQTTX client, implemented in Electron, supports all platforms, just download and use.

Open the MQTTX client, let’s start a simple test.

Click the + on the left sidebar to create a connection (this +, I think does not conform to interaction logic, as a creation button it should be a different level from other buttons, better placed together with new group creation);
A creation page will then pop up, fill in a name randomly, and click connect. If there are no network issues, you should be able to connect successfully (see, they know you’re lazy, all the details like Broker address and port are filled in for you, which is also very valuable for us making tech products, on how to let users start using the product with the lowest cost);
Now, let’s create a subscription, click add subscription on the page, in the popup dialog, fill in a somewhat random topic like test/907839342134 to avoid conflicts with others, as this is a public Broker, then click confirm.
Finally, let’s publish a message. In the bottom left corner, there’s an input box prompting you to enter a Topic, we enter test/907839342134, and in the content box below it, enter {"hello": "world"}, click the paper airplane below, and after sending, you will see that you have received the message you sent to yourself.

That’s it for now, a very simple introduction. In the next installments, I will introduce MQTT concepts, principles, and practical applications in more detail.

Ref

Originally posted on Github issues: https://github.com/xizhibei/blog/issues/179, feel free to Star and Watch

This article is licensed BY-NC-SA
Author: 习之北 (@xizhibei)
Original link: https://blog.xizhibei.me/en/2021/08/29/mqtt-1-intro-hello-world/

【MQTT系列】（一）简介之 Hello World

2021-08-29T15:43:27.000Z

说在前面
MQTT 简介
Hello World
Ref

说在前面

最近两个月，我几乎是停更了，虽然之前提到过不会及时更新了，但是拖了那么久还是第一次。我当然可以用忙来解释，毕竟我周末用来刷 B 站的时间也少了好多。所以就陷入了另一个窘迫的地步：现在有素材可以写，但是这些可以拿来写的素材却是我忙起来之后才能得到，导致没有足够的精力时间去整理这些素材。

好了，话虽如此，博客还是要继续写的，不然积累的经验与知识又会不成体系。

是的，我又准备开个系列了，一方面，系列的文章会显得成体系一些，更能帮助一些刚刚入门的同学，另一方面，这样的话接下来不至于冥思苦想该写什么（好像这才是真实目的）。

MQTT 简介

MQTT 是非常简单的协议，最初由 IBM 的两位工程师 Andy Stanford-Clark 以及 Arlen Nipper 在 1999 年为监控输油管道设计的。它被设计的场景就是有限的带宽、轻量级以及很小的耗电量，在那个时候，卫星宽带就是那么小，且贵得让人肉疼。¹

到了现代社会，虽然带宽的成本大大降低，但是仍有大量的场景需要用到这种协议，比如，智能家居（其实还是物联网）。许多的小型物联网设备靠着一块纽扣电池需要工作几年的时间，因此 MQTT 非常适合用来当作应用层的传输协议。

总结来说，MQTT 就是一个服务端、客户端架构的发布订阅消息传输协议。它非常轻量、开放、简单，设计上就非常容易实现。这些特性让它非常适合在如机器与机器 (M2M) 以及物联网(IoT) 这样受限于小内存以及窄带宽的领域发挥作用。²

IBM 在 2013 年将 3.1 版本提交到了 OASIS，而在之后的 2014 年，OASIS 加了很小的改动，发布了 3.1.1 版本。

2019 年，OASIS 给 MQTT 增加了很多特性，比如更好的错误处理、共享订阅、消息内容类型等等，版本也升级到了 5，之后也会用专门的章节来说说这些特性。

Hello World

首先，你需要有一个 MQTT Broker。首先需要安装 mosquitto …… 嗯？你不知道这是什么？好吧，那就换个更简单的做法。

首先，我们可以用一些公共的，比如国内的 EMQ（杭州映云科技有限公司）提供的 broker.emqx.io（这里必须给国产软件打广告，他们提供的 MQTTX 客户端是我目前用的最顺手的，Broker 的功能也非常强大，我计划专门出一篇来介绍服务端的搭建）。

然后，也是他们家提供的 MQTTX 客户端，用 Electron 实现的，各平台都支持，直接下载即可。

打开 MQTTX 客户端，我们开始一次简单的测试。

点击左侧侧边栏的 + ，创建一个连接（这个 + ，我认为有点不符合交互逻辑，作为一个创建按钮跟其它的按钮是不同级别的，放在连接列表里面，与新建分组放一起更合理）；
这时候，会跳出一个创建页面，然后随便填一个名称，点击连接即可，如果没遇到网络问题的话，就可以顺利连接上（你看，它们知道你懒，Broker 地址、端口之类的全部帮你填好了，这点也非常值得做技术类产品的我们学习，如何让用户一开始以最低的成本来使用产品）；
现在，我们来创建一个订阅，点击页面中的添加订阅，在弹出的对话框中，填一个随机一点的 topic，比如 test/907839342134，毕竟这是公共的 Broker，避免跟其它人冲突，然后点击确定即可。
最后，我们来发布一个消息，在左下角，有个输入框提示输入 Topic，我们就输入 test/907839342134，在它下面的内容框里面，输入 {"hellow": "world"}，点击它更下面的纸飞机，发送后，你就能看到，接收到了自己给自己发送的消息。

好了，这次就先到这，非常简单的介绍，接下来会尽可能详细介绍 MQTT 的一些概念、原理以及实践应用。

Ref

首发于 Github issues: https://github.com/xizhibei/blog/issues/179 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/08/29/mqtt-1-intro-hello-world/

Git 之消失的文件

2021-07-11T15:15:16.000Z

今天来跟大家分享一个有趣的事情，在开始之前，想问问大家如何在 Git 中，如何在 Git 项目中，让一个文件消失？或者说，对 Git 来说不可见？

似乎很简单对不对？用 .gitignore 文件不就可以了。对，你说的没错，只是除了这个方法呢？

演示

接下来如果你如果想尝试这个方法，请别在你的真实项目中操作，搞坏了我可没法负责。

1
2
3

mkdir test_git_repo
cd test_git_repo
git init

到这里没什么奇怪的对么，好，在 test_git_repo 这个目录里面继续。

1
2
3

mkdir hidden_path
cd hidden_path
git init

然后在 hidden_path 中创建一个提交。

1
2
3

echo 1 > 1.txt
git add .
git commit -m "Init [hidden_path]"

回到上层目录，同样创建一个提交。

1
2
3

cd .. # test_git_repo
git add .
git commit -m "Init [test_git_repo]"

好了，关键的一步来了，把 hidden_path 中的 .git 文件夹删掉。

1	rm -rf hidden_path/.git

最终，我们的魔法操作来了：

1 2	echo test > hidden_path/test.txt echo test > test.txt

当你用 git status，你会发现这样的输出：

On branch masterUntracked files:  (use "git add ..." to include in what will be committed)        test.txtnothing added to commit but untracked files present (use "git add" to track)

即使进到 hidden_path 去查看 git status 也是一样。奇怪了，hidden_path/test.txt 这个文件哪里去了？

而当你用 ls 查看的时候，却发现那个文件还是存在的，但是它却在当前的 git 项目中「消失」了。你也可以测试看看，无论你往这个文件夹里面写任何文件，它都会「消失」。

好了，接下来，让我们把消失的文件找回来。

1 2	git rm --cached hiddle_path git add .

这时候再来看 git stauts，你就会发现消失的文件回来了：

On branch masterChanges to be committed:  (use "git reset HEAD ..." to unstage)        deleted:    hiddle_path        new file:   hiddle_path/1.txt        new file:   hiddle_path/test.txt

原理

相信熟悉 git 的同学已经看出来了，就是因为 git submodule 。

其实这个「小技巧」是我在处理一个不那么熟悉 git 的同事问题时候发现的，当时也是很奇怪，检查了很多次有没有把那个文件夹加入到 .gitignore 里面去，在反复查看好多遍，并且确认整个项目中只有这一个 .gitignore 文件之后，才考虑到是 git submodule 的问题。因为我发现了同事提交了一个空文件夹，大家应该知道，git 是不支持提交空文件夹的，而且查看 git 历史也会发现这个问题。

问了同事才明白，同事不小心把外部依赖拷贝进项目并且提交了，他这样做相当于在主项目 git 中添加了一个 submodule 文件，这个文件在文件系统中会被替换成一个文件夹。本来如果他继续提交的话，我们也会很容易发现这是个 submodule，但是同事接下来的的骚操作就是他直接把 submodule 的 .git 删掉，然后又提交一次，于是结果就是这个 submodule 文件会被当前的主项目 git 给忽略了，因为它的 file mode 依然是 160000，还是会被 git 当作 submodule 处理。1

这里提一下：
file mode 160000 在 git 中的意义是：git 会认为你在记录一个提交，作为另一个项目的目录入口，而不是一个文件夹或者文件。2

因此，删掉 submodule 的 .git 目录后，对应的 commit 永远不会改变，也就相当于这个目录下的所有文件都会被 git 忽略。

Ref

首发于 Github issues: https://github.com/xizhibei/blog/issues/177 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/07/11/the-missing-files-in-git/

Golang Heap 分析

2021-06-27T09:24:27.000Z

通常，我们只会在两种情况下，会去分析一个程序的表现：

你遇到了问题；
你闲的没事干；

好了，开个玩笑，其实研究程序的性能对于每一个工程师来说，都很重要，我甚至可以这么说：这是一个工程师的必备技能。

下面来说说，我们如何去研究 Golang 程序的性能问题。

介绍

之前我也在穷人的程序性能分析器介绍过 C++ 的性能分析，以及很久之前也介绍过 Node.js 性能分析之火焰图，那么今天就轮到 Golang 了。

相比之下，Golang 的性能分析工具 pprof 可谓是豪华了，它内建支持以下几种分析：

heap：当前内存中所有存活对象的采样（几乎是带 GC 语言的必备了），可以用来分析内存问题；
profile：与 heap 相对的，是 CPU 的采样，可以用来分析程序的耗时瓶颈；
goroutine：所有当前 goroutine 的栈追踪；
allocs：所有过去的内存申请采样；
threadcreate：系统层面的线程栈追踪；
block：同步原语上的堵塞的栈追踪；
mutex：所有竞争关系的 mutex 栈追踪；
trace：当前程序执行情况的追踪；

凭借良好的工具带来的调试体验也是非常棒的，整个过程只需几个简单的命令，你就能进行分析个大概了。不过受限于篇幅，以及之前也多次提到过 CPU 的分析，因此今天只说说如何分析内存，也就是 Heap。

Heap 的使用一般是内存泄露，或者是你想优化内存的使用。

内存泄露与内存优化

对于内存泄露，这类问题往往难以发现与分析，因为需要监控 Go 程序本身，或者看 Linux 的 dmesg 里面的 OOM 记录才能发现。

1	dmesg \| grep oom-killer

当你发现一次 OOM 记录时，你就要考虑给本身忽略的监控加上了，因为这种问题会复现的（但是往往难以在自己的机器以及预发布环境中复现）。如果不知道是是什么监控参数，你可以看监控数据，简单定一个比例，比如当你的程序初始化的时候占用 10% 的内存，那么一旦 Go 程序的内存使用达到一定比例比如机器内存 50% 时，就要马上进行告警了，你也可以进场分析了。

不过，也不用大费周章，因为你只需用几行简单的代码，就能给你的 Go 程序增加 pprof 支持，不会影响程序的运行，并且是支持 Web 访问的：

import (
  "net/http"
  _ "net/http/pprof"
)

func main() {
  go func() {
    http.ListenAndServe("localhost:8080", nil)
  }()
}

然后，使用 go 提供的 pprof 工具就能进行分析了，比如对于内存泄露问题：

1	go tool pprof http://localhost:8080/debug/pprof/heap

就会进入 pprof 的 REPL，在这里用一些简单的命令你就能定位问题所在。不过为了更好的分析体验，有两个地方需要注意：

如果你的编译参数重加了 -trimpath 以及 -ldflag "-s -w"，最好去掉，不然会影响到你定位问题；
在编译机器上执行这条命令，这样可以直接分析到每一行代码的级别；

接下来的我用的实际例子是属于内存使用分析优化，由于还没遇到 OOM，先用我遇到的一个小例子来代替，因为两个问题的分析方法是一致的。

如何使用 pprof

第一步，先看 top10：

(pprof) top10Showing nodes accounting for 3759.91kB, 100% of 3759.91kB totalShowing top 5 nodes out of 24      flat  flat%   sum%        cum   cum% 2345.25kB 62.38% 62.38%  2345.25kB 62.38%  io.ReadAll  902.59kB 24.01% 86.38%   902.59kB 24.01%  compress/flate.NewWriter         0     0%   100%   902.59kB 24.01%  bufio.(*Writer).Flush         0     0%   100%   902.59kB 24.01%  compress/gzip.(*Writer).Write(以下省略)...

这里需要提示下，flat 表示目前最右边的调用仍旧没有被释放的空间，而 cum 表示累计 (cumulative) 申请的空间。top 的默认排序是按照 flat 排序，你可以通过参数来切换排序方式：top10 -cum 。

如果在这里看不到什么异常的地方，那么还有别的地方可以看，因为 Golang heap 的采样统计会区分成四个部分：

alloc_objects：申请过的对象
alloc_space ：申请过的空间
inuse_objects：正在使用的对象
inuse_space：正在使用的空间（默认）

你可以通过类似于 sample_index=inuse_objects 的命令来切换。

在我的这个例子中，由于我这里确定第一项 io.ReadAll 为什么会在我的程序中，但是第二项的 compress/flate.NewWriter 让我觉得有异常，但是不知到是哪里调用的。因此，在确定异常项后，第二步可以通过 tree 来进一步确认调用链条：

(pprof) tree 10 compressActive filters:   focus=compressShowing nodes accounting for 2354.01kB, 29.36% of 8018.09kB totalShowing top 10 nodes out of 11----------------------------------------------------------+-------------      flat  flat%   sum%        cum   cum%   calls calls% + context              ----------------------------------------------------------+-------------                                         2354.01kB   100% |   compress/gzip.(*Writer).Write 1805.17kB 22.51% 22.51%  2354.01kB 29.36%                | compress/flate.NewWriter                                          548.84kB 23.32% |   compress/flate.(*compressor).init----------------------------------------------------------+-------------                                          548.84kB   100% |   compress/flate.(*compressor).init (inline)  548.84kB  6.85% 29.36%   548.84kB  6.85%                | compress/flate.(*compressor).initDeflate----------------------------------------------------------+-------------                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.MetricFamilyToText.func1         0     0% 29.36%  2354.01kB 29.36%                | bufio.(*Writer).Flush                                         2354.01kB   100% |   compress/gzip.(*Writer).Write----------------------------------------------------------+-------------                                          548.84kB   100% |   compress/flate.NewWriter         0     0% 29.36%   548.84kB  6.85%                | compress/flate.(*compressor).init                                          548.84kB   100% |   compress/flate.(*compressor).initDeflate (inline)----------------------------------------------------------+-------------                                         2354.01kB   100% |   bufio.(*Writer).Flush         0     0% 29.36%  2354.01kB 29.36%                | compress/gzip.(*Writer).Write                                         2354.01kB   100% |   compress/flate.NewWriter----------------------------------------------------------+-------------                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.NewEncoder.func7         0     0% 29.36%  2354.01kB 29.36%                | github.com/prometheus/common/expfmt.MetricFamilyToText                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.MetricFamilyToText.func1----------------------------------------------------------+-------------                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.MetricFamilyToText         0     0% 29.36%  2354.01kB 29.36%                | github.com/prometheus/common/expfmt.MetricFamilyToText.func1                                         2354.01kB   100% |   bufio.(*Writer).Flush----------------------------------------------------------+-------------                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.encoderCloser.Encode         0     0% 29.36%  2354.01kB 29.36%                | github.com/prometheus/common/expfmt.NewEncoder.func7                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.MetricFamilyToText----------------------------------------------------------+-------------                                         2354.01kB   100% |   xizhibei-app/controllers/internal_rpc.(*SystemCtrl).GetMetrics         0     0% 29.36%  2354.01kB 29.36%                | github.com/prometheus/common/expfmt.encoderCloser.Encode                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.NewEncoder.func7----------------------------------------------------------+-------------         0     0% 29.36%  2354.01kB 29.36%                | xizhibei-app/controllers/internal_rpc.(*SystemCtrl).GetMetrics                                         2354.01kB   100% |   github.com/prometheus/common/expfmt.encoderCloser.Encode----------------------------------------------------------+-------------

现在，我们基本可以确认是在我实现的 GetMetrics 中，处理 prometheus 客户端的序列化压缩时候出了点小问题（但是还没有到内存泄露的地步）。另外，这里你也可以加个第三步：用 list 加上关键词的命令来查看精确到每一行代码级别的分析。

定位到问题后，就是最后一步解决，我的解决方案是用 sync.Pool。在之前，我是直接使用 gzip.NewWriter 来压缩每次从 prometheus 中取出的指标文本，但是这样会造成 gzip 多次重复的内存申请以及初始化，所以当改用 sync.Pool 后，我的代码从：

1 2	buf := new(bytes.Buffer) gzipWritter := gzip.NewWriter(buf)

变为：

var (
gzipPool = sync.Pool{
New: func() interface{} {
return gzip.NewWriter(nil)
},
}
bufferPool = sync.Pool{
New: func() interface{} {
return new(bytes.Buffer)
},
}
)

...

gzipWritter := gzipPool.Get().(*gzip.Writer)
defer gzipPool.Put(gzipWritter)

buf := bufferPool.Get().(*bytes.Buffer)
defer bufferPool.Put(buf)

buf.Reset()
gzipWritter.Reset(buf)

我们可以写个 benchmark 来测试下：

goos: linuxgoarch: amd64cpu: Intel(R) Core(TM) i9-9820X CPU @ 3.30GHzBenchmarkEncode-20                          2422            504022 ns/op          851822 B/op        129 allocs/opBenchmarkEncodeWithSyncPool-20              7654            150188 ns/op           48799 B/op        108 allocs/op

可以看到，内存的 allocs 从 129 降到了 108。

好了，分析就暂时到这。

P.S.

对于大多数人来说，在网页上用鼠标点击分析问题更简单，因为目前 Go pprof 这个工具做到了一条龙服务，你可以直接在网页上看到调用图表以及火焰图（这里需要着重艾特下 C/C++，咱还能不能把调试体验做好点了）。

1	go tool pprof -http=:6000 http://localhost:8080/debug/pprof/heap

Go 会打开一个本地 6000 端口的网页，但如果你在云服务器上，你有两种选择：

用 wget 下载 heap 文件 wget http://localhost:8080/debug/pprof/heap，然后拷贝到本地进行分析；
用 ssh 代理 ssh -L 8080:127.0.0.1:8080 user@server；

Ref

首发于 Github issues: https://github.com/xizhibei/blog/issues/175 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/06/27/golang-heap-profiling/

像火箭科学家一样思考

2021-05-26T14:23:31.000Z

这本书在我看来，就是在教你如何创业。因为，创业成功的难度不亚于一次火箭发射，虽然还会有更难的探月、探火星、载人，只是，这个过程中的方法论都是一致的，都是由普通的人类在用科学的方法，将不可能变为可能。

事实上，在技术行业，似乎做出一件伟大的产品似乎也是不可能的，比如你能在现在想象我们国家能在十年后造出可以跟 ASML 高端光刻机吗？

同样，可能你也无法在多年前想象我们国家有了自己的高铁、盾构机、003 航母、歼 20 战斗机，等等。

将不可能变为可能

这本书的作者是是奥赞 · 瓦罗尔（Ozan Varol），一个前火箭科学家，美国俄勒冈州路易拉克大学法学院最年轻的终身教授。

整本书谈到的事情，其实就是如何将不可能变为可能。我们在工作中，肯定都会遇到当时认为不可能完成的事情，没有人会告诉你如何一步步去解决，如果这时候你能有书中告诉你的思维方式，你就完全有可能将不可能变为可能。首先就是绝不在一开始就承认不可能，起码需要去尝试，打破自己的固有认知，激发自己的创意，然后从一堆的创意材料中不断尝试、失败与总结，最终找出那个能点亮灯泡的钨丝。

对于创业的人来说，这种思维难能可贵，因为在他人看起来困难重重的事情，在你眼里却是充满机遇，你可以用火箭科学家的思维方式来打破不可能，重新定义现状，开辟新道路，打出一片江山来。

科学 “不仅仅是知识，更是一种思维方式”。

其实在小时候，老师问我们想成为什么的时候，好多的同学说要成为科学家。我小时候也是这么想的，只不过我认为的科学家可能就是火箭科学家了，因为那时候刚从书本上知道了我们国家在 1970 年发射过东方红一号卫星。等我长大了，没有成为火箭科学家，更没有成为科学家，成为了一名计算机工程师（好吧，就是程序员）。

不过你看，其实这两者有相同之处：我们都在用科学的手段解决问题、实现梦想。

自己的一些感悟与总结

接下来谈谈我从书中学到后，自己的几点感悟，涉及大量剧透。

拥抱不确定性

我们的本能让我们对确定性非常迷恋，因为这是自然选择的结果：进化心理学也告诉我们那些追求不确定的人在远古时间往往难以生存，所以他们的基因无法传递给下一代。

但是当我们能克服这种倾向，敢于冒险，机遇才会向你招手。

只有当我们敢于牺牲确定性答案，敢于冒险，敢于远离路灯的时候，才能真正实现突破。

美国的阿波罗登月计划，是在没有完全的准备下才开始，事实上：

肯尼迪发表演讲之时，与登月相关的许多技术标准甚至还没有制定出来，美国宇航员从未在宇宙飞船外工作过，宇宙飞船也从未在太空中进行过对接。

这幅场景，简直就跟老板说下周要看到某个巨复杂的功能一样，大家刚刚听到后，估计也是一脸懵，同样会跟 NASA 那帮科学家一样束手无策。但话说回来，如果你能担当起这个责任，拿出方案来告诉老板为什么不可以做，或者如何去实现、并且做成做好了，那么你解决问题的能力就会越来越高，当然，同样越来越高的还会有你的位置与薪资待遇。

只有当我们注意到一些微妙的线索时——数据有些问题，结论下得太快或流于表面，观察结果并不完全符合理论——旧模式才能给新模式让路。

前面说了那么多，但我们没法绕开的就是风险了，因为冒险就意味着有着很大的风险。这时候，我们就需要采取冗余和安全边际着两个工具了。

其实这就是所谓的高可用了，当你把程序部署到机器上去，它所面临的真实情况很可能就是你的测试用例所无法覆盖的，这时候就要用 Plan B 之类的冗余方式来保证高可用，不至于让程序再也无法启动，同时，安全边际就意味着你的服务能够承受较大的破坏，一个例子就是即使你 80% 的服务器都坏了，你依然能够用剩下 20% 的服务器来保证核心功能的正常使用。

另外，巴菲特与查理恐怕是最懂这个道理的人了，因为在他们价值投资的理念中，最重要的一条就是保证自己的投资标的安全边际足够大，或者说足够便宜，来保证他们的投资即使遇到股灾也不会损害到太多本金。

第一性原理

这句话被硅谷钢铁侠说出来后，一夜火遍大江南北，全球的科技圈都知道这句话了，其实它说的内容很简单，也就是回归本源。

每次革命性创新背后的要素原创性在于回归本源。

敢于质疑现在的每一个不合理之处，回归本源去思考来龙去脉。

作为一个软件工程师，当你遇到不合理的需求的时候，你会反驳吗？其实这种批判与质疑一切的思维方式，就是第一性原理：你完全可以在接到需求的那一刻，开始思考这种需求背后的需求，尽一切可能去了解真正的用户需求，从而能给出真正合理的解决方案，而不是在用户三天两变的口头需求下疲于应付。

用户不会知道他们想要 iPhone 这样的手机，只会在乔布斯发布后才会真正知道想要的是这样的手机。与此同时，诺基亚这样的传统手机厂商只会一次又一次将他们的功能机一次又一次优化，从来不会去质疑需求的合理性。

突破常规思维才能创新，努力跳出路径依赖：「别人就是这么做的」，这句话怕是当你提出问题时，太多的产品经理以及老板都会说的一句敷衍的话语。长久以来互联网领域的复制是如此简单而有效，导致大家互相抄袭，而且但凡有个创新的地方，没过几天就会被竞争对手抄袭，于是大家都逐渐忘记了当初为何那么做。

我们总以为同行和竞争对手知道的比我们多，我们往往喜欢复制粘贴他们的做法，尤其是在形势不明朗的情况下。
知识确实是个好东西，但知识的作用应该是给人们提供信息，而不是起约束作用；知识应该启发智慧，而不是蒙蔽心智。只有让现有的知识不断进化，我们的未来才能变得越发清晰。
不知不觉中，知识可能会让我们成为惯性的奴隶，而惯性思维只会产生常规结果。

其实，第一性原理背后，是变化的环境，当初看起来合理的方案时过境迁，我们需要回溯到过去，找到那个最初的问题，重新去思考，不要被过往的知识束缚。

「即飞即测」原则

这点其实告诉我们的是，在我们给出解决方案后，要及时在仿真环境中去测试。这个原则放到我们的软件工程里面，其实对应的就是各种各样的测试：单元测试、集成测试、e2e 测试、压力测试等等。但是，真正重头戏的还是放到线上预发布环境后的测试，因为那里是一个仿真环境，那里有与生产环境中非常类似甚至一致的用户测试数据，是我们放到生产环境前的最后一道关卡。

在正确的测试中，你的目标不是发现所有可以顺利进行下去的东西，而是发现一切有可能出错的东西，并找到极限点。

是否重视测试，是作为一个区分一个软件工程师是不是真正靠谱的标志，因为没有人能保证自己的东西一定不会出错，但是我们却可以通过各种测试方法来减少出错的可能。

倘若不进行系统测试，就可能产生无法预测的后果。产品出厂前的最后一刻，如果你要对产品做修改，却不重新测试整个产品，那你就要冒灾难性的风险

失败与成功相生相伴

对于失败，我们有太多太多的讨论，无论说失败是成功之母，还是失败是失败之父等等，都会有他们各自的理由。但是这本书作者认为的，要认为成功与失败这两者的界限很模糊，或者说同等重要。

每次失败都是一次宝贵的学习机会，每次失败都会暴露一个需要修正的缺陷，每次失败之后，我们都会朝着最终目标迈进一步。

类似的观点我在如何理性地失败：黑匣子思维讨论过。只是在最后我说过：

建立容忍失败的文化，以及事后分析的制度。

但是却无法提供可以落地的实践，但是本书也介绍了两个有意思的实践：

一个是由领导带头，将失败经历公之于众：

一项研究还表明，人们仰仗领导者开启变革。如果领导者不承认自己的过失，如果有人认为领导者从不犯错，那么，我们就无法指望员工会冒险质疑领导者或者揭露他们自身的错误。

另一个是学会体面地失败，即所谓的「暴露疗法」，经常让自己暴露在失败面前，学会习惯性的失败，这就是所谓的平时多流血，战时不流血。

最后

相信大家看出来了，在书中提到的很多方法，不就是软件工程领域的一些方法吗？是的，简单的说法是科学的方法都是是相通的。

不过，我还是忍不住多说一些。肯尼迪在宣布登月计划后的解释说：「因为我们现在不知道前方有什么好处等着我们」。这项计划最后的结果就是，登月成功，花费巨大，但是却极大提升了国家整体工业水平，催生出一系列先进技术，其中当然就包含给计算机工程启发的各种思维方式。

我们能从航空航天里面获得太多东西，也能学到太多东西，这也正是我们国家在发射东方红卫星时，即使还处于贫困阶段，也要这样做的原因，因为这是一项功在当代，利在千秋的事情。

Ref

首发于 Github issues: https://github.com/xizhibei/blog/issues/172 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/05/26/think-like-a-rocket-scientist/

Linux 时间之 hwclock

2021-05-01T15:30:02.000Z

Linux 中，有好些个工具是跟时间相关的，最近工作遇到了它们，于是打算写几篇与 Linux 时间相关的文章。

今天先说说 hwclock 这个工具，估计也就玩物联网的朋友会用到了，因为这个工具往往只是用来保持硬件设备的时间的，但是前大多数设备往往都是联网的，也就是用的 NTP。

另外，Ubuntu 15.04 之后就用 systemd 来管理时间了，它里面自带的 timedatectl 工具取代了 hwclock，不过本质上是差不多的内容，这里就不多说了。

介绍

当设备无法联网的时候，RTC 就会变得非常重要，系统的时间将会依靠纽扣电池的能量来维持。如果设备需要经常开关机，那么就会更加依赖 RTC 来保持设备时间的同步。

它的原理很简单，就是用纽扣电池驱动 RTC（Real-Time Clock）芯片来保持设备断电时候的时间，这样当设备重启的时候，就能直接从 RTC 恢复时间了。

首先让我们来看看 hwclock 的帮助信息：

Usage: hwclock [function] [option...]Time clocks utility.Functions: -r, --show           display the RTC time     --get            display drift corrected RTC time     --set            set the RTC according to --date -s, --hctosys        set the system time from the RTC -w, --systohc        set the RTC from the system time     --systz          send timescale configurations to the kernel -a, --adjust         adjust the RTC to account for systematic drift     --predict        predict the drifted RTC time according to --dateOptions: -u, --utc            the RTC timescale is UTC -l, --localtime      the RTC timescale is Local -f, --rtc      use an alternate file to /dev/rtc0     --directisa      use the ISA bus instead of /dev/rtc0 access     --date     date/time input for --set and --predict     --delay     delay used when set new RTC time     --update-drift   update the RTC drift factor     --noadjfile      do not use /etc/adjtime     --adjfile  use an alternate file to /etc/adjtime     --test           dry run; implies --verbose -v, --verbose        display more details -h, --help           display this help -V, --version        display version

下面来说说，如何使用这个命令来解决我们常见的两个问题。

时间同步

首先要分清两个时间，一个是硬件时间，也就是在 RTC 等硬件芯片中的时间，另一个是系统时间，也就是系统内核中的时间。

为了同步时间，用到它的两个参数就够了：

在关机前，将时间从系统写入 RTC：hwclock --systohc
在开机时，将时间从 RTC 写回系统：hwclock --hctosys

其实这步做完就可以完成离线状态下的时间同步了。设备能够在大多数情况下，达到设备时间保持与真实时间同步。

但，如果设备的时间精确性很重要，那么你就需要用到它的矫正功能了。

误差矫正

其实 RTC 的工作依赖于一块 32.768kHz 的晶振，也就是一块石英晶体，然而，石英晶体是不稳定的，尤其在温度变化的时候，就会变得有误差，这个误差每天可以达到一秒或更多。

上图来自1，可以从图中看到，温度过低或者过高都会导致偏差增大，而我们的设备一般是无法放在一个恒温环境下的，于是每天必然造成误差。

如何矫正这个误差呢？有硬件方案，也有软件方案。

硬件方案，德州仪器公司给了一个方案¹，可以直接用温度传感器来补偿 RTC 的精度，由于对硬件这块儿不熟悉，也说不出个所以然，只是明显的，硬件成本会增加一些。

软件方案就会朴实很多，因为我们可以假设这个设备所处的环境不变，硬件时间与系统时间的偏差是系统性的，简单点说，就是每隔一段固定的，它们之间时间的偏差其实是一致的²。于是，我们用软件工程的角度来低成本地校准，也就是 hwclock 的校准功能。

它会用到一个文件 adjfile，用来记录校准的状态，不过先需要解释下 adjfile 的格式，它默认是 /etc/adjtime，它的内容包含 3 行文本³：

第一行，包含三个值：
- 系统时间每天偏移量（秒）
- 上次调整时间 (Unix 时间戳)
- 校正状态
第二行：上次校准时间 (Unix 时间戳)
第三行：”UTC” 或者 “LOCAL”（一般只会用 UTC，别用 LOCAL 给自己添堵）

校准的用法也非常简单：

不过在开始之前，首先你需要确认 Linux 内核没有激活自动同步系统时间到硬件时间，不然会被 NTP 的 11 分钟模式 自动同步²。具体就是运行 adjtimex --print 或者 adjtimex，看它的 status 值，看看有没有 UNSYNC，有就是不同步，或者需要自己计算下 status & 0x40，为 1 表示不同步^2、4。

（如果自动同步是激活状态）关闭且禁用 ntp 后台进程，且不会随系统启动；
手动同步一次系统时间;
同步系统时间至 RTC：hwclock --systohc，这时候，/etc/adjtime 里面的时间戳将会更新，但是偏移量为 0;
关机，等待至少一天；
开机，然后马上手动同步一次系统时间，然后让 hwclock 同步到 RTC 的同时，自动计算偏差 hwclock --systohc --update-drift；
查看以及确认/etc/adjtime 里面的偏移量；
（如果自动同步是激活状态）启动且启用 ntp 后台进程

Ref

首发于 Github issues: https://github.com/xizhibei/blog/issues/169 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/05/01/linux-time-hwclock/

不拘一格的网飞

2021-03-28T07:56:14.000Z

对于网飞的文化，我向来推崇备至，在之前的多篇文章里面，也提到过很多次：

这次见到这本网飞 CEO 里德 · 哈斯廷斯写的书出来后，也是第一时间排上了阅读计划。这几天看完之后，有种难以名状的感受：就像自己被自己打了脸。

以下涉及剧透，慎读。

自由与责任工作法

整本书的逻辑很简单：给市场最高的薪水，雇佣最牛的人才，提高人才密度，然后给他们最自由的环境、坦诚的职场关系、透明的信息以及充分的授权，然后让他们以公司的利益为上来自由地做最好的决定。同时，在公司内部实行与薪酬福利无关的 360 度反馈，以 4A 原则（下面会提到）来不断复盘反省提升，从而变得更加优秀，并且公司持续按市场最高薪水来调整他们的薪酬，但是一旦发现不合适就会让他们走人。通过这种方式不断提升人才密度，做到行业最佳。

接下来，我来说说让我感受比较深的几个点，虽然有些观点在《奈飞文化手册》也是看到过的，如今再看一遍仍然觉得有些内容反直觉、反传统。

取消限期休假制度、取消差旅和经费审批

虽然刚听起来，有点耸人听闻，只是细想起来，这也会比较容易理解，在一个人人都是透明坦诚的公司里面，但凡自己做点什么有害公司利益的事情，就会被大家瞧不起，因为在这个人才密度非常高的公司里面，大家都在以公司的利益而努力奋斗。

或许你会担心，一旦给了那么高的自由度，员工滥用了怎么办，网飞是这样做的：严厉惩罚，但是依然保持这个制度。因为他们清楚，保持这种情况，会比束缚员工的自由的代价小很多。

不过这个制度有一个最大的前提，那就是足够高的人才密度，另外还有老板的胸襟以及开放透明的公司文化。

企业拥有一支高绩效的团队，员工才会认真负责地工作；企业拥有坦诚的文化氛围，员工才会互相监督，共同维护公司利益。在此前提下，企业可以放松对员工的管控，给予他们更多的自由。

这也让我想起了《大江东去》中，我们国家经济发展过程中的对待民营企业的态度。杨巡可以说就是我们国家民营经济的代表人物了，他是拼尽全力才能在这个激烈异常的环境中存活下来，一开始是不被国家承认的资本主义小商小贩，非得挂靠在雷东宝的集体企业中才有资格卖货，之后遇到了改革开放才成为有资格注册的个体户，期间也是多次游走于灰色地带「不守规矩」才没有被淘汰，如今太多的民营企业家多少都会有杨巡的影子，都是靠自己的双手拼命打拼才取得如今的成果，如果你让杨巡在他的企业中学习网飞的自由环境，恐怕他只会把你当成骗子轰出大门。

其实我想说的是，我们国家的企业与国外的企业，整体上还是有发展的差距，这种优秀的企业是只有国家发展到一定程度才会出现的产物，我们学习优秀的思想也不能只看表面，学个皮毛，也就是说可以借鉴却不能照抄。我不相信能带给企业发展前景的先进制度，企业家们不会去考虑。正如目前一直在讨论的 996 问题，迟迟没有个结果的原因何在？很简单，我们想要的薪酬福利，只有 996 的公司能给，我们没得选。其实更多是我们国家自身的发展问题，或者说，只是时机未到。

另外，据说国内企业中，字节跳动目前的文化是最像网飞的，我相信这种企业会越来越多的。

支付行业最高薪酬，取消绩效奖金以及股权激励

或许支付行业最高薪酬能够理解，但是取消绩效奖金确实很难让现阶段的我们来理解了，只是，网飞的理由却很充分。

他们不想靠奖金来激励员工，奖金会让员工只专注于目标，而不是考虑什么才是对公司真正有利的。

相比于专注目标，他们更在意的是员工的创造性，他们不想让员工因为奖金的多少来妨碍创新，因为真正有积极性的员工不会因为奖金多了就更加努力，奖金少了就松懈下来。

创造性工作要求在一定程度上解放你的大脑。如果你总想着要怎么做才能表现好，才能得到高额的奖金，那么你就缺少开放的认知空间，产生最好的想法和最好创意的可能性也微乎其微。结果，你反倒做得更差。
在我们用足够高的工资帮助员工减轻家庭负担之后，他们最具创造力。但是如果他们并不确定自己能否得到额外的报酬，创造力就会下降。由此可见，有利于激发创造力的，是足够高的工资，而非绩效奖金。
不实行绩效奖金，提供更高的基本工资，留住工作积极性高的员工，这些做法都可以增加人才密度。但增加人才密度最有效的办法，是一开始就支付给员工高薪，并且随着时间的推移不断上涨，以此保证他们始终获得市场上最高的工资。

对于取消奖金的做法，我也是比较认同的，相比于完成挑战自己的任务以及做出优秀的成绩所带来的成就感，奖金带来的激励很大程度上就是饮鸩止渴。

仅仅做到称职也要拿钱走人

这一点怕是有老板看了就深信不疑的一个观点，于是号召大家学习这一点，并扬言 “混日子的人不是我的兄弟”，于是实行末位淘汰都会显得顺理成章。

或许他们做的没问题，关键的地方在于，他们只想像网飞一样提高人才密度，却不想为之付出努力与成本，说人话就是不想给补偿。

网飞的这个做法，即即使员工足够努力，也做出了共享，但是如果没做到跟进公司的创新步伐也要拿钱走人。这点即使是在硅谷也是非常引争议的，事实却证明，结果没有那么坏，因为他们的离职率没有想象中的高，结果也比想象中好太多，他们做出的成果是大家有目共睹的，网飞的电视剧质量越来越高也是一个我们能感受到的侧面例子。

至于网飞如何防止这种淘汰方法妨碍员工的创新能力以及互相协作，很简单，他们做的事情不是末位淘汰。他们在公司内部，营造足够坦诚的文化。所有员工都知道为什么自己会被淘汰，以及通过「员工留任提示」来与领导沟通，获取反馈。并且，员工也能通过被解雇员工的「离职后问答」，知道被解雇的原因，从而消除自己心中的不安。

员工留任提示，也就是鼓励员工与上级进行一对一沟通：

“如果我想要辞职，你会花多大力气劝我改变主意？”

坦诚沟通和正面有效反馈

人才密度提高后，要使人才真正发挥作用，就需坦诚以及正面有效反馈。

很遗憾的是，在我们目前的社会中，互相信任的关系还是很少的，我还没有遇到过非常坦诚的公司，因为他们从谈薪酬开始就不会对你坦诚，更不用说进入公司后，公司就会用劳动合同以及种种的条条框框来限制你的行动，从这点来说，我更喜欢小公司：限制少，创新能力强。

所谓正面有效反馈，就是上面说的 4A 原则：

目的在于帮助：反馈者应清晰阐述这样做对他人和公司有什么样的好处。
反馈应具有可行性：你的反馈必须说明接收人可以做一些什么样的改变。
感激与赞赏：我们在收到批评时都会为自己辩护或找借口，这是人类的本能。在接收反馈时，你需要有意识地反抗这种本能。
接受或拒绝：不是每条反馈都要求你照搬，但有必要向反馈者真诚地致谢。你和反馈者必须清楚：对反馈意见的处理完全取决于反馈的接收者。

360 度反馈是个非常有用的工具，奈何大部分使用这种工具的公司都把 360 度的结果与绩效考核挂钩，生生的把它变成了 KPI 工具。网飞如何使用它就是个非常有用的例子：它是用来获取身边人的正面有效反馈的。

360 度公开反馈引发了一系列有价值的讨论。我与直系下属系统地分享我收到的意见，我的下属又与他们的团队分享他们得到的反馈，层层分享，依此类推。这不仅可以增强公司内部的透明度，也形成了一种 “反向负责制”，即员工从中受到鼓励，能够对上级多次出现的问题进行大胆的反馈。

这种互相坦诚的做法值得每个人学习，虽然暂时会对自己不利，只是心底无私天地宽，路自然会越走越宽。

情景管理而非控制管理

我对这个观点印象非常深刻，因为书中举了个很形象的例子：

当你的孩子要去参加一个聚会的时候，你作为家长会怎么做呢？

如果你告诉孩子什么不可做，什么可以做，并且要孩子把所有相关的信息告诉你，之后你还要偷偷跟着孩子去监视他，这就是控制管理。

而如果你是告诉孩子，什么不可以做，并且还通过一些辅助手段（一起看书、看教育片等）教育孩子为什么不可以做，事后也只是让孩子事后有问题马上联系自己，这就是情景管理。

想必大家看了也会明白，也就是所谓的少限制，多放权，少微观管理，多宏观管理。相比于事无巨细地告诉他们目标在哪、如何达到目标，激起他们对目标的渴望更重要。

现实中，大部分公司都是金字塔形的结构，即所有的重大决策都需要层层上报，但是能做决定的领导往往不是那个适合做决定的，因为这不是所谓的 “让听得见炮声的人来做决策 “（没想到吧，这句话是华为老总任正非说的）。网飞的这种所谓的树形结构，让处于树根的领导层专注于真正的战略层面，而把具体事务的决策权下放到处于各个树枝的负责人手里。

如果想要公司在松散耦合的体制中高效运转，让员工个人也能做出重大决策，那么老板和员工必须就他们的目标达成一致。只有领导和员工认识清晰，目标一致，松散耦合的体制才能发挥作用。这种一致性能够驱动员工做出决策，以完成整个组织的使命和战略任务。

这种方法论，其实国内的企业家都明白，而且很多优秀的企业也在内部实行了，一如华为。而这其中的原理，明白一点软件架构的技术人也能看出来：高内聚低耦合的架构能应付多变的业务场景，方便调整，非常高效以及灵活。放到企业组织架构中也一样，对于任何一个处于创新引导的产业中的公司，这种架构能够更有效的应对未知的市场，从而取得成功。

至于另外提到的目标是创新而不是防范错误，我已经在文章开头的几篇中多次提到，不再赘述。

回过头来看网飞的企业文化

其实整本书说的都是围绕这自由与责任这两个词来说的，什么是自由与责任以及如何做到自由与责任。

随着职场经验的累积，我发现自己不像从前那么强调网飞多么优秀了，因为我发现从前的自己强调的更多是自由，而不是与之相生相伴的责任，或者说，我也更理解老板们的苦衷了。虽然他们看了这本书之后，还是会认为不可能做到网飞的程度，甚至是跟以前只学华为的狼性却不学华为给员工大块肉，现在可能只想学网飞开除不称职的员工，却不想给员工遣散费。

回过头来，我才认识到自己一直是那个只见树木不见树林的人。自己一直认为是众人皆醉我独醒，可结果是小丑竟是我自己。网飞的文化终究是属于网飞自己的，但是企业优秀并不代表文化就一定优秀，可以借鉴，但不可照抄。

至于那么好的文化，有没有可能被国内公司或者自己所在的公司学到精髓我不清楚，对于我自己而言，做到配得上网飞文化，还是可以努力的：让自己得到一件东西的最好方式，就是让自己配得上它。

首发于 Github issues: https://github.com/xizhibei/blog/issues/166 ，欢迎 Star 以及 Watch

本文采用署名-非商业性使用-相同方式共享（BY-NC-SA）进行许可
作者：习之北 (@xizhibei)
原链接：https://blog.xizhibei.me/zh-cn/2021/03/28/netflix-no-rules-rules/