常见指标¶

单位:

1ns                 纳秒(nano second)
1us = 1,000ns       微秒(micro second)
1ms = 1,000us       毫秒(milli second)
1s = 1,000ms        秒

响应指标¶

常见响应指标¶

https://img.zhaoweiguo.com/knowledge/images/cores/tunes/indicator1.png — 每个程序员都应该知道的延迟数字¶

《Teach Yourself Programming in Ten Years》:

1. fetch from L1 cache memory(从一级缓存中读取数据):
0.5 nanosec

2. branch misprediction(分支预测失败):
5 nanosec

3. fetch from L2 cache memory(从二级缓存获取数据):
7 nanosec

4. Mutex lock/unlock(互斥加锁 / 解锁):
25 nanosec

5. fetch from main memory(从主内存获取数据):
100 nanosec

6. send 2K bytes over 1Gbps network(通过 1G bps 的网络发送 2K 字节):
20,000 nanosec = 20us(微秒)

7. read 1MB sequentially from memory(从内存中顺序读取 1MB 数据):
250,000 nanosec = 250us

8. fetch from new disk location (seek)(从新的磁盘位置获取数据（寻道）):
8,000,000 nanosec = 8ms(毫秒)

9. read 1MB sequentially from disk(从磁盘中顺序读取 1MB 数据):
20,000,000 nanosec =20ms

10. send packet US to Europe and back(从美国发送一个报文包到欧洲再返回):
150 milliseconds = 150,000,000 nanosec

用户体验¶

交互响应时间超过 100~200ms 就被认为是不好的

用户体验来说:

1. 0~200ms，用户无感知
2. 200ms~1s，稍感延迟，可接受
3. 1~Ns，明显等待，越长体验越差

操作系统¶

按页读取:

一页大小通常是 4KB，这个值可以通过 getconfig PAGE_SIZE 命令查看
一次会读一页的数据。如果要读取的数据量超过一页的大小，就会触发多次 IO 操作
我们在选择 m 大小的时候，要尽量让每个节点的大小等于一个页的大小。读取一个节点，只需要一次磁盘 IO 操作。

高速缓存的读取时间可能是 0.5ns
而内存的访问时间可能是 50ns

并发指标¶

常见并发指标¶

redis: 并发请求数也就每秒 3-5 万(基于 Reactor 模式)
nginx 负载均衡性能是 3-5 万左右(基于 Reactor 模式)
mc 的读取性能 3-5 万左右(基于 Reactor 模式)
LVS 的性能是十万级，据说可达到 80 万 / 秒
F5 性能是百万级，从 200 万 / 秒到 800 万 / 秒都有
kafka 号称百万级, 百万级是集群性能
zookeeper 写入读取 2 万以上
http 请求访问大概在 1.5-2 万左右(HTTP get 操作访问一个简单页面测试结果)

MySQL 的 TPS 和写入的数据有关:

写入 k/v 数据，主键存储 key，上万TPS
读取 k/v 数据，可以达到10万 QPS

mysql 官网 benchmarks:
https://www.mysql.com/why-mysql/benchmarks/
单机 32users 并发只读近 40w+ qps，读写 10w+ qps
说明:
    这个数据有误导性，要看具体的 SQL 语句和表结构，实际应用中一般不可能这么高
    这个数据是简单的 k/v 数据

NoSQL量级一般都是上万，但和测试硬件测试用例相关
业务系统一个 TPS 接口的请求时间 10~50ms 是比较合理的，QPS 5~20ms 是比较合理的

理想情况下，性能测试的时候，CPU 能压到 80% 以上，此时的 TPS/QPS 就是峰值，如果 CPU 没压满，指标就上不去，就可能有优化的空间。如果是业务系统，由于业务复杂度差异很大，有的每秒 500 请求可能就是高性能了，因此需要针对业务进行性能测试，确立性能基线，方便后续架构设计做比较

http 相关性能:

Spring Boot 基于 HTTP 协议的，HTTP 协议本身的解析非常耗性能
    我们之前实测 Hello world，16 核或者 32 核的机器，单机 TPS 也就 1.5 万左右（核数增加对性能作用不大）

一般把日活转换为 pv，然后按 pv 计算 QPS

单台服务器性能一般是:

企业用的线上物理服务器，如:
16 核 16g
32 核 16G
与时俱进，现在基本都是 32 核 48g 内存

云主机的性能可以按照同配置的物理机 80% 的性能来估算

服务器¶

一台机器最多开65535个 port, 其中压测可用的 port 是 32768～65535 ,也就是每个兵团的士兵可达到 32768 个
单机可以支持: C100K, C1000K, C1M, C10M, C20M

单进程文件句柄最大可以设置:

即: 单个进程可分配的最大文件数
在我们使用ulimit或limits.conf来设置时，如果要超过默认的1048576值时需要先增大nr_open值


注: Linux 内核 2.6.25 以前，在内核里面宏定义是 1024*1024，最大只能是 100w（1048576）
如果 Linux 内核大于 2.6.25 则可以设置更大值

Java¶

经过 Netty 封装相比Java 原生 NIO，大约有 10% 的性能损耗:

在 1K 大小报文时
原生的 Java NIO 在当时的测试环境所能达到 TPS（每秒事务数） 的极限大约 5 万出头，
而 Netty 在 4.5 万附近
增加了 RPC 的编解码后，TPS 极限下降至 1.3 万左右
加上不算简单的业务逻辑，能预期的单实例真实 TPS 也许只有 1 千 ～2 千


注: 极限，就是继续加压，但 TPS 不再上升，CPU 也消耗不上去，延时却在增加

内存, 磁盘指标¶

一个TCP套接字连接占用的内存做分析，大概占4KByte

内存:

单根 DDR4 内存的数据传输带宽最高为 34GB/s
    工作频率最高可达 4266MHz

以 PC 为例:

Intel 386 时代服务器存储能力只有几百 MB
Intel 奔腾时代服务器存储能力可以有几十 GB
Intel 酷睿多核时代的服务器可以有几个 TB

估算一下，给这 1 亿张图片构建散列表大约需要多少台机器:

1. 假设我们通过 MD5 来计算哈希值，那长度就是 128 比特，也就是 16 字节
2. 文件路径长度的上限是 256 字节，我们可以假设平均长度是 128 字节
3. 如果我们用链表法来解决冲突，那还需要存储指针，指针占用 8 字节
所以，散列表中每个数据单元就占用 152 字节（这里只是估算，并不准确）

假设一台机器的内存大小为 2GB，散列表的装载因子为 0.75，
那一台机器可以给大约 1000 万（2GB*0.75/152）张图片构建散列表
所以，如果要对 1 亿张图片构建索引，需要大约十几台机器。
在工程中，这种估算还是很重要的，
能让我们事先对需要投入的资源、资金有个大概的了解，能更好地评估解决方案的可行性。

内存的访问速度是纳秒级别的
磁盘访问的速度是毫秒级别的
从内存中读取所花费时间的上万倍，甚至几十万倍

磁盘¶

https://img.zhaoweiguo.com/uPic/2023/10/EGdEN9.png

说明:

PCI Express主要用于连接高速设备，如显卡、声卡等
    使用点对点串行连接，每个设备都有自己的专用连接，不需要向整个总线请求带宽，而且可以把数据传输率提高到一个很高的频率，达到PCI所不能提供的高带宽。
SATA 3.0则主要用于连接存储设备，如硬盘和光驱

SATA 3.0 的接口:

带宽是 6Gb/s(转Byte=768MB)

PCI Express 的接口:

在读取的时候就能做到 2GB/s 左右，差不多是 HDD 硬盘的 10 倍
在写入的时候也能有 1.2GB/s

IOPS 也就是在 2 万左右

HDD 硬盘(机械硬盘):

  5400转笔记本硬盘平均读写速度大致在60-90MB这个区间
  7200转台式机硬盘大致在130-190MB区间
  10000转和15000转台式机硬盘数据不详


数据传输率，差不多在 200MB/s 以内
IOPS 通常在 100 左右

随机读取磁盘上某一个 4KB 大小的数据:
  在随机读写的时候，数据传输率也只能到 40MB/s 左右，是顺序读写情况下的几十分之一

响应时间指标:

SSD 硬盘: 几十微秒
HDD 硬盘: 几毫秒到十几毫秒

传输速度¶

线路传输的速度是毫秒级别:

1. 同一机房: 内部能够做到几毫秒；
2. 同城异地: 几毫秒~十几毫秒(距离上一般大约就是几十千米)
3. 跨城异地: 几十甚至上百毫秒(几百、上千千米)
    例如:
    从广州机房到北京机房，稳定情况下 ping 延时大约是 50ms，不稳定情况下可能达到 1s 甚至更多
4. 跨国异地: 几秒钟

光速真空传播大约是每秒 30 万千米
在光纤中传输的速度大约是每秒 20 万千米

光速：C = 30 万千米 / 秒
光纤：V = C/1.5=20 万千米 / 秒

网速:
    2017 年 11 月知名测速网站 Ookla 发布报告，全国平均上网带宽达到 61.24 Mbps，
    千兆带宽下 10KB 数据的极限 QPS 为 1.25 万 QPS=1000Mbps/8/10KB

实例1:
北京到广州距离为2100多公里，即: 理想情况下，光纤在北京到广州传输需要0.21/20=0.01s=10ms
    但传输中的各种网络设备的处理，实际还远远达不到理论上的速度
    一般从广州机房到北京机房，稳定情况下 延时大约是 50ms

实例2:
地球到火星距离是 0.55~4 亿千米。近距离约为 5500 万公里，最远距离则超过 4 亿公里。
    2021 年 5 月 15 日祝融号登陆的 9 分钟被称作 “恐怖 9 分钟，因为这9分钟我们是不可能操控探测器的。
    原因是地球在与火星通讯的时候会有十几二十分钟的延迟。
    这十几分钟延迟算法如下：
        按光在真空中最快的30万km/s，距离5500-40000万km延时分别为:
        5500/30 ~ 40000/30 = 183s ~ 1333s = 3分钟~22分钟
        这是最理想的速度的延时。

pv/qps 计算¶

pv = 日活 * 人均点击次数
并发均值 = pv/86400
并发峰值 = 并发均值 * N

1. 响应时间（RT）
2. 并发数（Concurrency）
3. 吞吐量（TPS）

吞吐量 = 并发数 / 平均响应时间

最⼤吞吐量：可⽀持的带宽
最⼤并发连接数: 每秒连接的总数量，体现并发处理连接的能⼒
CPS: 每秒新建连接数：每秒新建连接的数量，体现处理新增连接的能⼒
PPS: 每秒处理包量: 每秒钟转发的包量，体现包转发速率
QPS: Query Per Second(每秒请求数，一般指读取，TPS)
TPS: Transactions Per Second(每秒事务数，一般指写入，QPS)
并发数：同一时刻的接收的访问数量，时间单位一般用秒，也可以用分钟和小时，常见有并发请求数，并发连接数
日活：每日活跃用户数，指当天来访问过系统的用户，同一用户，无论用户访问多少功能和页面都只算一个用户

可靠性¶

单机的可靠性大概是 100 天丢失一次数据，数据修复时间是 1 天（即可靠性是 2 个 9）
单机可靠性只有两个 9 不是算出来的，统计出来的

tmp¶

UNIX 网络编程¶

RTT在一个局域网上大约是几毫秒，跨越一个广域网则可能是数秒钟

参考¶

伯克利大学的一个动态网页可以查看每年计算机中各类操作耗时、延迟的变化: https://colin-scott.github.io/personal_website/research/interactive_latency.html