Board logo

标题: 读写自旋锁详解,第 2 部分 基于简单共享变量的实现(1) [打印本页]

作者: look_w    时间: 2018-4-23 15:34     标题: 读写自旋锁详解,第 2 部分 基于简单共享变量的实现(1)

读者优先的读写自旋锁我们先不考虑性能,搞出一个可用的实现再说。首先,用一个整型变量 status 来记录当前状态;另一个整型变量 nr_readers 来记录同时持有锁的读者数量,只有当 nr_readers 为 0 的时候,锁才被读者彻底释放。此外不需要额外变量。
其次,我们使用高级互斥原语-普通的自旋锁,决定线程的执行顺序。读写自旋锁居然在内部使用普通自旋锁,这看起来有点古怪,还能够提高读者的并发性么?
我们需要留心的是,从合适状态出现到取得自旋锁之间可能发生状态转换,所以取得自旋锁之后还需检查一下当前状态。
清单 1. 基于自旋锁的读者优先实现
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
#define STATUS_AVAILABE 0
#define STATUS_READER 1
#define STATUS_WRITER 2

typedef struct {
    volatile int status;
    volatile int nr_readers;
    spinlock_t sl;
} rwlock_t;

void init_lock(rwlock_t *lock)
{
    lock->status = STATUS_AVAILABE;
    lock->nr_readers = 0;
    spin_lock_init(&lock->sl);
}

void reader_lock(rwlock_t *lock)
{
    while (TRUE) {
        while (lock->status == STATUS_WRITER)
            cpu_relax();
        spin_lock(&lock->sl);
        if (lock->status != STATUS_WRITER) {
            if (lock->status == STATUS_AVAILABE)
                lock->status = STATUS_READER;
            lock->nr_readers++;
            spin_unlock(&lock->sl);
            return;
        }
        spin_unlock(&lock->sl);
    }
}

void reader_unlock(rwlock_t *lock)
{
    spin_lock(&lock->sl);
    if (--lock->nr_readers == 0)
        lock->status = STATUS_AVAILABE;
    spin_unlock(&lock->sl);
}

void writer_lock(rwlock_t *lock)
{
    while (TRUE) {
        while (lock->status != STATUS_AVAILABE)
            cpu_relax();
        spin_lock(&lock->sl);
        if (lock->status == STATUS_ AVAILABE) {
            lock->status = STATUS_WRITER;
            spin_unlock(&lock->sl);
            return;
        }
        spin_unlock(&lock->sl);
    }
}

void writer_unlock(rwlock_t *lock)
{
    spin_lock(&lock->sl);
    lock->status = STATUS_AVAILABE;              //(a)
    spin_unlock(&lock->sl);
}




如果底层体系结构能原子地执行代码 (a),那么无需先取得内部的自旋锁。上述实现内部使用了一把大锁,故而正确性容易得到保证,下面我们分析一下不足之处:
上述代码的主要问题是变量和生成的指令太多,无法高效地执行。一个很自然的改进想法是把多个变量合并成单一变量,这样就有可能用一条原子指令更新状态 [3],而无需使用高级同步原语。同时也能使得锁的释放操作在有限步骤内完成,于是保证获得锁的线程必然在有限时间内将锁释放掉(后文列出的代码均满足这一特性)。我们观察到:
基于上述 3 点,我们将锁的数据结构简化为一个整型成员 rdr_cnt_and_flag。rdr_cnt_and_flag 最低位代表 status,其余位代表 nr_readers(当然也可以用最高位代表 status):
清单 2. 基于简单共享变量的读者优先实现
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
#define WAFLAG 1
#define RC_INCR 2

typedef struct {
    atomic_t rdr_cnt_and_flag;
} rwlock_t;

void init_lock(rwlock_t *lock)
{
    lock->rdr_cnt_and_flag = ATOMIC_INIT(0);                 //(a)
}

void reader_lock(rwlock_t *lock)
{
    atomic_add(RC_INCR, &lock->rdr_cnt_and_flag);            //(b)
    while ((atomic_read(&lock->rdr_cnt_and_flag) & WAFLAG) != 0)     //(c)
        cpu_relax();
}

void reader_unlock(rwlock_t *lock)
{
    atomic_sub(RC_INCR, &lock->rdr_cnt_and_flag);            //(d)
}

void writer_lock(rwlock_t *lock)
{
    while (atomic_cmpxchg(&lock->rdr_cnt_and_flag, 0, WAFLAG) != 0)      //(e)
        while (atomic_read(&lock->rdr_cnt_and_flag) != 0)        //(f)
            cpu_relax();
}

void writer_unlock(rwlock_t *lock)
{
    atomic_dec(&lock->rdr_cnt_and_flag);                     //(g)
}




这个实现明显优于前者,每个函数的原子指令数和总指令数都非常少。reader_lock() 只执行一条原子加法指令,系统开销相当之小,而且不必像某些实现那样在尝试失败的情况下需要执行一个回滚操作(例如 Linux 内核实现的读写自旋锁)。
我们给出代码正确性的简要证明:
综上可知,读者和写者不可能同时持有锁,任何时刻至多只有一个写者持有锁。
这个实现的不足之处有 4 点:
如果我们用 rdr_cnt_and_flag 的最高位表示 status,其余位代表 nr_readers,那么有写者持有锁时,rdr_cnt_and_flag 必然是个负数(因为不可能同时有 0x8000000 个或更多的读者“同时”申请锁),检查起来比较快捷,于是上述 2、4 不足之处可以得到改进。代码如下:
清单 3. 基于简单共享变量的读者优先实现 2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#define WAFLAG (int)0x80000000
#define RC_INCR 1

typedef struct {
    atomic_t rdr_cnt_and_flag;
} rwlock_t;

void init_lock(rwlock_t *lock)
{
    lock->rdr_cnt_and_flag = ATOMIC_INIT(0);                 //(a)
}

static inline int my_atomic_inc_negative(atomic_t *v)
{
    unsigned char c;

    asm volatile(LOCK_PREFIX "incl %0; sets %1"
            : "+m" (v->counter), "=qm" (c)
            : : "memory");
    return c;
}

void reader_lock(rwlock_t *lock)
{
    int sign = my_atomic_inc_negative(&lock->rdr_cnt_and_flag);          //(b)
    if (sign)                               //(c)
        while (atomic_read(&lock->rdr_cnt_and_flag) < 0)          //(d)
            cpu_relax();
}

void reader_unlock(rwlock_t *lock)
{
    atomic_dec(&lock->rdr_cnt_and_flag);                     //(e)
}

void writer_lock(rwlock_t *lock)
{
    while (atomic_cmpxchg(&lock->rdr_cnt_and_flag, 0, WAFLAG) != 0)      //(f)
        while (atomic_read(&lock->rdr_cnt_and_flag) != 0)        //(g)
            cpu_relax();
}

void writer_unlock(rwlock_t *lock)
{
    atomic_add(-WAFLAG, &lock->rdr_cnt_and_flag);            //(h)
}




因为 nr_readers 在低 31 位,读者到来时使用原子递增指令即可,比原子加法指令要快。执行完毕后我们可以先观察一下 EFLAGS 或 RFLAGS 寄存器的 SF 位,如果为 0,说明 rdr_cnt_and_flag 的新值是非负数(只能是正数,参见前面的描述),即说明没有写者持有锁,这比再次检查 rdr_cnt_and_flag 更高效。我们把这 2 个操作合并在一个 my_atomic_inc_negative 内联函数中,用汇编指令实现。




欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0