Effective Modern C++ Notes (6)

CHAPTER 6 Lambda Expressions

lambda相关的词汇

lambda相关的词汇可能会令人疑惑,这里做一下简单的回顾:

  • lambda*表达式lambda expression*)就是一个表达式。下面是部分源代码。在

    std::find_if(container.begin(), container.end(),
                 [](int val){ return 0 < val && val < 10; });   //译者注:本行高亮
    

    中,代码的高亮部分就是lambda

  • 闭包enclosure)是lambda创建的运行时对象。依赖捕获模式,闭包持有被捕获数据的副本或者引用。在上面的std::find_if调用中,闭包是作为第三个实参在运行时传递给std::find_if的对象。

  • 闭包类closure class)是从中实例化闭包的类。每个lambda都会使编译器生成唯一的闭包类。lambda中的语句成为其闭包类的成员函数中的可执行指令。

lambda通常被用来创建闭包,该闭包仅用作函数的实参。上面对std::find_if的调用就是这种情况。然而,闭包通常可以拷贝,所以可能有多个闭包对应于一个lambda。比如下面的代码:

{
    int x;                                  //x是局部对象
    

    auto c1 =                               //c1是lambda产生的闭包的副本
        [x](int y) { return x * y > 55; };

    auto c2 = c1;                           //c2是c1的拷贝

    auto c3 = c2;                           //c3是c2的拷贝
    
}

c1c2c3都是lambda产生的闭包的副本。

非正式的讲,模糊lambda,闭包和闭包类之间的界限是可以接受的。但是,在随后的Item中,区分什么存在于编译期(lambdas 和闭包类),什么存在于运行时(闭包)以及它们之间的相互关系是重要的。

Item 31: Avoid default capture modes

lambda创建的闭包生命周期超过局部变量或者形参的生命周期会导致闭包中的引用变成悬空引用

按引用捕获会导致闭包中包含了对某个局部变量或者形参的引用,变量或形参只在定义lambda的作用域中可用。如果该lambda创建的闭包生命周期超过了局部变量或者形参的生命周期,那么闭包中的引用将会变成悬空引用。举个例子,假如我们有元素是过滤函数(filtering function)的一个容器,该函数接受一个int,并返回一个bool,该bool的结果表示传入的值是否满足过滤条件:

using FilterContainer =                     //“using”参见条款9,
    std::vector<std::function<bool(int)>>;  //std::function参见条款2

FilterContainer filters;                    //过滤函数

我们可以添加一个过滤器,用来过滤掉5的倍数:

filters.emplace_back(                       //emplace_back的信息见条款42
    [](int value) { return value % 5 == 0; }
);

然而我们可能需要的是能够在运行期计算除数(divisor),即不能将5硬编码到lambda中。因此添加的过滤器逻辑将会是如下这样:

void addDivisorFilter()
{
    auto calc1 = computeSomeValue1();
    auto calc2 = computeSomeValue2();

    auto divisor = computeDivisor(calc1, calc2);

    filters.emplace_back(                               //危险!对divisor的引用
        [&](int value) { return value % divisor == 0; } //将会悬空!
    );
}

这个代码实现是一个定时炸弹。lambda对局部变量divisor进行了引用,但该变量的生命周期会在addDivisorFilter返回时结束,刚好就是在语句filters.emplace_back返回之后。因此添加到filters的函数添加完,该函数就死亡了。使用这个过滤器(译者注:就是那个添加进filters的函数)会导致未定义行为,这是由它被创建那一刻起就决定了的。

如果lambda按值捕获的是一个指针则不能解决悬空引用

按值捕获并不能完全解决悬空引用的问题。这里的问题是如果你按值捕获的是一个指针,你将该指针拷贝到lambda对应的闭包里,但这样并不能避免lambdadelete这个指针的行为,从而导致你的副本指针变成悬空指针。

假设在一个Widget类,可以实现向过滤器的容器添加条目:

class Widget {
public:
                           //构造函数等
    void addFilter() const; //向filters添加条目
private:
    int divisor;            //在Widget的过滤器使用
};

捕获只能应用于lambda被创建时所在作用域里的non-static局部变量(包括形参)。在Widget::addFilter的视线里,divisor并不是一个局部变量,而是Widget类的一个成员变量。它不能被捕获。而如果默认捕获模式被删除,代码就不能编译了:

void Widget::addFilter() const
{
    filters.emplace_back(                               //错误!
        [](int value) { return value % divisor == 0; }  //divisor不可用
    ); 
} 

另外,如果尝试去显式地捕获divisor变量(或者按引用或者按值——这不重要),也一样会编译失败,因为divisor不是一个局部变量或者形参。

void Widget::addFilter() const
{
    filters.emplace_back(
        [divisor](int value)                //错误!没有名为divisor局部变量可捕获
        { return value % divisor == 0; }
    );
}

所以如果默认按值捕获不能捕获divisor,而不用默认按值捕获代码就不能编译,这是怎么一回事呢?

解释就是这里隐式使用了一个原始指针:this。每一个non-static成员函数都有一个this指针,每次你使用一个类内的数据成员时都会使用到这个指针。例如,在任何Widget成员函数中,编译器会在内部将divisor替换成this->divisor

这个特定的问题可以通过给你想捕获的数据成员做一个局部副本,然后捕获这个副本去解决:

void Widget::addFilter() const
{
    auto divisorCopy = divisor;                 //拷贝数据成员

    filters.emplace_back(
        [divisorCopy](int value)                //捕获副本
        { return value % divisorCopy == 0; }	//使用副本
    );
}

在C++14中,一个更好的捕获成员变量的方式时使用通用的lambda捕获:

void Widget::addFilter() const
{
    filters.emplace_back(                   //C++14:
        [divisor = divisor](int value)      //拷贝divisor到闭包
        { return value % divisor == 0; }	//使用这个副本
    );
}

这种通用的lambda捕获并没有默认的捕获模式,因此在C++14中,本条款的建议——避免使用默认捕获模式——仍然是成立的。

按值捕获无法捕获静态存储生命周期(static storage duration)的对象

使用默认的按值捕获还有另外的一个缺点,它们预示了相关的闭包是独立的并且不受外部数据变化的影响。一般来说,这是不对的。lambda可能会依赖局部变量和形参(它们可能被捕获),还有静态存储生命周期(static storage duration)的对象。这些对象定义在全局空间或者命名空间,或者在类、函数、文件中声明为static。这些对象也能在lambda里使用,但它们不能被捕获。但默认按值捕获可能会因此误导你,让你以为捕获了这些变量。参考下面版本的addDivisorFilter函数:

void addDivisorFilter()
{
    static auto calc1 = computeSomeValue1();    //现在是static
    static auto calc2 = computeSomeValue2();    //现在是static
    static auto divisor =                       //现在是static
    computeDivisor(calc1, calc2);

    filters.emplace_back(
        [=](int value)                          //什么也没捕获到!
        { return value % divisor == 0; }        //引用上面的static
    );

    ++divisor;                                  //调整divisor
}

随意地看了这份代码的读者可能看到“[=]”,就会认为“好的,lambda拷贝了所有使用的对象,因此这是独立的”。但其实不独立。这个lambda没有使用任何的non-static局部变量,所以它没有捕获任何东西。然而lambda的代码引用了static变量divisor,在每次调用addDivisorFilter的结尾,divisor都会递增,通过这个函数添加到filters的所有lambda都展示新的行为(分别对应新的divisor值)。这个lambda是通过引用捕获divisor,这和默认的按值捕获表示的含义有着直接的矛盾。如果你一开始就避免使用默认的按值捕获模式,你就能解除代码的风险。

请记住:

  • 默认的按引用捕获可能会导致悬空引用。
  • 默认的按值捕获对于悬空指针很敏感(尤其是this指针),并且它会误导人产生lambda是独立的想法。

Item 32: Use init capture to move objects into closures

初始化捕获init capture

缺少移动捕获被认为是C++11的一个缺点,直接的补救措施是将该特性添加到C++14中,但标准化委员会选择了另一种方法。他们引入了一种新的捕获机制,该机制非常灵活,移动捕获是它可以执行的技术之一。新功能被称作初始化捕获init capture),C++11捕获形式能做的所有事它几乎可以做,甚至能完成更多功能。你不能用初始化捕获表达的东西是默认捕获模式,但Item31说明提醒了你无论如何都应该远离默认捕获模式。(在C++11捕获模式所能覆盖的场景里,初始化捕获的语法有点不大方便。因此在C++11的捕获模式能完成所需功能的情况下,使用它是完全合理的)。

使用初始化捕获可以让你指定:

  1. 从lambda生成的闭包类中的数据成员名称
  2. 初始化该成员的表达式

这是使用初始化捕获将std::unique_ptr移动到闭包中的方法:

class Widget {                          //一些有用的类型
public:
    
    bool isValidated() const;
    bool isProcessed() const;
    bool isArchived() const;
private:
    
};

auto pw = std::make_unique<Widget>();   //创建Widget;使用std::make_unique
                                        //的有关信息参见条款21

                                       //设置*pw

auto func = [pw = std::move(pw)]        //使用std::move(pw)初始化闭包数据成员
            { return pw->isValidated()
                     && pw->isArchived(); };

高亮的文本包含了初始化捕获的使用(译者注:高亮了“pw = std::move(pw)”),“=”的左侧是指定的闭包类中数据成员的名称,右侧则是初始化表达式。有趣的是,“=”左侧的作用域不同于右侧的作用域。左侧的作用域是闭包类,右侧的作用域和lambda定义所在的作用域相同。在上面的示例中,“=”左侧的名称pw表示闭包类中的数据成员,而右侧的名称pw表示在lambda上方声明的对象,即由调用std::make_unique去初始化的变量。因此,“pw = std::move(pw)”的意思是“在闭包中创建一个数据成员pw,并使用将std::move应用于局部变量pw的结果来初始化该数据成员”。

一般来说,lambda主体中的代码在闭包类的作用域内,因此pw的使用指的是闭包类的数据成员。

如何使用不支持移动捕获的语言完成移动捕获

请记住,lambda表达式只是生成一个类和创建该类型对象的一种简单方式而已。没什么事是你用lambda可以做而不能自己手动实现的。 那么我们刚刚看到的C++14的示例代码可以用C++11重新编写,如下所示:

class IsValAndArch {                            //“is validated and archived”
public:
    using DataType = std::unique_ptr<Widget>;
    
    explicit IsValAndArch(DataType&& ptr)       //条款25解释了std::move的使用
    : pw(std::move(ptr)) {}
    
    bool operator()() const
    { return pw->isValidated() && pw->isArchived(); }
    
private:
    DataType pw;
};

auto func = IsValAndArch(std::make_unique<Widget>())();

这个代码量比lambda表达式要多,但这并不难改变这样一个事实,即如果你希望使用一个C++11的类来支持其数据成员的移动初始化,那么你唯一要做的就是在键盘上多花点时间。

如果你坚持要使用lambda(并且考虑到它们的便利性,你可能会这样做),移动捕获可以在C++11中这样模拟:

  1. 将要捕获的对象移动到由std::bind产生的函数对象中;
  2. 将“被捕获的”对象的引用赋予给lambda

假设你要创建一个本地的std::vector,在其中放入一组适当的值,然后将其移动到闭包中。在C++14中,这很容易实现:

std::vector<double> data;               //要移动进闭包的对象

                                       //填充data

auto func = [data = std::move(data)]    //C++14初始化捕获
            { /*使用data*/ };

我已经对该代码的关键部分进行了高亮:要移动的对象的类型(std::vector<double>),该对象的名称(data)以及用于初始化捕获的初始化表达式(std::move(data))。C++11的等效代码如下,其中我强调了相同的关键事项:

std::vector<double> data;               //同上

                                       //同上

auto func =
    std::bind(                              //C++11模拟初始化捕获
        [](const std::vector<double>& data) //译者注:本行高亮
        { /*使用data*/ },
        std::move(data)                     //译者注:本行高亮
    );

std::bind

lambda表达式一样,std::bind产生函数对象。我将由std::bind返回的函数对象称为bind对象bind objects)。std::bind的第一个实参是可调用对象,后续实参表示要传递给该对象的值。

一个bind对象包含了传递给std::bind的所有实参的副本。对于每个左值实参,bind对象中的对应对象都是复制构造的。对于每个右值,它都是移动构造的。在此示例中,第二个实参是一个右值(std::move的结果,请参见Item23),因此将data移动构造到绑定对象中。这种移动构造是模仿移动捕获的关键,因为将右值移动到bind对象是我们解决无法将右值移动到C++11闭包中的方法。

当“调用”bind对象(即调用其函数调用运算符)时,其存储的实参将传递到最初传递给std::bind的可调用对象。在此示例中,这意味着当调用func(bind对象)时,func中所移动构造的data副本将作为实参传递给std::bind中的lambda

因为bind对象存储着传递给std::bind的所有实参的副本,所以在我们的示例中,bind对象包含由lambda生成的闭包副本,这是它的第一个实参。 因此闭包的生命周期与bind对象的生命周期相同。 这很重要,因为这意味着只要存在闭包,包含伪移动捕获对象的bind对象也将存在。

如果这是你第一次接触std::bind,则可能需要先阅读你最喜欢的C++11参考资料,然后再讨论所有详细信息。 即使是这样,这些基本要点也应该清楚:

  • 无法移动构造一个对象到C++11闭包,但是可以将对象移动构造进C++11的bind对象。
  • 在C++11中模拟移动捕获包括将对象移动构造进bind对象,然后通过传引用将移动构造的对象传递给lambda
  • 由于bind对象的生命周期与闭包对象的生命周期相同,因此可以将bind对象中的对象视为闭包中的对象。

作为使用std::bind模仿移动捕获的第二个示例,这是我们之前看到的在闭包中创建std::unique_ptr的C++14代码:

auto func = [pw = std::make_unique<Widget>()]   //同之前一样
            { return pw->isValidated()          //在闭包中创建pw
                     && pw->isArchived(); };

这是C++11的模拟实现:

auto func = std::bind(
                [](const std::unique_ptr<Widget>& pw)
                { return pw->isValidated()
                         && pw->isArchived(); },
                std::make_unique<Widget>()
            );

具备讽刺意味的是,这里我展示了如何使用std::bind解决C++11 lambda中的限制,因为在Item34中,我主张使用lambda而不是std::bind。但是,该条款解释的是在C++11中有些情况下std::bind可能有用,这就是其中一种。 (在C++14中,初始化捕获和auto形参等特性使得这些情况不再存在。)

请记住:

  • 使用C++14的初始化捕获将对象移动到闭包中。
  • 在C++11中,通过手写类或std::bind的方式来模拟初始化捕获。

Item 33: Use decltype on auto&& parameters to std::forward them

泛型lambdageneric lambdas

泛型lambdageneric lambdas)是C++14中最值得期待的特性之一——因为在lambda的形参中可以使用auto关键字。这个特性的实现是非常直截了当的:即在闭包类中的operator()函数是一个函数模版。例如存在这么一个lambda

auto f = [](auto x){ return func(normalize(x)); };

对应的闭包类中的函数调用操作符看来就变成这样:

class SomeCompilerGeneratedClassName {
public:
    template<typename T>                //auto返回类型见条款3
    auto operator()(T x) const
    { return func(normalize(x)); }
                                       //其他闭包类功能
};

在这个样例中,lambda对变量x做的唯一一件事就是把它转发给函数normalize。如果函数normalize对待左值右值的方式不一样,这个lambda的实现方式就不大合适了,因为即使传递到lambda的实参是一个右值,lambda传递进normalize的总是一个左值(形参x)。

实现这个lambda的正确方式是把x完美转发给函数normalize。这样做需要对代码做两处修改。首先,x需要改成通用引用(见Item24),其次,需要使用std::forwardx转发到函数normalize(见Item25)。理论上,这都是小改动:

auto f = [](auto&& x)
         { return func(normalize(std::forward<???>(x))); };

在理论和实际之间存在一个问题:你应该传递给std::forward的什么类型,即确定我在上面写的???该是什么。

Item28解释过如果一个左值实参被传给通用引用的形参,那么形参类型会变成左值引用。传递的是右值,形参就会变成右值引用。这意味着在这个lambda中,可以通过检查形参x的类型来确定传递进来的实参是一个左值还是右值,decltype就可以实现这样的效果(见Item3)。传递给lambda的是一个左值,decltype(x)就能产生一个左值引用;如果传递的是一个右值,decltype(x)就会产生右值引用。

那是一个很好的消息,因为当传递给lambda形参x的是一个右值实参时,decltype(x)可以产生一个右值引用。前面已经确认过,把一个左值传给lambda时,decltype(x)会产生一个可以传给std::forward的常规类型。而现在也验证了对于右值,把decltype(x)产生的类型传递给std::forward是非传统的,不过它产生的实例化结果与传统类型相同。所以无论是左值还是右值,把decltype(x)传递给std::forward都能得到我们想要的结果,因此lambda的完美转发可以写成:

auto f =
    [](auto&& param)
    {
        return
            func(normalize(std::forward<decltype(param)>(param)));
    };

再加上6个点,就可以让我们的lambda完美转发接受多个形参了,因为C++14中的lambda也可以是可变形参的:

auto f =
    [](auto&&... params)
    {
        return
            func(normalize(std::forward<decltype(params)>(params)...));
    };

请记住:

  • auto&&形参使用decltypestd::forward它们。

Item 34: Prefer lambdas to std::bind

lambdastd::bind之间的优劣

lambda相比,使用std::bind进行编码的代码可读性较低,表达能力较低,并且效率可能较低。 在C++14中,没有std::bind的合理用例。 但是,在C++11中,可以在两个受约束的情况下证明使用std::bind是合理的:

  • 移动捕获。C++11的lambda不提供移动捕获,但是可以通过结合lambdastd::bind来模拟。 有关详细信息,请参阅Item32,该条款还解释了在C++14中,lambda对初始化捕获的支持消除了这个模拟的需求。
  • 多态函数对象。因为bind对象上的函数调用运算符使用完美转发,所以它可以接受任何类型的实参(以Item30中描述的完美转发的限制为界限)。当你要绑定带有模板化函数调用运算符的对象时,此功能很有用。 例如这个类,
class PolyWidget {
public:
    template<typename T>
    void operator()(const T& param);
    
};

std::bind可以如下绑定一个PolyWidget对象:

PolyWidget pw;
auto boundPW = std::bind(pw, _1);

boundPW可以接受任意类型的对象了:

boundPW(1930);              //传int给PolyWidget::operator()
boundPW(nullptr);           //传nullptr给PolyWidget::operator()
boundPW("Rosebud"); 		//传字面值给PolyWidget::operator()

这一点无法使用C++11的lambda做到。 但是,在C++14中,可以通过带有auto形参的lambda轻松实现:

auto boundPW = [pw](const auto& param)  //C++14 
               { pw(param); };

当然,这些是特殊情况,并且是暂时的特殊情况,因为支持C++14 lambda的编译器越来越普遍了。

bind在2005年被非正式地添加到C++中时,与1998年的前身相比有了很大的改进。 在C++11中增加了lambda支持,这使得std::bind几乎已经过时了,从C++14开始,更是没有很好的用例了。

请记住:

  • 与使用std::bind相比,lambda更易读,更具表达力并且可能更高效。
  • 只有在C++11中,std::bind可能对实现移动捕获或绑定带有模板化函数调用运算符的对象时会很有用。