PHP7:反序列化漏洞案例及分析
发布时间:2020-04-26 | 发布者: 东东工作室 | 浏览次数: 次1、漏洞历史
对于黑客来说,如果能够利用服务器端错误,那简直相当于中了头彩。因为用户倾向于将他们的数据保存在服务器中,如果黑客能够利用这个错误,就能针对某一个目标,从而获取更大的收益。PHP脚本语言是时下最流行的web服务器端语言之一。为了消除PHP开发过程中不同类型的漏洞,人们采用了多种安全编码方案。
然而,安全编码方案不能掩盖语言本身的缺陷。PHP是用相对低级的语言写成的,其中常见的漏洞有内存损坏漏洞,而use-after-free漏洞最为普遍。
这些年来,PHP语言得到了不断的改进,在2015年12月,一个重要的新版本——PHP7被公布出来。这个版本的内部结构与PHP5有很大不同,分配器已经发生了改变,而变量的内部表示(zvals)也完全不同了。
通过一个反序列化漏洞,Check Point研究小组成功演示了一项对PHP7的利用。在这篇报告中,我们将会一步步解释这是如何完成的。
2、技术背景
为了更好地解释这项利用,我们首先要回顾一些关键的技术细节。
(1)值和对象
在PHP-7中,用来保存值的结构与php-5有所不同。
在内部保存值的结构是zval(_zval_struct)。这个结构的第一个字段是zend_value,其中包含指向PHP基本类型的指针和结构,而主要类型有Boolean、integer、double、string、object和array 等。
我们需要关注的类型是String、Object和Array,它们在内部中被表示为zend_string、zend_object和zend_array结构。
zend_string是用于保存字符串的结构。当引擎创建了一个新的字符串后,它会分配足够的字节给zend_string结构,对字符串的大小进行扩充。然后,它会用字符串的数据填补这个结构的字段,并在结构的末尾添加上字符串的内容。因此,字符串创建为我们提供了一种在不同的尺寸中进行分配的方法:sizeof(zend_string)+ strlen(str)= 16 + strlen(str)。这样,我们就没法再伪造一个字符串zval,并让它指向我们想要的地方了,这和使用PHP-5时有所不同。
zend_object用来表示对象的基本结构。它通常被嵌入在一个代表着不同类型对象的结构中。当zval保存了一个对象时,它的value 字段是一个指向zend_object的指针。
zend_array(又名HashTable)是保存键值存储的结构。这是一个对哈希表数据结构的直接应用,其中的arData字段指向Bucket结构内的一个数组。
总体来说,我们可以看到,PHP-7值系统更倾向于嵌入结构(PHP-5相比)。这种改变可以提高代码的效率(减少分配),让我们难以利用与内存相关的bug(更少的引用)。
(2)PHP-7内存分配器
在PHP-7中,内存分配器的工作原理不同于PHP-5。小的分配(slot)由一个free list完成。每个分配大小都有一个对应的free list。free list通过一个或多个连续页(bin)进行初始化,而free list的初始化使得每一个slot指向下一个slot。一旦free list耗尽,一个新的bin会被分配出来。
重点:
(3)反序列化
unserialize函数被用于将格式化字符串内的对象进行实例化,在反序列化期间,每个解析元素都有一个索引号,号码从1开始。
在内部,每个解析值都被放到了php_unserialize_data_t的两个数组中。第一个数组是values-array,第二个是destructor-array。在反序列化期间,值可以重新定义,即在stdClass(最基本的PHP的对象——一个键值存储)中,同一个key可以用不同的值反序列化两次。如果是这样的话,第一个定义会被覆盖,引用也会从数值数组中被移除。然而引用会被保存在destructor-array中。当反序列化结束时,destructor-array中每个值的引用数都会被减少,如果减少到零,它就会被释放。
所以请记住,在反序列化过程中,值不能被释放,只有最后的过程中才可以。
3、BUG (# 71311)
这里的bug是一个Use-After-Free bug,培训存在于标准php库内ArrayObject的反序列化函数中。
ArrayObject是一个SPL对象,它允许对象以数组的形式工作。在内部,它被表示为spl_array_object。这是该对象的序列化形式:
spacer.gif
C:11:"ArrayObject":37:{x:i:0;a:2:{i:0;i:0;i:1;i:1;};m:a:0:{}}
当对ArrayObject进行反序列化时,引擎首先会将一个默认的、拥有内部数组的ArrayObject实例化,然后解析ArrayObject的字段。当它解析到与内部数组相关的部分时,会释放初始的内部数组,然后通过引用,调用php_var_unserialize,并指向内部数组,目的是想让函数将它变成已经解析过的内部数组。内部数组可以是一个已经解析的数组的引用,在这种情况下,内部数组被修改为指向引用的数组,同时引用计数会有所增加。
在内部数组对自身进行引用时,错误出现了。这导致内部指针被分配给自己(即无操作),并指向释放了的数组,然后,数组的引用计数会增加。
4、有漏洞的代码
我们利用的代码常被用于反序列化开发。我们建立了一个运行以下PHP脚本的apache服务器:
这个脚本给了我们一个反馈。尽管我们对远程可利用性的要求有所降低,但在每一个情境中,反映到客户端的反序列化数据都是适合的。
我们通过向data参数内的脚本发送字符串进行了利用。在利用过程中,我们从返回的序列化字符串中推断出了一些内部信息。
5、触发这个错误
为了触发这个错误,ArrayObject的内部数组必须引用自身。如前所述,每个解析值会分配到一个索引值。
这是我们最初的字符串:
反序列化这个字符串会触发错误,并导致ArrayObject::unserializ 内的intern→array 指针指向一个被释放了的slot,然后返回到再分配堆。然而,当对members数组进行反序列化时,这个slot被立即分配了(第1798行)。
如前所述,错误导致了堆的损坏。如果我们立即分配相同的slot,损坏的堆不能被修复。在这种情况下,我们没有办法安全地分配新对象。
一个更好的解决方法是,将members数组引用到已经反序列化的数组中,避免它被分配到一个新的数组。
反序列化:
现在,ArrayObject的内部数组正在引用自身, 错误已经引发。Members数组是对一个空数组(在stdClass中实例化的第一个对象)的引用。因此, free slot仍然在堆中,可以由我们分配。
接下来,我们需要修复损坏的堆。当我们引发错误时,内部数组的refcount增加了两次:第一次是在反序列化这个引用的时候,第二次是在引用destructors-array的时候。
zend_array的refcount是整个结构中的前面四个字节。当slot在进行去分配时,分配器会使用slot的前四个字节作为指针,指向bin 的free list内的下一个对象。所以,refcount的增量实际上是由于指针增加了2。
为了解决这个问题,我们需要通过引用让count / free list指向一个有效的已释放的slot。zend_array的大小为44个字节,因此它属于48字节大小的bin。可以假定下一个free slot在内部数组后面48字节处(在损坏之前)。为了解决这个问题,我们需要将refcount /指针增加46(2 + 46 = 48)。随着每个反序列化引用的增加,refcount 都会增加2,我们需要再添加23个对已释放数组的引用 (2 + 23 * 2 = 48)。
由此产生的字符串是这样的:
现在我们可以对48-bin内的任何对象——即大小为41-48字节的对象进行反序列化,从而分配已释放的对象。
当我们用自己的对象占用已释放的slot后,还有一件事需要担心:当反序列化过程结束后, destructor-array中的所有引用都减少了。这意味着refcount将下降23。所以在分配后,我们至少要将引用计数增加23。如果我们增加的数量小于23,对象会被释放,这会导致它变成free list内的指针,然后降低更多,从而导致堆的损毁。
因此,稳定的触发器是以下的字符串:
在这种情况下,我们仍然有一个分配给使用着的slot的空数组对象。当然,它不是很有用,但是很稳定,不会让引擎崩溃。如果我们少引用了一次数组,数组和其中所有对象都将被释放。我们可以利用这个性质来获得代码执行。
重点:
6、泄漏指针
在典型的PHP-5反序列化利用中,我们会使用分配器来覆盖一个指向字符串内容的指针,从而阅读下一个堆slot的内容。然而在PHP-7中,内部字符串的表示是截然不同的。
在PHP-7中, 基本结构struct zval在内部指向结构zend_string,从而引用字符串。zend_string转而使用member数组,将字符串嵌入到结构的末尾。因此,直接指向字符串内容的指针不可以被覆盖。
然而, PHP-5的技术可能会让指针发生泄漏。如果一个结构的第一个字段指向了一些我们可以阅读的内容,我们可以对该结构进行分配和释放,随后分配器会让它指向先前已经释放的slot,这会允许我们读取一些内存。
幸运的是, 在内部表示为php_interval_obj结构的DateInterval对象非常有用。这是定义:
timelib_rel_time就是一种简单的结构,没有指针或其他复杂的数据类型,只有integer类型。这是定义:
让有效载荷发生内存泄漏:
结果是:
如果我们做一些格式化的工作,就能看到我们已经读取到了一些内存。在取得了struct timelib_rel_time字段的偏移量后,我们读到了以下的值:
所以,我们可以推断出内存是这样的(注意,在序列化过程中,timelib_slll字段被int取整了):
7、泄漏指针( 64位)
在64位版本中,我们泄漏初始信息的方法和在32位版本中是一样的。但在64位中,这种方法更有用,因为我们将整个内存都转换成了int型,并且没有截断。
因此,我们需要创建两个DateInterval对象,然后用第一个对象读取第二个对象的内存(而不是读取无用的字符串)。
8、读取内存( 64位)
在前面的内容中,我们泄露了堆和代码的地址。我们现在需要做的是读取内存地址,从而获取足够的数据来构建一
现在,读取任意内存变得有点棘手了,因为我们既不能伪造一个数组,也没法控制它的字段(我们不能控制arData)。幸运的是,我们可以使用另一个对象:DatePeriod。
DatePeriod在内部表示为php_period_obj结构。下面是定义:
注意第一个字段,这是一个指向timelib_time结构的指针。当这个对象被释放时, 结构的第一个字段会被分配器覆盖,从而变成相同大小的指向已释放的结构的指针。因此,在分配之后,引擎会读取timelib_time。下面是timelib_time的定义:
我们看到,tz_abbr字段一个是指向char(一个字符串)的指针。在对DatePeriod对象进行序列化时,如果zone_type 是TIMELIB_ZONETYPE_ABBR(2),那么tz_abbr指向的字符串会被strdup复制,然后进行序列化。这对读取primitive施加了一些限制,我们每次只能读取一个NULL字节。
现在,我们需要找到哪一个对象是在DatePeriod之前被释放的。
假如我们想读取0 x7f711384a000,就需要发送这个:
我们可以看到,timelib_rel_time 内days字段的偏移量和timelib_time内的tz_abbr是一样的。
DatePeriod填充是最后一步,同时这也是最复杂的。当DatePeriod对象被序列化时,date_object_get_properties_period函数会被调用,并返回properties HashTable进行序列化。这个HashTable 就是zend_object properties字段(嵌入在php_period_obj结构内),它会在DatePeriod对象创建时被分配。在将这个HashTable返回给调用者之前,函数会用php_period_obj内每个字段的值来更新这个哈希表。这听上去很简单,但试想一下, 在释放DatePeriod对象时,这个HashTable已经被释放了,这意味着它的第一个字节是指向free list的指针。为了了解这个损坏造成的影响,我们需要明白PHP是如何应用哈希表的。
当一个新的哈希表分配进来,一个zend_array类型的结构会被初始化。这个数组使用arData字段指向实际的数据,其他字段则作用于table capacity和负载。
数据分为两部分:
1、哈希散列数组,它将哈希(被nTableMask掩盖)映射到各个索引号。
2、数据数组, 它是Buckets内的数组,包含哈希表内实际数据的key和值。
在对zend_array进行初始化时,将要存储的元素数量会被四舍五入为最接近的2的幂数,然后一个新的内存slot数据会被分配给这些数据。分配数据的大小为size * sizeof(uint32_t) + size * sizeof(Bucket)。然后,arData字段会被设置为指向Bucket数组的开头。当一个值被插入到表中时,zend_hash_find_bucket函数会被调用来找到正确的bucket。这个函数会对key进行散列,然后生成的散列会被nTableMask表掩盖。结果是一个负数,这代表着散列数组内拥有bucket索引号的元素的数量(即在arData之前,拥有bucket索引号的uint32_t元素的数量)。
现在,当散列表被释放时, slot分配给arData的前8个字节会被覆盖,这会破坏散列数组内的前两个索引号。不幸的是,其中的一个索引号是我们需要的!在被nTableMask 掩盖的时候,“current” key的散列值为-8,表明这是一个损坏的元素(第一个单元)。
为了解决这个问题,我们需要让表增大,从而避免任何key使用前两个单元。令人惊讶的是,反序列化源为我们提供了一个非常简洁的方法:它能扩展properties哈希表的大小,而这大小为提供给对象的元素的数量。所以,如果我们把更多无用的元素放到DatePeriod字符串的key-value哈希表内, properties哈希表就能得到扩展。初始化给定哈希表内DatePeriod的函数只会关注预定义的key (如“start”, “current”等) ,它不会检查哈希表的大小,所以这些没用的值不会产生任何影响。因此,我们可以对哈希表的散列数组的大小进行扩充,并确保所有的key都不会落在第一个单元格。
3、读取内存和代码执行(64位)
在分配UAF对象之前,我们需要修复损坏的堆。为了解决这个问题,我们可以增加内部数组的值,直到它指向free list中的下一个空闲对象。这个对象已经经过了bin的两次分配。在第二次分配后, 通过返回的slot,free list能够保存指针指向的值。因此,如果我们可以在错误被触发之前控制free list中的内容,就能控制free list的指针。控制了这个指针后,我们就能把对象分配到这个地址。
我们应当如何控制free list内slot的内容?我们曾经提到过,在反序列化过程中值不能被释放,这是事实,但不是全部的事实。我们不能释放值,是因为它们被放进了destructor数组,然而key没有被放进这个数组。所以,这里有一种在反序列化过程中释放一个字符串的方法:如果一个字符串被作为key使用了两次,第二次使用就是返回到堆。通常情况下,如果一个key只被使用了一次,这个key的引用计数会增加两次(被创建并插入到哈希表),减少一次(在循环解析嵌套数据的最后)。然而,如果这个key已经存在于哈希表中,只会各增加和减少一次,然后被释放。
这意味着,我们可以控制返回给free list的最后一个slot的内容。然而,这个slot会被即将释放的对象使用(即覆盖)。因此,我们需要找到一种方法来控制两个返回到堆的slot,这可以通过嵌套完成。如果我们使用同一个key两次,且第二次的值是一个两次使用相同key的stdClass,那么这些key会一个接一个地进行去分配。这样,我们就可以把尽可能多的字符串放到free list内了。
这很容易,我们只需要增加22个损坏的指针(22 + 2 = 24——zend_string内val字段的偏移量),这恰好是释放了的字符串的值。这个字符串的值指向php_interval_obj之前的一个已分配的字符串。这个字符串的末尾被设置为0,目的是让分配器以为free list已经耗尽(如果不是NULL,那它必须得是一个指向free list的有效指针,这太难找了)。这样做之后, 大小为56的第三次分配 (sizeof(zend_array)) 会覆盖php_interval_obj之前的字符串末尾,还有php_interval_obj对象的开头。这让我们得以覆盖php_interval_obj 内zend_object部分的ce字段。ce字段是一个指向zend_class_entry的指针,而zend_class_entry拥有指向各种功能的指针。因此,覆盖这个值意味着控制了RIP。
这是我们的利用(分配0 x0000414141414141到ce):
在我们将调试器附加到apache,并发送上面的字符串时,我们得到了一个段错误:
Program received signal SIGSEGV, Segmentation fault. php_var_serialize_intern (buf=0x7ffcd3cc10e0, struc=0x7f710e667b60, var_ hash=0x7f710e6772c0) at /build/php7.0-7.0.2/ext/standard/var.c:840 840 if (ce->serialize != NULL) { (gdb) print ce $1 = (zend_class_entry *) 0x414141414141
我们可以看到,ce包含着我们预期的值。
这个堆的写入能力为其他的primitive提供了机会,例如任意读取primitive或其他的执行primitive。注意,这不仅仅局限于64位的情况——它在每一个架构中都适用。
现在,我们现在控制了free list中的内容。在引发这个错误之前,我们不需要再假设在UAF指针之后,下一个空闲slot刚好是56字节(在32位中是48)。
我们已经有了一个泄漏primitive,读取primitive和代码执行primitive,这样,我们的工作就算就完成了。下面的内容就交给读者了。
9、结语
反序列化实际上是一个危险的功能。这一点在过去的几年已被反复证实,但仍然有人在使用它。
相比之下,序列化格式要复杂得多,而且在被传递进行解析之前很难验证。复杂的格式需要用复杂的机器来解析,为了保证安全,我们需要避免使用这种复杂的格式。
转载请标注:东东工作室——PHP7:反序列化漏洞案例及分析