Week 1 - kernel pwn 常見操作與保護機制
本文章涵蓋 kernel pwn 常用於 exploit 的操作,背後實作架構,及常見的保護機制。
分配記憶體
kmalloc
申請的 memory 在物理上連續,大小不超過 4MB,效能較快。vmalloc
申請的 memory 在物理上不連續,申請的單位為 page。
映射位置在 vmalloc/ioremap space,大小任意,可能被 block。
由於 kernel 需要將多個 physical address 映射到一塊 virtual address,因此效能較慢。kvmalloc
大於 1 page 使用vmalloc
,反之kmalloc
。kzmalloc
同kmalloc
,附加GFP_ZERO
flag 清空資料。kmem_cache_alloc
從特定的 slab allocator 分配。alloc_pages
向 buddy system 要一塊記憶體,大小不超過 4MB。
setxattr
setxattr
用於編輯某個 inode attribute,由於裡面先 kvmalloc 一塊記憶體,copy_from_user 後 free 掉,常搭配 userfaultfd, FUSE 做 race condition 利用。
1 | static long |
pipe
預設 pipefd[0]
讀取,pipefd[1]
寫入。
pipe 緩衝區是有限的,write 時可能會 block 住。
O_CLOEXEC
在 execve 時關閉 fdO_NONBLOCK
所有 IO 操作變為 non-blocking
linux 本身就有叫 pipeline 的機制,而 pipe()
用來創建一個匿名的 pipeline。
kernel 裡面由 do_pipe2
處理 pipe syscall,連結 fd 和 file struct。其中 __do_pipe_flags
負責創建 fd,create_pipe_files
創建匿名檔案。
1 | int create_pipe_files(struct file res, int flags) |
複製資料
圖片來自 jserv
- read+write
需要四次 copy。
- mmap
可通過 shared memory 減少一次 copy。然而,兩個程式對同一 file 寫入會觸發 SIGBUS。
況且,記憶體管理需要代價。用 read 依序讀資料,可增加 cache hit 的機率,可能速度更快。
- sendfile
在 kernel space 裡面做 copy。若 out_fd 是 socket,且網卡支援 zero-copy,則減少為兩次 copy。
檢查是否支援 zero-copy:1
ethtool -k eth0 | grep scatter-gather
splice
在 kernel 達成 zero-copy,不需硬體支援,out_fd 也可以是 file。
splice 背後用 pipe 達成,最關鍵在 *obuf = *ibuf;
。
一個 pipe_inode_info
包含多個 buf 儲存資料,而一個 buf 包含一個 page,splice 只是將 pipe_buffer
的 pointer 複製而已。
1 | static int splice_pipe_to_pipe(struct pipe_inode_info *ipipe, |
tee
splice 能高效搬移資料,若 fd_in
是 pipe, socket 或 stdin,裡面的東西會搬到 fd_out
,不能再從 fd_in 讀。
如果是檔案,它只移動 offset 位置,lseek
恢復即可。
tee 就像 splice,能通過 pipe 複製資料,tee 背後調用 link_pipe
行為非常像 splice_pipe_to_pipe
,只是少了 ibuf->offset += len; ibuf->len -= len;
的行為。
1 | static ssize_t link_pipe(struct pipe_inode_info *ipipe, |
dup2
和 tee
有點相像,但 dup2
只是創建新的 fd,指向相同的已開啟 file。vmsplice
可將 pipe buffer 映射到 user space,除此之外沒什麼用。
madvice
建議 kernel 怎麼用這塊記憶體,幫助 kernel 採用不同做法提升效能。
平常用 mmap 僅是創造一個 logical address 映射關係,實際取用資料時,仍以 demand paging 處理。搭配 madvice,可告知 kernel 對記憶體的預處理操作。
MADV_RANDOM
未來會隨機訪問任一 offset,所以 prefetch 沒什麼用,不建議 prefetch。MADV_SEQUNTIAL
照順序讀取資料,且每個 addr 最多讀一次,可 prefetch 提升效能。MADV_WILLNEED
很快就訪問到,可先 prefetch。MADV_DONTNEED
不再被訪問到,可被 swap。MADV_DONTFORK
child process 不繼承 parent 的記憶體,防止 copy-on-write。
mmap 相關的 function 還有 mremap, munmap,僅單純重新 allocate 或 de-allocate 記憶體。
tty device
TTY 用於溝通程式與設備的 input/output。
假設執行一個 bash,它需要得到鍵盤輸入,並將結果輸出於螢幕,背後就是 tty driver 在支援。另外,也可將資料送給 bluetooth, usb port, ssh console 等。
假設要監聽鍵盤和滑鼠輸入,尋找相應的 device。
這些 device 會送資料過來,user space 的程式就可開啟他,來做一些操作。
不過 /dev/input
顯示的是掃描碼,真實資料要看經 tty 處理過的資訊。
此實驗右側 console 使用 /dev/pts/1
處理輸入輸出。嘗試在左側監聽它,右側鍵盤輸入有機會被左邊搶走。
也可以在左側輸入字元到右側。
打開 ssh,電腦也創建一個 tty 處理遠端 input/output。
運作
在 user space 使用某個 tty driver,背後先經過 tty core 定義的處理程序,才將訊息丟給開發者撰寫的 driver operations。
輸出會自動存在 buffer,經過 line discipline 轉換給 tty core,傳至 user space。其中 line discipline 行為、buffer 行為皆可設定。
tty driver 共有 console, serial port, pty 三種類型。新的 tty driver 通常針對 serial port,console 和 pty 經過長時間開發,可滿足多數應用場景。/proc/tty/drivers
可顯示 driver 資訊,包括 name, path, major number, minor number, type。
開發的 tty driver 會在 /proc/tty/driver
創建 file,tty device 在 /sys/class/tty
皆有子目錄,包含 dev 檔案紀錄 major, minor number。
結構體
tty_driver
管理整個 tty driver。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44struct tty_driver {
struct kref kref;
struct cdev cdevs;
// 由哪個 kernel module 擁有,其值在 tty_alloc_driver() 自動設定
struct module *owner;
// 用來識別 driver,driver 路徑在 /proc/tty/[driver_name]
const char *driver_name;
// 用來產生 device name,device 路徑在 /dev/[name][index]
const char *name;
int name_base;
// device 的 major number,以及 minor number 從多少開始
int major;
int minor_start;
unsigned int num;
short type;
short subtype;
struct ktermios init_termios;
unsigned long flags;
struct proc_dir_entry *proc_entry;
// 只用在 pty driver
struct tty_driver *other;
// user 互動時用到的 tty_struct
struct tty_struct ttys;
struct tty_port ports;
struct ktermios termios;
void *driver_state;
// 定義對 tty 的操作,如 open, close, write
const struct tty_operations *ops;
// 所有 tty driver 被一個 list 串起來,tty_drivers 指向 list head
struct list_head tty_drivers;
};tty_struct
tty device 在 tty core 的內部表示。
以 driver 角度,其結構會傳入open
,write
等函數中,表示一個 device 的 handle,它也用於存 tty 動態資訊。
此結構暫時存在,open 時創建,close 時釋放。tty_port
tty device 某個 port 的資訊,如 buffer, lock 管理、對 port 的 operations、關閉時是否需要 delay。- tty line discipline
用於對數據進行轉換,一般由 kernel 提供,例如N_TTY
負責標準的終端行為,N_SLIP
用於網路介面。 - termios
對 input/output 的設定和轉換,例如 bitrate、將\n
轉換為\r\n
、允許 Ctrl-C 產生SIGINT
。
這些設定以ktermios
結構儲存,driver 初始化也會設定init_termios
。
在 user 程式,會調用termios.h
來進行相關設定,driver 無需實作這部分。
創建一個 tty
1 | static struct tty_operations tiny_serial_ops = { |
tty->driver_data
存放和 user 溝通的 context,可自定義。
此範例放名為 tiny_serial
的結構。index 表示第幾個 device,若 tiny_table[index] == NULL
,代表此 device 沒在用。
1 | static int tiny_open(struct tty_struct *tty, struct file *filp) |
tty driver 沒有實作 read()
,因為 user 接收 tty core, discipline 的數據。
CTF 應用
基本上打開 /dev/ptmx
就能創建一個 tty_struct
,用於洩漏 text, heap,或用 tty_struct->ops
劫持 rip。
shm
SysV
SysV 是 Unix System V 的簡稱,其 IPC 機制也被 Linux 相容,但不屬於 POSIX 標準。key
是 SysV 中描述檔案的符號,有點像全局的 file descriptor,使 shmget
等函數基於此檔案操作。
shmget
在 key 所在的路徑創建 size 大小的 shared memory objectshmat
attach 上某個 address,回傳 pointer 可供操作,shm 映射是這裡才建立的shmdt
將 pointer 取消啟用,也就是對這個 pointer 操作不再影響 shm
1 |
|
1 |
|
執行以上程式,發現多了一塊 shm 的區域,Mem shared 大小也增加。
POSIX
ftruncate
可將檔案裁剪為指定大小。shm_open
創建一個檔案在 /dev/shm
和 /run/shm
,之後用 mmap 讓兩個 process 共享資料。
由於 /dev/shm
是一種 tmpfs,其內容可自動消失。
1 |
|
1 |
|
CTF 應用
使用 shm 時,kernel 維護 shm_file_data
結構,其包含 ns
, vm_ops
可洩漏 .text,file
可洩漏 direct mapping area。
1 | struct shm_file_data { |
shmat
創建此結構。
1 | long do_shmat(int shmid, char __user *shmaddr, int shmflg, |
shmdt
呼叫時關閉相應文件,
1 | static int shm_release(struct inode *ino, struct file *file) |
目前追不到呼叫 shm_release
的地方,尚未明白為何不能用 vm_ops
劫持 RIP。
保護機制
https://github.com/nccgroup/exploit_mitigations/blob/main/linux_mitigations.md
SMEP
禁止 kernel mode 執行 user memory 上面的 instruction。
此設定存在 cr4 register 第 21 位。
- 檢查方式:
cat /proc/cpuinfo | grep smep
- qemu 設置:
-cpu +smep
- 繞過:修改 cr4, ROP
SMAP
禁止 kernel mode 不透過 copy_from_user
, copy_to_user
,就能存取 user memory 的內容。
若無 SMAP,可能造成以下攻擊方式:
- user 先 mmap 一塊記憶體存放 ROP gadget,利用 kernel 漏洞跳至
mov esp, 0xbbefffc3 ; ret
等類似指令,造成更方便的 ROP。 - 若 driver 直接使用 memcpy 複製 user memory 至內部,user 可傳入 kernel address,進一步洩漏 kernel 資訊。
- 檢查方式:
cat /proc/cpuinfo | grep smap
- qemu 設置:
-cpu +smap
- 繞過:修改 cr4, ROP
KPTI
限制 user page table,使其缺少大部分 kernel address 的映射,用於防止 meltdown。
並且在 kernel mode 時 user memory 都標記 NX,避免 ret2usr。
- 檢查方式:
cat /sys/devices/system/cpu/vulnerabilities/meltdown
- qemu 設置:
-append pti=on
- 繞過:
- 跳至
swapgs_restore_regs_and_return_to_usermode
以回到 user mode 執行後續程式 - 註冊 signal handler。
當程式返回 user space 且 page table NX 尚未恢復,會觸發SIGSEGV
跳至 signal handler,此時 signal handler 是可執行的。
- 跳至
KADR
限制 printk
打印的 kernel address。
設定由 /proc/sys/kernel/kptr_restrict
控制,1 代表擁有 CAP_SYSLOG
才能看 kernel address,2 代表全部不可見。
KADR 只限制 %p
, %pK
打印的資訊,其他洩漏方式仍是可行的。
- 檢查方式:
cat /proc/sys/kernel/kptr_restrict
- qemu 設置:
echo 2 > /proc/sys/kernel/kptr_restrict
- 繞過:需 leak kernel 上的位址,本地可關閉 KADR 方便 debug
KASLR
隨機決定 segment 起始位置,包括 text, data, stack 等。
- 檢查方式:
cat /proc/kallsyms
查看 codebase 是否有變 - qemu 設置:
-append kaslr
- 繞過:透過 kernel 漏洞洩漏
FG-KASLR
在 KASLR 基礎上,隨機化各 function 的起始位置。也就是說,就算洩漏 text 段也不曉得 function 的確切位址。
- 檢查方式:確認 boot config 開啟
CONFIG_FG_KASLR
- 設置:編譯時開啟
-ffunction-sections
和CONFIG_FG_KASLR=y
- 繞過:
- 部分函數仍存在 text 段,如
swapgs_restore_regs_and_return_to_usermode
,且 data, heap 位址不受影響,照樣可利用。 - function 內部相對位置固定,不受影響。
- 部分函數仍存在 text 段,如
CONFIG_MEMCG_KMEM
在 slab allocator 中,許多 kernel 相關結構依照大小,由 kmalloc-x
的 cache 來分配,其中 x 與結構大小有關。
開啟 CONFIG_MEMCG_KMEM,且 malloc 時傳入 GFP_KERNEL_ACCOUNT
,便會新增另一組 cache kmalloc-cg-x
以隔離重要內容。
- 檢查方式:確認 boot config 開啟
CONFIG_MEMCG_KMEM
- 設置:
CONFIG_MEMCG_KMEM=y
- 繞過:
- 漏洞使用的原 cache 仍有可利用的結構,例如
msg_msg
,pipe_buffer
,sk_buff
- 利用跨 cache 攻擊
- 漏洞使用的原 cache 仍有可利用的結構,例如
SLAB_ACCOUNT
若 kmem_cache_create
傳入此 flag,就會創建獨立的 cache,像 cred
, task_struct
, mm_struct
就是用此方式分配。
- 繞過:跨 cache 攻擊
CONFIG_SLAB_FREELIST_RANDOM
slab allocator 向 buddy system 申請記憶體時,打亂 object 在 freelist 的順序,然而,運行中仍遵循 LIFO。
- 檢查方式:確認 boot config 開啟
CONFIG_SLAB_FREELIST_RANDOM
- qemu 設置:
CONFIG_SLAB_FREELIST_RANDOM=y
- 繞過:利用分配過程的順序攻擊,也可跨 cache 攻擊
CONFIG_SLAB_FREELIST_HARDENED
類似 glibc 2.32 引入的 safe-linking。object->next
會指向當前 object、下一 object、kmem_cache 指定的 random 值做 xor。
- 檢查方式:確認 boot config 開啟
CONFIG_SLAB_FREELIST_HARDENED
- 設置:
CONFIG_SLAB_FREELIST_HARDENED=y
- 繞過:或許可參考 how2heap 針對 safe-linking 的處理
CONFIG_HARDENED_USERCOPY
copy_from_user
, copy_to_user
時,檢查長度是否超過 kernel object 的範圍。
- 繞過:或許可參考 how2heap 針對 safe-linking 的處理
CONFIG_INIT_ON_ALLOC_DEFAULT_ON
buddy system 和 slab 分配時,皆清空 object 內容。
CONFIG_LIST_HARDENED
從 list 移除 entry 時,檢查 entry->next->prev == entry == entry->prev->next
。
- 繞過:控制更多 entry,修改目標的 prev, next entry 資料
CONFIG_STATIC_USERMODEHELPER
關閉一些讓攻擊變得更方便的目標,如 modprobe, coredump。
CONFIG_RANDOM_KMALLOC_CACHES
對每個 size 創建 16 個 slab cache,使得 heap spray 成功率下降。
- 繞過:spray 更多 object 提升成功率
參考資料
- https://hackmd.io/@sysprog/linux2020-zerocopy
- https://ctf-wiki.org/pwn/linux/kernel-mode/basic-knowledge/
- https://arttnba3.cn/2021/11/29/PWN-0X02-LINUX-KERNEL-PWN-PART-II/#0x06-shm-file-data-%E4%B8%8E%E5%85%B1%E4%BA%AB%E5%86%85%E5%AD%98%E7%9B%B8%E5%85%B3
- https://mshrimp.github.io/2020/08/02/linux-kernel%E4%B8%AD%E7%9A%84tty%E9%A9%B1%E5%8A%A8/
- https://www.oreilly.com/library/view/linux-device-drivers/0596005903/ch18.html
- https://zhuanlan.zhihu.com/p/665557508