fixes and updates for t10
[automated-distro-installer] / fai / config / hooks / partition.DEFAULT
index e9cce5009a04fb20311611299064982c7cd51353..534e1fac2b2d1f8e4c0437329f743eaf910cfcb5 100755 (executable)
@@ -29,8 +29,10 @@ fi
 # s
 # source /b/fai/fai-wrapper
 # - set any appropriate classes with: fai-setclass OPT1... which sets CLASS_OPT1=true...
-#   or run eval-fai-classfile FILE
-# export luks_dir=/q/root/luks
+#   or run eval-fai-classfile FILE.
+# - Set a VOL_DISTROVER, eg:
+#   fai-setclass VOL_NABIA
+# - export luks_dir=/q/root/luks
 #
 # OPTIONS:
 #
@@ -92,17 +94,28 @@ fi
 
 #### begin configuration
 
+# this is the ordering of the /dev/sdaX, but
+# the ordering of the partition layout goes like this:
+# bios_grub
+# grub_ext
+# efi
+# root
+# swap
+# boot
+
 rootn=1
 swapn=2
 bootn=3
+efin=4
 # ext partition so grub can write persistent variables,
 # so it can do a one time boot. grub can't write to
 # btrfs or any cow fs because it's more
 # more complicated to do and they don't want to.
-grub_extn=4
+grub_extn=5
 # bios boot partition,
 # https://wiki.archlinux.org/index.php/GRUB
-bios_grubn=5
+bios_grubn=6
+even_bign=7
 lastn=$bios_grubn
 
 
@@ -111,7 +124,7 @@ lastn=$bios_grubn
 
 
 add-part() { # add partition suffix to $dev
-  local d ret
+  local d part
   if [[ $# == 1 ]]; then
     d=$dev
     part=$1
@@ -119,19 +132,16 @@ add-part() { # add partition suffix to $dev
     d=$1
     part=$2
   fi
-  if [[ $d == /dev/disk/by-id/* ]]; then
-    ret=$d-part$part
-  else
-    ret=$d$part
-  fi
-  echo $ret
+  echo $d-part$part
 }
 
 bootdev() { add-part $@ $bootn; }
 rootdev() { add-part $@ $rootn; }
 swapdev() { add-part $@ $swapn; }
+efidev() { add-part $@ $efin; }
 grub_extdev() { add-part $@ $grub_extn; }
 bios_grubdev() { add-part $@ $bios_grubn; }
+even_bigdev() { add-part $@ $even_bign; }
 
 crypt-dev() { echo /dev/mapper/crypt_dev_${1##*/}; }
 crypt-name() { echo crypt_dev_${1##*/}; }
@@ -140,6 +150,38 @@ swap-cryptdev() { crypt-dev $(swapdev $@); }
 root-cryptname() { crypt-name $(rootdev $@); }
 swap-cryptname() { crypt-name $(swapdev $@); }
 
+dev-mib() {
+  local d=${1:-$dev}
+  echo $(( $(parted -m $d unit MiB print | \
+               sed -nr "s#^/dev/[^:]+:([0-9]+).*#\1#p") - 1))
+}
+
+luks-setup() {
+  local luksdev="$1"
+  # when we move to newer than trisquel 9, we can remove
+  # --type luks1. We can also check on cryptsetup --help | less /compil
+  # to see about the other settings. Default in debian 9 is luks2.
+  # You can convert from luks2 to luks 1 by adding a temporary key:
+  # cryptsetup luksAddKey --pbkdf pbkdf2
+  # then remove the new format keys with cryptsetup luksRemoveKey
+  # then cryptsetup convert DEV --type luks1, then readd old keys and remove temp.
+  yes YES | cryptsetup luksFormat $luksdev $luks_file \
+                       --type luks1 -c aes-cbc-essiv:sha256 -s 256 || [[ $? == 141 ]]
+  yes "$lukspw" | \
+    cryptsetup luksAddKey --key-file $luks_file \
+               $luksdev || [[ $? == 141 ]]
+  # background: Keyfile and password are treated just
+  # like 2 ways to input a passphrase, so we don't actually need to have
+  # different contents of keyfile and passphrase, but it makes some
+  # security sense to a really big randomly generated passphrase
+  # as much as possible, so we have both.
+  #
+  # This would remove the keyfile.
+  #    yes 'test' | cryptsetup luksRemoveKey /dev/... \
+    #                            /key/file || [[ $? == 141 ]]
+  cryptsetup luksOpen $luksdev $(crypt-name $luksdev) --key-file $luks_file
+}
+
 ##### end function defs
 
 if ifclass REPARTITION; then
@@ -153,7 +195,7 @@ else
   wipe=true
 fi
 
-if ((`nproc` > 2)); then
+if (($(nproc) > 2)); then
   mopts=,compress=zstd
 fi
 
@@ -173,12 +215,12 @@ fi
 
 hdds=()
 ssds=()
-cd /sys/block
-for disk in [sv]d[a-z]; do
+# this excludes usb. note: i may encounter some other type in the future.
+for disk in $(lsblk -do name,tran -n | awk '$2 ~ "^(sata|nvme)$" { print $1 }'); do
   if [[ ${disk_excludes[$disk]} ]]; then
     continue
   fi
-  case $(cat $disk/queue/rotational) in
+  case $(cat /sys/block/$disk/queue/rotational) in
     0) ssds+=(/dev/$disk) ;;
     1) hdds+=(/dev/$disk) ;;
     *) echo "$0: error: unknown /sys/block/$disk/queue/rotational: \
@@ -201,11 +243,10 @@ fi
 for dev in ${short_devs[@]}; do
   if $partition; then break; fi
   y=$(readlink -f $dev)
-  arr=($y[0-9])
-  [[ ${#arr[@]}  == "$lastn" ]] || partition=true
-  for (( i=1; i <= lastn; i++ )); do
-    [[ -e ${dev}$i ]] || partition=true
-  done
+  arr=($y?*)
+  if (( ${#arr[@]} < lastn )); then
+    partition=true
+  fi
   # On one system, blkid is missing some partitions.
   # maybe we need a flag, like FUZZY_BLKID or something, so we
   # can check that at least some exist.
@@ -231,7 +272,7 @@ if [[ ! ${devs[0]} ]]; then
 fi
 
 boot_space=0
-first=false
+first=true
 boot_devs=()
 for dev in ${devs[@]}; do
   if ifclass frodo; then
@@ -264,11 +305,13 @@ for dev in ${devs[@]}; do
                                     sed -nr "s#^/dev/[^:]+:([0-9]+).*#\1#p") - 1))
     boot_devs+=($(bootdev))
   fi
-  if [[ $boot_devs && $first ]]; then
+  if $first && [[ $boot_devs ]]; then
+    first_efi=$(efidev)
     first_grub_extdev=$(grub_extdev)
     first=false
   fi
 done
+first_boot_dev=${boot_devs[0]}
 
 even_raid=false
 if ifclass RAID0 || (( ${#boot_devs[@]} == 1 )); then
@@ -336,7 +379,6 @@ if [[ ! $DISTRO ]]; then
     exit 1
   fi
 fi
-first_boot_dev=${boot_devs[0]}
 
 
 bpart() { # btrfs a partition
@@ -396,7 +438,7 @@ if $partition; then
       # if we repartition to the same as an old partition,
       # we don't want any old fses hanging around.
       for (( i=1; i <= lastn; i++ )); do
-        x=$(add-part $dev $i)
+        x=$(add-part $i)
         [[ -e $x ]] || continue
         count_down=10
         # wipefs has failed, manual run works, google suggests timing issue
@@ -411,14 +453,23 @@ if $partition; then
   ### end wipefs
 
 
+  # When we have 2 disks of at least 100g difference in size,
+  # make an extra partition on the end of the bigger one.
+  even_big_part=false
+  even_diff_min=100000
   if $even_raid; then
-    for dev in ${devs[@]}; do
-      disk_mib=$(( $(parted -m $dev unit MiB print | \
-                       sed -nr "s#^/dev/[^:]+:([0-9]+).*#\1#p") - 1))
-      if [[ ! min_disk_mib ]] || (( disk_mib < min_disk_mib )); then
-        min_disk_mib=$disk_mib
-      fi
-    done
+    smalli=0
+    bigi=1
+    if (( $(dev-mib ${devs[0]}) >= $(dev-mib ${devs[1]}) )); then
+      smalli=1
+      bigi=0
+    fi
+    disk_mib=$(dev-mib ${devs[smalli]})
+    even_big_dev=${devs[bigi]}
+    even_big_mib=$(dev-mib $even_big_dev)
+    if (( even_big_mib - disk_mib > even_diff_min )); then
+      even_big_part=true
+    fi
   fi
 
   for dev in ${devs[@]}; do
@@ -432,42 +483,58 @@ if $partition; then
     #
     # Note: parted print error output is expected. example:
     # Error: /dev/vda: unrecognised disk label
-    if $even_raid; then
-      disk_mib=$min_disk_mib
-    else
-      disk_mib=$(( $(parted -m $dev unit MiB print | \
-                       sed -nr "s#^/dev/[^:]+:([0-9]+).*#\1#p") - 1))
+    if ! $even_raid; then
+      disk_mib=$(dev-mib)
     fi
-    root_end=$(( disk_mib - swap_mib - boot_mib /  ${#boot_devs[@]} ))
+    efi_mib=512
+    root_end=$(( disk_mib - swap_mib - boot_mib /  ${#boot_devs[@]} - efi_mib ))
     swap_end=$(( root_end + swap_mib))
 
     parted -s $dev mklabel gpt
     # MiB because parted complains about alignment otherwise.
     pcmd="parted -a optimal -s -- $dev"
-    $pcmd mkpart primary ext3 12MiB ${root_end}MiB
+    # root partition, the main big one
+    $pcmd mkpart primary ext3 524MiB ${root_end}MiB
     # without naming, systemd gives us misc errors like:
     # dev-disk-by\x2dpartlabel-primary.device: Dev dev-disk-by\x2dpartlabel-primary.device appeared twice
     $pcmd name $rootn root
     # normally a swap is type "linux-swap", but this is encrypted swap. using that
     # label will confuse systemd.
+    # swap partition
     $pcmd mkpart primary "" ${root_end}MiB ${swap_end}MiB
     $pcmd name $swapn swap
+    # boot partition
     $pcmd mkpart primary "" ${swap_end}MiB ${disk_mib}MiB
     $pcmd name $bootn boot
+    # uefi partition. efi sucks, half a gig, rediculous.
+    $pcmd mkpart primary "fat32" 12MiB 524MiB
+    $pcmd name $efin efi
+    $pcmd set $efin esp on
+    # note, this is shown here: https://support.system76.com/articles/bootloader/
+    # but not mentioned https://wiki.archlinux.org/index.php/EFI_system_partition
+    # probably not needed
+    $pcmd set $bootn boot on
     # i only need a few k, but googling min size,
     # I found someone saying that gparted required
     # required at least 8 because of their hard drive cylinder size.
     # And 8 is still very tiny.
+    # grub_ext partition
     $pcmd mkpart primary "ext2" 4MiB 12MiB
     $pcmd name $grub_extn grubext
     # gpt ubuntu cloud image uses ~4 mb for this partition. fai uses 1 MiB.
     # so, I use 3, whatever.
     # note: parted manual saying cheap flash media
     # should to start at 4.
+    # biols grub partition
     $pcmd mkpart primary "" 1MiB 4MiB
     $pcmd name $bios_grubn biosgrub
     $pcmd set $bios_grubn bios_grub on
     $pcmd set $bootn boot on # generally not needed on modern systems
+    if $even_big_part  && [[ $dev == $even_big_dev ]]; then
+      $pcmd mkpart primary ext3 ${disk_mib}MiB ${even_big_mib}MiB
+      $pcmd name $even_bign even_big
+    fi
+
     # the mkfs failed before on a vm, which prompted me to add
     # sleep .1
     # then it failed again on a physical machine
@@ -477,12 +544,20 @@ if $partition; then
     # Then I added the mkfs.ext2, which claimed to succeed,
     # but then couldn't be found upon reboot. In that case we didn't
     # wait at all. So I've added a 3 second minimum wait.
-    sleep 3
     secs=0
-    while [[ ! -e $(rootdev) ]] && (( secs < 10 )); do
+    while [[ ! -e $(bios_grubdev) ]] && (( secs < 10 )); do
       sleep 1
       secs=$((secs +1))
     done
+    sleep 3
+
+    mkfs.fat -F32 $(efidev)
+
+    if $even_big_part  && [[ $dev == $even_big_dev ]]; then
+      luks-setup $(even_bigdev)
+      mkfs.btrfs -f $(crypt-dev $(even_bigdev))
+    fi
+
     # Holds just a single file, rarely written, so
     # use ext2, like was often used for the /boot partition.
     # This exists because grub can only persist data to a non-cow fs.
@@ -492,30 +567,7 @@ if $partition; then
     # This is just a bit more robust, and it could work for booting
     # into ipxe which can't persist data, if we ever got that working.
     mkfs.ext2 $(grub_extdev)
-    # when we move to newer than trisquel 9, we can remove
-    # --type luks1. We can also check on cryptsetup --help | less /compil
-    # to see about the other settings. Default in debian 9 is luks2.
-    # You can convert from luks2 to luks 1 by adding a temporary key:
-    # cryptsetup luksAddKey --pbkdf pbkdf2
-    # then remove the new format keys with cryptsetup luksRemoveKey
-    # then cryptsetup convert DEV --type luks1, then readd old keys and remove temp.
-    yes YES | cryptsetup luksFormat $(rootdev) $luks_file \
-                         --type luks1 -c aes-cbc-essiv:sha256 -s 256 || [[ $? == 141 ]]
-    yes "$lukspw" | \
-      cryptsetup luksAddKey --key-file $luks_file \
-                 $(rootdev) || [[ $? == 141 ]]
-    # background: Keyfile and password are treated just
-    # like 2 ways to input a passphrase, so we don't actually need to have
-    # different contents of keyfile and passphrase, but it makes some
-    # security sense to a really big randomly generated passphrase
-    # as much as possible, so we have both.
-    #
-    # This would remove the keyfile.
-    #    yes 'test' | cryptsetup luksRemoveKey /dev/... \
-      #                            /key/file || [[ $? == 141 ]]
-
-    cryptsetup luksOpen $(rootdev) $(root-cryptname) \
-               --key-file $luks_file
+    luks-setup $(rootdev)
 
     if [[ $SPECIAL_DISK ]]; then
       exit 0
@@ -556,12 +608,15 @@ if $wipe && [[ $DISTRO != debianbuster_bootstrap ]]; then
   # btrfs subvolume set-default \
     #       $(btrfs subvolume list . | grep "root_$DISTRO$" | awk '{print $2}') .
 
-  # no cow on the root filesystem. it's setup is fully scripted,
-  # if it's messed up, we will just recreated it,
-  # and we can get better perf with this.
-  # I can't remember exactly why, but this is preferable to mounting with
-  # -o nodatacow, I think because subvolumes inherit that.
-  chattr -Rf +C root_$DISTRO
+  # For raid systems, cow allows for error correction, for non-raid systems,
+  # protects root fs from having the plug pulled. Reprovisioning a root
+  # subvol is not my favorite thing to do.
+  # # no cow on the root filesystem. it's setup is fully scripted,
+  # # if it's messed up, we will just recreated it,
+  # # and we can get better perf with this.
+  # # I can't remember exactly why, but this is preferable to mounting with
+  # # -o nodatacow, I think because subvolumes inherit that.
+  # chattr -Rf +C root_$DISTRO
   cd /
   umount /mnt
 fi
@@ -600,6 +655,7 @@ umount /mnt
 if [[ $DISTRO == debianbuster_bootstrap ]]; then
   cat > /tmp/fai/fstab <<EOF
 $first_boot_dev  /  btrfs  noatime,subvol=$boot_vol  0 0
+$first_efi  /boot/efi  vfat          nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s  0 0
 EOF
   cat >/tmp/fai/disk_var.sh <<EOF
 BOOT_DEVICE="${short_devs[@]}"
@@ -608,10 +664,11 @@ EOF
 else
   # note, fai creates the mountpoints listed here
   cat > /tmp/fai/fstab <<EOF
-$first_root_crypt  /  btrfs          noatime,subvol=root_$DISTRO$mopts  0 0
-$first_root_crypt  /mnt/root  btrfs  nofail,noatime,subvolid=0$mopts  0 0
-$first_boot_dev  /boot  btrfs        nofail,noatime,subvol=$boot_vol  0 0
-$first_boot_dev  /mnt/boot  btrfs    nofail,noatime,subvolid=0  0 0
+$first_root_crypt  /  btrfs          x-systemd.device-timeout=90s,x-systemd.mount-timeout=90s,noatime,subvol=root_$DISTRO$mopts  0 0
+$first_root_crypt  /mnt/root  btrfs  nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,noatime,subvolid=0$mopts  0 0
+$first_boot_dev  /boot  btrfs        nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,noatime,subvol=$boot_vol  0 0
+$first_efi  /boot/efi  vfat          nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s  0 0
+$first_boot_dev  /mnt/boot  btrfs    nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,noatime,subvolid=0  0 0
 EOF
   swaps=()
   rm -f /tmp/fai/crypttab
@@ -622,7 +679,7 @@ $(root-cryptname) $(rootdev)  none  keyscript=/root/keyscript,discard,luks,initr
 $(swap-cryptname) $(swapdev)  /dev/urandom  swap,cipher=aes-xts-plain64,size=256,hash=ripemd160
 EOF
     cat >> /tmp/fai/fstab <<EOF
-$(swap-cryptdev)  none  swap  nofail,sw  0 0
+$(swap-cryptdev)  none  swap  nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,sw  0 0
 EOF
   done
 
@@ -638,4 +695,29 @@ ROOT_PARTITIONS="${root_devs[@]}"
 ROOT_PARTITION=\${ROOT_PARTITION:-$first_root_crypt}
 SWAPLIST=\${SWAPLIST:-"${swaps[@]}"}
 EOF
+
+
+  if [[ $HOSTNAME == kd ]]; then
+    # note, having these with keyscript and initramfs causes a luks error in fai.log,
+    # but it is safely ignorable and gets us the ability to just type our password
+    # in once at boot. A downside is that they are probably needed to be plugged in to boot.
+    cat >>/tmp/fai/crypttab <<EOF
+crypt_dev_ata-Samsung_SSD_870_QVO_8TB_S5VUNG0N900656V-part7 /dev/disk/by-id/ata-Samsung_SSD_870_QVO_8TB_S5VUNG0N900656V-part7  none  keyscript=decrypt_keyctl,discard,luks,initramfs
+crypt_dev_ata-TOSHIBA_MD04ACA500_84R2K773FS9A-part1 /dev/disk/by-id/ata-TOSHIBA_MD04ACA500_84R2K773FS9A-part1  none  keyscript=decrypt_keyctl,discard,luks,initramfs
+crypt_dev_ata-ST6000DM001-1XY17Z_Z4D29EBL-part1 /dev/disk/by-id/ata-ST6000DM001-1XY17Z_Z4D29EBL-part1  none  keyscript=decrypt_keyctl,discard,luks,initramfs
+EOF
+    cat >> /tmp/fai/fstab <<EOF
+# r7 = root partition7
+/dev/mapper/crypt_dev_ata-Samsung_SSD_870_QVO_8TB_S5VUNG0N900656V-part7  /mnt/r7  btrfs  nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,noatime,compress=zstd,subvolid=0  0 0
+/dev/mapper/crypt_dev_ata-TOSHIBA_MD04ACA500_84R2K773FS9A-part1  /mnt/rust1  btrfs  nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,noatime,compress=zstd,subvolid=0  0 0
+/dev/mapper/crypt_dev_ata-ST6000DM001-1XY17Z_Z4D29EBL-part1  /mnt/rust2  btrfs  nofail,x-systemd.device-timeout=30s,x-systemd.mount-timeout=30s,noatime,compress=zstd,subvolid=0  0 0
+EOF
+  fi
+
 fi
+
+# initial setup of extra data fs, mounted,
+# btrfs subvol create nocow
+# chattr +C nocow
+# chown iank.iank nocow
+