fix mixed disk sizes & other multi disk issues
[automated-distro-installer] / fai / config / hooks / partition.DEFAULT
index c45c4dc67a0917002d3393d6a84b3dd65d354e66..7a2c5754878369479d4279c66c093b119e20dde8 100755 (executable)
@@ -6,37 +6,97 @@ trap 'echo "$0:$LINENO:error: \"$BASH_COMMAND\" returned $?"' ERR
 # # fai's setup-storage won't do btrfs on luks,
 # # so we do it ourself :)
 
-skiptask partition ||: # for running out of fai
+skiptask partition || ! type skiptask # for running not in fai
 
 #### begin configuration
 
-bootn=1
+bootn=3
+rootn=1
 swapn=2
-rootn=3
 bios_grubn=4
-boot_end=804
-lastn=$bios_grubn
+boot_mib=1500
+
 
-if ifclass VM; then
-    d=vd
+##### end configuration
+
+if ifclass REPARTITION;then
+    partition=true # force a full wipe
 else
-    d=sd
+    partition=false # change to true to force a full wipe
 fi
 
-letters=()
-if ifclass TWO_DISK; then
-    letters=(a b)
-elif ifclass ONE_DISK; then
-    letters=(a)
-elif ifclass MANY_DISK; then
-    for dev in /dev/${d}?; do letters+=(${dev#/dev/${d}}); done
+lastn=$bios_grubn
+
+
+hds=()
+ssds=()
+cd /sys/block
+for disk in [sv]d[a-z]; do
+    case $(cat $disk/queue/rotational) in
+        0) ssds+=(/dev/$disk) ;;
+        1) hds+=(/dev/$disk) ;;
+        *) echo "$0: error: unknown /sys/block/$disk/queue/rotational: \
+$(cat $disk/queue/rotational)"; exit 1 ;;
+    esac
+done
+
+# install all ssds, or if there are none, all hdds
+if (( ${#ssds[@]} > 0 )); then
+    devs=( ${ssds[@]} )
 else
-    exit 1
+    devs=( ${hds[@]} )
 fi
-##### end configuration
 
+boot_devs=()
+for dev in ${devs[@]}; do
+    if ifclass frodo; then
+        # I ran into a machine where the bios doesn't know about some disks,
+        # so 1st stage of grub also doesn't know about them.
+        # Also, grub does not support mounting degraded btrfs as far as
+        # I can tell with some googling.
+        # From within an arch install env, I could detect them by noting
+        # their partitions were mixed with the next disk in /dev/disk/by-path,
+        # and I have mixed model disks, and I could see the 8 models which showed
+        # up in the bios, and thus see which 2 models were missing.
+        # hdparm -I /dev/sdh will give model info in linux.
+        # However, in fai on jessie, that dir doesn't exist,
+        # and I don't see another way, so I'm hardcoding them.
+        # We still put grub on them and partition them the same, for uniformity
+        # and in case they get moved to a system that can recognize them,
+        # we just exclude them from the boot filesystem.
+        cd /dev/disk/by-id/
+        bad_disk=false
+        for id in ata-TOSHIBA_MD04ACA500_8539K4TQFS9A \
+                      ata-TOSHIBA_MD04ACA500_Y5IFK6IJFS9A; do
+            if [[ $(readlink -f $id) == $dev ]]; then
+                bad_disk=true
+                break
+            fi
+        done
+        $bad_disk || boot_devs+=($dev$bootn)
+    else
+        boot_devs+=($dev$bootn)
+    fi
+done
+
+if [[ ! $DISTRO ]]; then
+    if ifclass STABLE; then
+        DISTRO=debianjessie
+    else
+        DISTRO=debiantesting
+    fi
+fi
+
+
+
+case ${#boot_devs[@]} in
+    # need double the space if we are raid 10, and then
+    # might as well give some extra overhead.
+    [4-9]*|[1-3]?*) boot_mib=$((boot_mib * 3)) ;;
+esac
 
-bpart() {
+
+bpart() { # btrfs a partition
     dev_n=$1
     case ${#@} in
         [1-3]) mkfs.btrfs -f $@ ;;
@@ -44,13 +104,12 @@ bpart() {
     esac
 }
 
-devs=(${letters[@]/#//dev/${d}})
-crypt_devs=(${letters[@]/#//dev/mapper/crypt_dev_${d}})
-
-partition=true
+first_boot_dev=${devs[0]}$bootn
 
+crypt_devs=()
 # somewhat crude detection of whether to partition
 for dev in ${devs[@]}; do
+    crypt_devs+=( /dev/mapper/crypt_dev_${dev#/dev/} )
     x=($dev[0-9])
     [[ ${#x[@]}  == ${lastn} ]] || partition=true
     for (( i=1; i <= $lastn; i++ )); do
@@ -62,8 +121,6 @@ for dev in ${devs[@]}; do
     done
 done
 
-#partition=true # for temporarily override
-
 # keyfiles generated like:
 # head -c 2048 /dev/urandom | od | s dd of=/q/root/luks/host-demohost
 luks_dir=${LUKS_DIR:-/var/lib/fai/config/distro-install-common/luks}
@@ -77,97 +134,112 @@ if ifclass demohost; then
 fi
 
 
-crypt=/dev/mapper/crypt_dev_${d##/dev/}a$rootn
+crypt=${crypt_devs[0]}$rootn
 
-
-if ifclass frodo; then
-    # next upgrade is prolly 16 gigs of memory, across ~8 devices
-    swap_end=$((3500 + boot_end))
-else
-    # 1.5 x based on https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Installation_Guide/sect-disk-partitioning-setup-x86.html#sect-custom-partitioning-x86
-    swap_end=$(( $(grep ^MemTotal: /proc/meminfo| awk '{print $2}') * 3/(${#devs[@]} * 2 ) / 1000 + boot_end ))
-fi
+bios_grub_end=4
+# 1.5 x based on https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/Installation_Guide/sect-disk-partitioning-setup-x86.html#sect-custom-partitioning-x86
+swap_mib=$(( $(grep ^MemTotal: /proc/meminfo | \
+                      awk '{print $2}') * 3/(${#devs[@]} * 2 ) / 1024 ))
 
 mkdir -p /tmp/fai
 shopt -s nullglob
 if $partition; then
     for dev in ${devs[@]}; do
-        for x in $dev[0-9]; do wipefs -a $x; done
+        for x in $dev[0-9]; do
+            count_down=10
+            # wipefs has failed, manual run works, google suggests timing issue
+            while ! wipefs -a $x; do
+                sleep 2
+                count_down=$((count_down - 1))
+                (( count_down > 0 )) || exit 1
+            done
+        done
     done
     for dev in ${devs[@]}; do
+        # parted will round up the disk size. Do -1 so we can have
+        # fully 1MiB unit partitions for easy resizing of the last partition.
+        # Otherwise we would pass in -0 for the end argument for the last partition.
+        disk_mib=$(( $(parted -m $dev unit MiB print | \
+                              sed -nr "s#^$dev:([0-9]+).*#\1#p") - 1))
+        root_end=$(( disk_mib - swap_mib - boot_mib /  ${#boot_devs[@]} ))
+        swap_end=$(( root_end + swap_mib))
+
         parted -s $dev mklabel gpt
-        # gpt ubuntu cloud image uses ~4. fai uses 1 MiB. ehh, i'll do 4.
-        # also, using MB instead of MiB causes complains about alignment.
-        parted -s $dev mkpart primary "ext3" 4MB ${boot_end}MiB
-        parted -s $dev mkpart primary "linux-swap" ${boot_end}MiB ${swap_end}MiB
-        parted -s -- $dev mkpart primary "" ${swap_end}MiB -0
-        parted -s $dev mkpart primary "" 1MiB 4MiB
-        parted -s $dev set $bios_grubn bios_grub on
-        parted -s $dev set $bootn boot on # generally not needed on modern systems
+        # gpt ubuntu cloud image uses ~4. fai uses 1 MiB.
+        # I read something in the parted manual saying cheap flash media
+        # likes to start at 4.
+        # MiB because parted complains about alignment otherwise.
+        pcmd="parted -a optimal -s -- $dev"
+        $pcmd mkpart primary "ext3" 4MiB ${root_end}MiB
+        $pcmd mkpart primary "linux-swap" ${root_end}MiB ${swap_end}MiB
+        $pcmd mkpart primary "" ${swap_end}MiB ${disk_mib}MiB
+        $pcmd mkpart primary "" 1MiB 4MiB
+        $pcmd set $bios_grubn bios_grub on
+        $pcmd set $bootn boot on # generally not needed on modern systems
         # the mkfs failed randomly on a vm, so I threw a sleep in here.
         sleep .1
-        mkfs.ext4 -F ${dev}1
-        # 3 is device which simply holds a key for the 4's,
-        # so we can unlock multi-device btrfs fs with 1 manually entered passphrase.
-        #
-        # Background: It's of course possible modify the initramfs to
-        # put the input from a passphrase prompt into a variable and use
-        # it to unlock multiple devices, but that would require figuring
-        # more things out.
+
+        luks_dev=$dev$rootn
+        yes YES | cryptsetup luksFormat $luks_dev $luks_dir/host-$HOSTNAME \
+                             -c aes-cbc-essiv:sha256 -s 256 || [[ $? == 141 ]]
+        yes "$lukspw" | \
+            cryptsetup luksAddKey --key-file $luks_dir/host-$HOSTNAME \
+                       $luks_dev || [[ $? == 141 ]]
+        # background: Keyfile and password are treated just
+        # like 2 ways to input a passphrase, so we don't actually need to have
+        # different contents of keyfile and passphrase, but it makes some
+        # security sense to a really big randomly generated passphrase
+        # as much as possible, so we have both.
         #
-        for luks_dev in ${dev}3; do
-            yes YES | cryptsetup luksFormat $luks_dev $luks_dir/host-$HOSTNAME \
-                                 -c aes-cbc-essiv:sha256 -s 256 || [[ $? == 141 ]]
-            yes "$lukspw" | \
-                cryptsetup luksAddKey --key-file $luks_dir/host-$HOSTNAME \
-                           $luks_dev || [[ $? == 141 ]]
-            # background: Keyfile and password are treated just
-            # like 2 ways to input a passphrase, so we don't actually need to have
-            # different contents of keyfile and passphrase, but it makes some
-            # security sense to a really big randomly generated passphrase
-            # as much as possible, so we have both.
-            #
-            # This would remove the keyfile.
-            #    yes 'test' | cryptsetup luksRemoveKey /dev/... \
-                #                            /key/file || [[ $? == 141 ]]
-
-            cryptsetup luksOpen $luks_dev crypt_dev_${luks_dev##/dev/} \
-                       --key-file $luks_dir/host-$HOSTNAME
-        done
+        # This would remove the keyfile.
+        #    yes 'test' | cryptsetup luksRemoveKey /dev/... \
+            #                            /key/file || [[ $? == 141 ]]
+
+        cryptsetup luksOpen $luks_dev crypt_dev_${luks_dev##/dev/} \
+                   --key-file $luks_dir/host-$HOSTNAME
     done
-    #bpart ${devs[@]/%/$rootn}
-    bpart ${crypt_devs[@]/%/3}
-    parted ${devs[0]} set 1 boot on
-    mount $crypt /mnt
+    bpart ${crypt_devs[@]/%/$rootn}
+    bpart ${boot_devs[@]}
 else
     for dev in ${devs[@]}; do
-        mkfs.ext4 -F ${dev}1
-        cryptsetup luksOpen ${dev}3 crypt_dev_${dev##/dev/}3 \
+        cryptsetup luksOpen $dev$rootn crypt_dev_${dev##/dev/}$rootn \
                    --key-file $luks_dir/host-$HOSTNAME || [[ $? == 141 ]]
     done
     sleep 1
-    mount -o subvolid=0 $crypt /mnt
-    # systemd creates subvolumes we want to delete.
-    s=($(btrfs subvolume list --sort=-path /mnt |
-                sed -rn 's#^.*path\s*(root/\S+)\s*$#\1#p'))
-    for subvol in ${s[@]}; do btrfs subvolume delete /mnt/$subvol; done
-    btrfs subvolume set-default 0 /mnt
-    btrfs subvolume delete /mnt/root
 fi
 
+mount -o subvolid=0 $crypt /mnt
+# systemd creates subvolumes we want to delete.
+s=($(btrfs subvolume list --sort=-path /mnt |
+            sed -rn "s#^.*path\s*(root_$DISTRO/\S+)\s*\$#\1#p"))
+for subvol in ${s[@]}; do btrfs subvolume delete /mnt/$subvol; done
+btrfs subvolume set-default 0 /mnt
+[[ ! -e /mnt/root_$DISTRO ]] || btrfs subvolume delete /mnt/root_$DISTRO
+
+
 ## create subvols ##
 cd /mnt
-for x in q home root; do
+for x in q home_$DISTRO root_$DISTRO; do
     btrfs subvolume list . | grep "$x$" >/dev/null || btrfs subvolume create $x
+    chown root:1000 q
 done
+mkdir -p /mnt/root_$DISTRO/boot
 for x in root/a q/a; do
     mkdir -p $x
     chown 1000:1000 $x
     chmod 755 $x
 done
-btrfs subvolume set-default \
-      $(btrfs subvolume list . | grep 'root$' | awk '{print $2}') .
-chattr -Rf +C root
+# could set default like this, but no reason to.
+# btrfs subvolume set-default \
+    #       $(btrfs subvolume list . | grep "root_$DISTRO$" | awk '{print $2}') .
+chattr -Rf +C root_$DISTRO
+cd /
+umount /mnt
+mount -o subvolid=0 $first_boot_dev /mnt
+cd /mnt
+btrfs subvolume set-default 0 /mnt
+[[ ! -e /mnt/boot_$DISTRO ]] || btrfs subvolume delete /mnt/boot_$DISTRO
+btrfs subvolume create boot_$DISTRO
 cd /
 umount /mnt
 ## end create subvols ##
@@ -175,14 +247,13 @@ umount /mnt
 
 
 cat > /tmp/fai/fstab <<EOF
-$crypt  /  btrfs  noatime,subvol=/root  0 0
-$crypt  /q  btrfs  noatime,subvol=/q  0 0
+$crypt  /  btrfs  noatime,subvol=root_$DISTRO  0 0
+$crypt  /q  btrfs  noatime,subvol=q  0 0
 /q/a  /a  none  bind  0 0
-$crypt  /home  btrfs  noatime,subvol=/home  0 0
-${devs[0]}1  /boot  ext4  noatime  0 2
+$crypt  /home  btrfs  noatime,subvol=home_$DISTRO  0 0
+$first_boot_dev  /boot  btrfs  noatime,subvol=boot_$DISTRO  0 0
 EOF
 
-
 swaps=()
 for dev in ${devs[@]}; do
     s=crypt_swap_${dev##/dev/}$swapn
@@ -196,11 +267,13 @@ EOF
 EOF
 done
 
+# fai would do this:
+#BOOT_DEVICE=\${BOOT_DEVICE:-"${devs[0]}"}
 
 # swaplist seems to do nothing.
 cat >/tmp/fai/disk_var.sh <<EOF
 ROOT_PARTITION=\${ROOT_PARTITION:-$crypt}
-BOOT_PARTITION=\${BOOT_PARTITION:-${devs[0]}1}
-BOOT_DEVICE=\${BOOT_DEVICE:-"${devs[0]}"}
+BOOT_PARTITION=\${BOOT_PARTITION:-$first_boot_dev}
+BOOT_DEVICE="${devs[@]}"
 SWAPLIST=\${SWAPLIST:-"${swaps[@]}"}
 EOF