mostly a bunch of fixes
[distro-setup] / btrbk-run
index 6726eb980c69ebd9cc40ad6c80da13ac42d7e39b..b5682ba5ef0830976e0ab895436f6b8fc1a6d278 100644 (file)
--- a/btrbk-run
+++ b/btrbk-run
@@ -43,11 +43,93 @@ pre=btrbk-run
 
 script_name="${BASH_SOURCE[0]}"
 script_name="${script_name##*/}"
+d() {
+  if $dry_run || $conf_only; then
+    printf "$pre dry-run: %s\n"  "$*"
+  else
+    printf "$pre running: %s\n"  "$*"
+    "$@"
+  fi
+}
 m() { if $verbose; then printf "$pre %s\n"  "$*"; fi;  "$@"; }
 e() { printf "$pre %s\n"  "$*"; }
 die() { printf "$pre error: %s\n" "$*" >&2; echo "$pre exiting with status 1" >&2; exit 1; }
 mexit() { echo "$pre exiting with status $1"; exit $1; }
 
+uninstalled-file-die() {
+  die "uninstalled file $1. run install-my-scripts or rerun with -f"
+}
+
+set-location() {
+  case $HOSTNAME in
+    kw)
+      at_work=true
+      ;;
+    kd|frodo)
+      at_home=true
+      ;;
+    x2|x3|sy)
+      if [[ $(dig +short @10.2.0.1 -x 10.2.0.2 2>&1 ||:) == kd.b8.nz. ]] \
+           && ip n show 10.2.0.1 | grep . &>/dev/null; then
+        at_home=true
+      elif ping -q -c1 -w1 hal.office.fsf.org &>/dev/null \
+          && ip n show 192.168.0.26 | grep . &>/dev/null; then
+        at_work=true
+      fi
+      ;;
+  esac
+}
+
+exit-if-no-default-targets() {
+  if ! $force && [[ $HOSTNAME != "$MAIL_HOST" ]]; then
+    echo "MAIL_HOST=$MAIL_HOST, nothing to do"
+    mexit 0
+  fi
+  case $HOSTNAME in
+    kw|kd|frodo|x2|x3|sy) : ;;
+    *)
+      die "error: no default targets for this host, use -t"
+      ;;
+  esac
+}
+
+add-x3-target() {
+  # main work machine
+  if ping -q -c1 -w1 x3.office.fsf.org &>/dev/null; then
+    targets+=(x3.office.fsf.org)
+  elif ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
+    # in case we took it home
+    targets+=(x3.b8.nz)
+  else
+    targets+=(x3wg.b8.nz)
+  fi
+}
+
+add-wireless-target-h() {
+  if ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
+    targets+=($h.b8.nz)
+  elif ping -q -c1 -w1 ${h}w.b8.nz &>/dev/null; then
+    targets+=(${h}w.b8.nz)
+  fi
+}
+
+qconf() {
+  case $sub in
+    q)
+      # q has sensitive data i dont want to backup for so long
+      cat >>/etc/btrbk$conf_suf.conf <<EOF
+snapshot_preserve $q_preserve
+snapshot_preserve_min 2h
+snapshot_dir btrbk
+target_preserve $q_preserve
+target_preserve_min 2h
+EOF
+      ;;
+  esac
+
+}
+
+
 # latest $MAIL_HOST
 if [[ -e /b/bash_unpublished/source-state ]]; then
   source /b/bash_unpublished/source-state
@@ -86,6 +168,17 @@ if [[ -s $default_args_file ]]; then
   sleep 5
 fi
 
+once_args_file=/etc/btrbk-run-once.conf
+if mv -f $once_args_file $once_args_file-tmp 2> >(sed '/No such file or directory/d'); then
+  # shellcheck disable=SC2046 # we want word splitting
+  set -- $(< $once_args_file-tmp) "$@"
+  # i havent used this feature yet, so warn about it
+  echo "$0: btrbk-run options set in $once_args_file:"
+  cat $once_args_file-tmp
+  rm -f $once_args_file-tmp
+fi
+
+
 targets=()
 early=false
 fast=false
@@ -115,7 +208,9 @@ while true; do
     # switch mail-host, no need to repeat the same checks again.
     --fast) fast=true ;;
     -i) incremental_strict=true ;;
-    # note this implies resume and -p
+    # note this implies resume and -p because it is just meant to make
+    # other hosts have the same snapshots, not do any expiry or new
+    # backups.
     -k) kd_spread=true ;;
     # bytes per second, suffix k m g
     -l) rate_limit=$2; shift ;;
@@ -152,9 +247,6 @@ done
 cmd_arg="$1"
 
 
-uninstalled-file-die() {
-  die "uninstalled file $1. run install-my-scripts or rerun with -f"
-}
 
 if ! $force && { $check_installed || [[ ! $source ]]; } ; then
   install_bin_files=(
@@ -251,60 +343,6 @@ at_work=false
 at_home=false
 
 
-set-location() {
-  case $HOSTNAME in
-    kw)
-      at_work=true
-      ;;
-    kd|frodo)
-      at_home=true
-      ;;
-    x2|x3|sy)
-      if [[ $(dig +short @10.2.0.1 -x 10.2.0.2 2>&1 ||:) == kd.b8.nz. ]] \
-           && ip n show 10.2.0.1 | grep . &>/dev/null; then
-        at_home=true
-      elif ping -q -c1 -w1 hal.office.fsf.org &>/dev/null \
-          && ip n show 192.168.0.26 | grep . &>/dev/null; then
-        at_work=true
-      fi
-      ;;
-  esac
-}
-
-exit-if-no-default-targets() {
-  if ! $force && [[ $HOSTNAME != "$MAIL_HOST" ]]; then
-    echo "MAIL_HOST=$MAIL_HOST, nothing to do"
-    mexit 0
-  fi
-  case $HOSTNAME in
-    kw|kd|frodo|x2|x3|sy) : ;;
-    *)
-      die "error: no default targets for this host, use -t"
-      ;;
-  esac
-}
-
-add-x3-target() {
-  # main work machine
-  if ping -q -c1 -w1 x3.office.fsf.org &>/dev/null; then
-    targets+=(x3.office.fsf.org)
-  elif ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
-    # in case we took it home
-    targets+=(x3.b8.nz)
-  else
-    targets+=(x3wg.b8.nz)
-  fi
-}
-
-add-wireless-target-h() {
-  if ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
-    targets+=($h.b8.nz)
-  elif ping -q -c1 -w1 ${h}w.b8.nz &>/dev/null; then
-    targets+=(${h}w.b8.nz)
-  fi
-}
-
-
 # set default targets
 if [[ ! -v targets && ! $source ]]; then
   exit-if-no-default-targets
@@ -355,9 +393,9 @@ else
       *)
         prospective_mps=()
         if [[ $source ]]; then
-          source_state="$(ssh $source cat /a/bin/bash_unpublished/source-state)"
+          source_state="$(ssh $source 'cat /a/bin/bash_unpublished/source-state; echo source_host=$HOSTNAME')"
           eval "$source_state"
-          source_host="$(ssh $source cat /etc/hostname)"
+          # shellcheck disable=SC2154 # assigned in the above eval.
           if [[ $source_host == "$MAIL_HOST" ]]; then
             prospective_mps+=(/o)
           fi
@@ -391,7 +429,8 @@ else
   done
 fi
 
-if (( ! ${#mountpoints[@]} )); then
+tmp=$(( ${#mountpoints[@]} == 0 ))
+if (( tmp )); then
   die didnt get mountpoint arg and had no defaults
 fi
 
@@ -515,7 +554,8 @@ else
       IFS=" " read -r root_size percent_used <<<"${tmp_array[1]}"
       percent_used=${percent_used%%%}
 
-      if (( ${#tmp_array[@]} != 2 )); then
+      tmp=$(( ${#tmp_array[@]} != 2 ))
+      if (( tmp )); then
         die "error: didnt get 2 lines in test ssh to target $h. investigate"
       fi
       case $percent_used in
@@ -531,11 +571,13 @@ else
 
     # we may be booted into a bootstrap fs or something
     min_root_kb=$(( 1024 * 1024 * 200 )) # 200 gb
-    if (( root_size < min_root_kb )); then
+    tmp=$(( root_size < min_root_kb ))
+    if (( tmp )); then
       continue
     fi
 
-    if (( percent_used >= 98 )); then
+    tmp=$(( percent_used >= 98 ))
+    if (( tmp )); then
       die "error: filesystem on target $h is $percent_used % full"
     fi
 
@@ -612,8 +654,12 @@ snapshot_dir btrbk
 target_preserve $std_preserve
 target_preserve_min 6h
 
-# i tried this when investigating: clone no source subvolume found error
-#incremental_prefs sro:1 srn:1 sao san:1 aro:1 arn:1
+# it seems very likely that not doing this could result in clone source not found
+# errors, for example when expiry happens differently on different hosts,
+# also, as btrbk does by default, if a failed send happens, on the next run it
+# will warn about a stray subvolume, but then create a backup of a newer subvol
+# and use an older subvol as the parent.
+incremental_prefs sao:1
 
 # if something fails and it's not obvious, try doing
 # btrbk -l debug -v dryrun
@@ -627,21 +673,6 @@ incremental strict
 EOF
 fi
 
-qconf() {
-  case $sub in
-    q)
-      # q has sensitive data i dont want to backup for so long
-      cat >>/etc/btrbk$conf_suf.conf <<EOF
-snapshot_preserve $q_preserve
-snapshot_preserve_min 2h
-snapshot_dir btrbk
-target_preserve $q_preserve
-target_preserve_min 2h
-EOF
-      ;;
-  esac
-
-}
 
 # make /q be last
 mp_count=${#mountpoints[@]}
@@ -652,6 +683,12 @@ for (( i=0; i < mp_count - 1 ; i++ )); do
   fi
 done
 
+
+
+snap_list_cmds=()
+tg_snaps=()
+declare -A source_snaps
+
 for m in ${mountpoints[@]}; do
   case $m in
     /o)
@@ -663,7 +700,11 @@ for m in ${mountpoints[@]}; do
   esac
 
   sub=${m#/}
+  snap_list_cmds+=("echo $vol/btrbk/$sub.*;")
+
   if [[ $source ]]; then
+    tmp_a=($vol/btrbk/$sub.*)
+    tg_snaps+=("${tmp_a[*]}")
     cat >>/etc/btrbk$conf_suf.conf <<EOF
 volume ssh://$bbksource$vol
 subvolume $sub
@@ -672,8 +713,11 @@ EOF
     cat >>/etc/btrbk$conf_suf.conf <<EOF
 target send-receive $vol/btrbk
 EOF
-  fi
-  if (( ${#targets[@]} )); then
+  else # we have targets
+    for snap in "$vol/btrbk/$sub."*; do
+      source_snaps[$snap]=t
+    done
+
     cat >>/etc/btrbk$conf_suf.conf <<EOF
 volume $vol
 subvolume $sub
@@ -691,6 +735,54 @@ EOF
   fi
 done
 
+# Delete any subvols on the receiving host that don't exist on the
+# sending host.  Otherwise, the receiving host could have snapshots that
+# aren't on the sending side, and thus become odd leaf subvols, and then
+# btrbk could try to use them when we sync back, creating a weird tree
+# instead of linear parent/child relationship. Maybe this could lead to
+# a missing source subvol error, so lets avoid it.
+
+get-orphan-tg-snaps() {
+  orphan_tg_snaps=()
+  for (( i=0; i < ${#mountpoints[@]}; i++ )); do
+    orphan_start_count=${#orphan_tg_snaps[@]}
+    tg_snap_count=0
+    for tg_snap in ${tg_snaps[$i]}; do
+      tg_snap_count=$(( tg_snap_count + 1 ))
+      if [[ ! ${source_snaps[$tg_snap]} ]]; then
+        orphan_tg_snaps+=("$tg_snap")
+      fi
+    done
+    orphan_mp_count=$(( ${#orphan_tg_snaps[@]} - orphan_start_count ))
+    # sanity checking
+    tmp=$(( tg_snap_count  > 1 && tg_snap_count == orphan_mp_count ))
+    if (( tmp )) ; then
+      die "something went wrong checking orphans on $tg: for mountpoint ${mountpoints[$i]}, $orphan_mp_count"
+    fi
+  done
+}
+
+if [[ $source ]]; then
+  for snap in $(ssh root@$source "shopt -s nullglob; ${snap_list_cmds[*]}"); do
+    source_snaps[$snap]=t
+  done
+  get-orphan-tg-snaps
+  tmp=$(( ${#orphan_tg_snaps[*]} >= 1 ))
+  if (( tmp )); then
+    d btrfs sub del ${orphan_tg_snaps[*]}
+  fi
+else # we have targets
+  for tg in ${targets[@]}; do
+    tmp_str=$(ssh root@$tg "shopt -s nullglob; ${snap_list_cmds[*]}")
+    mapfile -t tg_snaps <<<"$tmp_str"
+    get-orphan-tg-snaps
+    tmp=$(( ${#orphan_tg_snaps[*]} >= 1 ))
+    if (( tmp )); then
+      d ssh root@$tg "btrfs sub del ${orphan_tg_snaps[*]}"
+    fi
+  done
+fi
+
 # todo: umount first to ensure we don't have any errors
 # todo: do some kill fuser stuff to make umount more reliable
 
@@ -743,11 +835,12 @@ else
   done
 fi
 
+# todo, we get hostnames earlier, reuse that.
 if [[ $ret == 0 ]]; then
   for tg in ${targets[@]}; do
     h=$(ssh $tg hostname)
     if [[ $h == kd && $HOSTNAME == x3 && $HOSTNAME == "$MAIL_HOST" ]]; then
-      ssh root$tg systemctl --no-block start btrbk-spread
+      m ssh root@$tg 'btrbk-spread-wrap &>/dev/null </dev/null &'
     fi
     rsync -a -f"- */" -f"+ *" /var/log/btrbk/ root@$tg:/var/log/btrbk/$tg
     ssh root@$tg /usr/local/bin/mail-backup-clean