fixes, logging, and better shellcheck conformance
[distro-setup] / btrbk-run
index cf7cf836f4ec96f966dc477d7fee631dbdcd68d2..6726eb980c69ebd9cc40ad6c80da13ac42d7e39b 100644 (file)
--- a/btrbk-run
+++ b/btrbk-run
@@ -39,14 +39,14 @@ EOF
 }
 
 
+pre=btrbk-run
 
 script_name="${BASH_SOURCE[0]}"
 script_name="${script_name##*/}"
-pre="${SSH_CLIENT:+$HOSTNAME} $script_name:"
-m() { if $verbose; then printf "$pre%s\n"  "$*"; fi;  "$@"; }
-e() { printf "$pre%s\n"  "$*"; }
-die() { printf "$pre%s\n" "$*" >&2; echo "exiting with status 1" >&2; exit 1; }
-mexit() { echo "$pre: exiting with status $1"; exit $1; }
+m() { if $verbose; then printf "$pre %s\n"  "$*"; fi;  "$@"; }
+e() { printf "$pre %s\n"  "$*"; }
+die() { printf "$pre error: %s\n" "$*" >&2; echo "$pre exiting with status 1" >&2; exit 1; }
+mexit() { echo "$pre exiting with status $1"; exit $1; }
 
 # latest $MAIL_HOST
 if [[ -e /b/bash_unpublished/source-state ]]; then
@@ -65,6 +65,7 @@ conf_only=false
 dry_run=false # mostly for testing
 rate_limit=no
 verbose=true; verbose_arg=-v
+force=false
 if [[ $INVOCATION_ID ]]; then
   # INVOCATION_ID means running as a systemd service. we cant show progress in this case,
   # but if we pass the arg, it will insert mbuffer into the command.
@@ -87,39 +88,42 @@ fi
 
 targets=()
 early=false
-cron=false
 fast=false
+kd_spread=false
+check_installed=false
 orig_args=("$@")
-temp=$(getopt -l cron,fast,pull-reexec,help 23ceil:m:npqrs:t:vh "$@") || usage 1
+temp=$(getopt -l check-installed,fast,pull-reexec,help 23cefikl:m:npqrs:t:vh "$@") || usage 1
 eval set -- "$temp"
 while true; do
   case $1 in
-    # some behaviors specific to running under cron:
-    # - skip hosts where xprintidle haven't been idle recently
-    # - if we can't ssh to 1 or more hosts, still do the rest
-    # - if we aren't MAIL_HOST and no -m or -s, just exit
-    --cron)
-      cron=true
-      pre=
-      ;;
     # for the rare case we want to run multiple instances at the same time
     -2) conf_suf=2 ;;
     -3) conf_suf=3 ;;
     # only creates the config file, does not run btrbk
     -c) conf_only=true ;;
+    --check-installed)
+      check_installed=true
+      ;;
     # quit early, just btrbk, no extra remounting etc.
     -e) early=true ;;
+    # avoids some default behaviors:
+    # - no skipping hosts where xprintidle haven't been idle recently
+    # - exit if we can't ssh to 1 or more hosts
+    # - still set default hosts despite MAIL_HOST status
+    -f) force=true ;;
     # skip various checks. when we run twice in a row for
     # switch mail-host, no need to repeat the same checks again.
     --fast) fast=true ;;
     -i) incremental_strict=true ;;
+    # note this implies resume and -p
+    -k) kd_spread=true ;;
     # bytes per second, suffix k m g
     -l) rate_limit=$2; shift ;;
     # Comma separated mountpoints to backup. This has defaults set below.
     -m) IFS=, mountpoints=($2); unset IFS; shift ;;
     -n) dry_run=true ;;
-    # hide progress
-    -p) progress_arg= ;;
+    # preserve existing snapshots and backups
+    -p) preserve_arg=-p ;;
     # internal option for rerunning under newer SOURCE_HOST version.
     --pull-reexec) pull_reexec=true;;
     # quiet
@@ -145,7 +149,52 @@ while true; do
   shift
 done
 
-cmd_arg=${1:-run}
+cmd_arg="$1"
+
+
+uninstalled-file-die() {
+  die "uninstalled file $1. run install-my-scripts or rerun with -f"
+}
+
+if ! $force && { $check_installed || [[ ! $source ]]; } ; then
+  install_bin_files=(
+    mount-latest-subvol
+    check-subvol-stale
+    btrbk-run
+  )
+  for f in ${install_bin_files[@]}; do
+    if ! diff -q /a/bin/ds/$f /usr/local/bin/$f; then
+      uninstalled-file-die $f
+    fi
+  done
+  if ! diff -q /a/bin/errhandle/err /usr/local/lib/err; then
+    uninstalled-file-die err
+  fi
+  if $check_installed; then
+    exit 0
+  fi
+fi
+
+
+if $kd_spread; then
+  if [[ $cmd_arg && $cmd_arg != resume ]]; then
+    die "dont pass -k without resume or empty run arg"
+  fi
+  if [[ $HOSTNAME == "$MAIL_HOST" ]]; then
+    die "something went wrong, -k not meant to be run on MAIL_HOST"
+  fi
+  if [[ $HOSTNAME != kd ]]; then
+    die "something went wrong, -k only meant to run on kd"
+  fi
+  cmd_arg=resume
+  preserve_arg=-p
+  h=sy
+  add-wireless-target-h
+fi
+
+if [[ ! $cmd_arg ]]; then
+  cmd_arg=run
+fi
 
 
 std_preserve="36h 14d 8w 24m"
@@ -180,9 +229,6 @@ if [[ -v targets && $source ]]; then
   die "error: -t and -s are mutually exclusive"
 fi
 
-if $verbose; then
-  printf "$pre options: conf_only=%s\ndry_run=%s\nrate_limit=%s\nverbose=%s\ncmd_arg=%s" "$conf_only" "$dry_run" "$rate_limit" "$verbose" "$cmd_arg"
-fi
 ### end options parsing
 
 # remove path from earlier version of btrbk
@@ -201,55 +247,18 @@ fi
 # targets, plus any given on the command line.
 
 
+at_work=false
+at_home=false
 
-kd_spread=false
-# set default targets
-if [[ ! -v targets && ! $source ]]; then
-  if $cron; then
-    if [[ $HOSTNAME != "$MAIL_HOST" ]]; then
-      if [[ $HOSTNAME == kd && $MAIL_HOST == x3 ]]; then
-        if ping -q -c1 -w1 x3.office.fsf.org &>/dev/null; then
-          work_host=x3.office.fsf.org
-        elif ping -q -c1 -w1 x3wg.b8.nz &>/dev/null; then
-          work_host=x3wg.b8.nz
-        fi
-        if [[ $work_host ]]; then
-          source_state="$(ssh $work_host cat /a/bin/bash_unpublished/source-state)"
-          eval "$source_state"
-          if [[ $MAIL_HOST == x3 ]]; then
-            kd_spread=true
-          else
-            echo "MAIL_HOST=$MAIL_HOST, nothing to do"
-            mexit 0
-          fi
-        else
-          echo "MAIL_HOST=$MAIL_HOST, nothing to do"
-          mexit 0
-        fi
-      else
-        echo "MAIL_HOST=$MAIL_HOST, nothing to do"
-        mexit 0
-      fi
-    fi
-  fi
-
-  at_work=false
-  at_home=false
-
-  case $HOSTNAME in
-    kw|kd|frodo|x2|x3|sy) : ;;
-    *)
-      die "error: no default targets for this host, use -t"
-      ;;
-  esac
 
+set-location() {
   case $HOSTNAME in
     kw)
       at_work=true
-      ;;&
+      ;;
     kd|frodo)
       at_home=true
-      ;;&
+      ;;
     x2|x3|sy)
       if [[ $(dig +short @10.2.0.1 -x 10.2.0.2 2>&1 ||:) == kd.b8.nz. ]] \
            && ip n show 10.2.0.1 | grep . &>/dev/null; then
@@ -258,65 +267,77 @@ if [[ ! -v targets && ! $source ]]; then
           && ip n show 192.168.0.26 | grep . &>/dev/null; then
         at_work=true
       fi
-      ;;&
+      ;;
+  esac
+}
+
+exit-if-no-default-targets() {
+  if ! $force && [[ $HOSTNAME != "$MAIL_HOST" ]]; then
+    echo "MAIL_HOST=$MAIL_HOST, nothing to do"
+    mexit 0
+  fi
+  case $HOSTNAME in
+    kw|kd|frodo|x2|x3|sy) : ;;
     *)
-      if $at_home; then
-        if ! $kd_spread && [[ $HOSTNAME != x3 ]]; then
-          # main work machine
-          if ping -q -c1 -w1 x3.office.fsf.org &>/dev/null; then
-            targets+=(x3.office.fsf.org)
-          elif ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
-            # in case we took it home
-            targets+=(x3.b8.nz)
-          else
-            targets+=(x3wg.b8.nz)
-          fi
-        fi
-        # temporarily disabled while doing recovery
-        #        for h in frodo kd; do
-        for h in kd; do
-          if [[ $HOSTNAME == "$h" ]]; then
-            continue
-          fi
-          targets+=($h.b8.nz)
-        done
-        for h in x2 sy; do
-          if [[ $HOSTNAME == "$h" ]]; then
-            continue
-          fi
-          if ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
-            targets+=($h.b8.nz)
-          elif ping -q -c1 -w1 ${h}w.b8.nz &>/dev/null; then
-            targets+=(${h}w.b8.nz)
-          fi
-        done
-      elif $at_work; then
-        if ping -q -c1 -w1 iank.vpn.office.fsf.org &>/dev/null; then
-          targets+=(iank.vpn.office.fsf.org)
-        else
-          targets+=(i.b8.nz)
-        fi
-        for h in x2 x3 kw; do
-          if [[ $HOSTNAME == "$h" ]]; then
-            continue
-          fi
-          if ping -q -c1 -w1 $h.office.fsf.org &>/dev/null; then
-            targets+=($h.office.fsf.org)
-          fi
-        done
-      else
-        targets+=(i.b8.nz)
-      fi
+      die "error: no default targets for this host, use -t"
       ;;
   esac
-fi
+}
 
-if [[ -v targets ]]; then
-  echo "targets: ${targets[*]}"
-fi
+add-x3-target() {
+  # main work machine
+  if ping -q -c1 -w1 x3.office.fsf.org &>/dev/null; then
+    targets+=(x3.office.fsf.org)
+  elif ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
+    # in case we took it home
+    targets+=(x3.b8.nz)
+  else
+    targets+=(x3wg.b8.nz)
+  fi
+}
 
-if [[ $source ]]; then
-  echo "source: $source"
+add-wireless-target-h() {
+  if ping -q -c1 -w1 $h.b8.nz &>/dev/null; then
+    targets+=($h.b8.nz)
+  elif ping -q -c1 -w1 ${h}w.b8.nz &>/dev/null; then
+    targets+=(${h}w.b8.nz)
+  fi
+}
+
+
+# set default targets
+if [[ ! -v targets && ! $source ]]; then
+  exit-if-no-default-targets
+  set-location
+  if $at_home; then
+    if ! $kd_spread && [[ $HOSTNAME != x3 ]]; then
+      add-x3-target
+    fi
+    if [[ $HOSTNAME != kd ]]; then
+      targets+=(kd.b8.nz)
+    fi
+    wireless_home_hosts=(
+      x2
+      sy
+    )
+    for h in ${wireless_home_hosts[@]}; do
+      if [[ $HOSTNAME != "$h" ]]; then
+        add-wireless-target-h
+      fi
+    done
+  elif $at_work; then
+    targets+=(i.b8.nz)
+    for h in x2 x3 kw; do
+      if [[ $HOSTNAME == "$h" ]]; then
+        continue
+      fi
+      if ping -q -c1 -w1 $h.office.fsf.org &>/dev/null; then
+        targets+=($h.office.fsf.org)
+      fi
+    done
+  else
+    targets+=(i.b8.nz)
+  fi
 fi
 
 if [[ ${mountpoints[0]} ]]; then
@@ -341,17 +362,17 @@ else
             prospective_mps+=(/o)
           fi
           if [[ $source_host == "$HOST2" ]]; then
-            prospective_mps+=(/a /ar /qr /q)
+            prospective_mps+=(/a /ar /qr /qd /q)
           fi
         else
           if [[ $HOSTNAME == "$MAIL_HOST" ]]; then
             prospective_mps+=(/o)
           fi
           if [[ $HOSTNAME == "$HOST2" ]]; then
-            prospective_mps+=(/a /ar /qr /q)
+            prospective_mps+=(/a /ar /qr /qd /q)
           fi
           if $kd_spread; then
-            prospective_mps=(/a /ar /o /qr /q)
+            prospective_mps=(/a /ar /o /qr /qd /q)
           fi
         fi
         # note: put q last just in case its specific retention options were to
@@ -374,10 +395,10 @@ if (( ! ${#mountpoints[@]} )); then
   die didnt get mountpoint arg and had no defaults
 fi
 
-echo "mountpoints: ${mountpoints[*]}"
-
 ##### end command line parsing ########
 
+#### begin pre-checks #####
+
 # todo: this has a timing problem, since btrbk.timer could activate the service after this check.
 if ! $fast && [[ $source ]]; then
   if [[ $(ssh $source ps --no-headers -o comm 1) == systemd ]]; then
@@ -385,12 +406,50 @@ if ! $fast && [[ $source ]]; then
     case $status in
       inactive|failed) : ;;
       *)
-        echo "$0: error: cron btrbk is running on source. exiting out of caution"
+        echo "$0: error: btrbk is running on source. exiting out of caution"
         mexit 1
     esac
   fi
 fi
 
+if ! command -v btrbk &>/dev/null; then
+  die "error: no btrbk binary found"
+fi
+
+if ! $pull_reexec && [[ $source ]] && $pulla && ! $force ; then
+  ssh root@$source btrbk-run --check-installed || exit 1
+fi
+
+#### end pre-checks #####
+
+
+
+mkdir -p /var/log/btrbk
+# The journal doesnt go back to my oldest backups, and I've found myself
+# wanting older logs. Not going to bother expiring old logs, since it is
+# fine if they go back years.
+log_path=/var/log/btrbk/$(date +%F_%T%:::z).log
+echo copying output to $log_path
+exec &> >(pee cat 'ts "%F %T"|dd of='$log_path' status=none')
+
+
+if $verbose; then
+  printf " options: conf_only=%s\ndry_run=%s\nrate_limit=%s\nverbose=%s\ncmd_arg=%s" "$conf_only" "$dry_run" "$rate_limit" "$verbose" "$cmd_arg"
+fi
+
+if [[ -v targets ]]; then
+  echo "targets: ${targets[*]}"
+fi
+
+if [[ $source ]]; then
+  echo "source: $source"
+fi
+
+echo "mountpoints: ${mountpoints[*]}"
+
+
+
+
 # pull_reexec stops us from getting into an infinite loop if there is some
 # kind of weird problem
 pulla=false
@@ -400,6 +459,7 @@ for m in "${mountpoints[@]}"; do
     break
   fi
 done
+
 if ! $pull_reexec && [[ $source ]] && $pulla ; then
   tmpf=$(mktemp)
   m rsync -ra $source:/usr/local/bin/{mount-latest-subvol,check-subvol-stale} /usr/local/bin
@@ -414,10 +474,6 @@ if ! $pull_reexec && [[ $source ]] && $pulla ; then
 fi
 
 
-if ! command -v btrbk &>/dev/null; then
-  die "error: no btrbk binary found"
-fi
-
 if ! $fast; then
   # if our mountpoints are from stale snapshots,
   # it doesn't make sense to do a backup.
@@ -447,7 +503,6 @@ else
 
   sshable=()
   sshfail=()
-  min_idle_ms=$((1000 * 60 * 15))
   for h in ${targets[@]}; do
     if $fast || $conf_only; then
       # Use some typical values in this case
@@ -484,15 +539,26 @@ else
       die "error: filesystem on target $h is $percent_used % full"
     fi
 
-    # This is a separate ssh because xprintidle can fail and thats ok.
-    if $cron && idle_ms=$(timeout -s 9 6 ssh $h DISPLAY=:0 xprintidle); then
-      if (( idle_ms < min_idle_ms )); then
-
+    # on sy, xprintidle is resetting every 12 seconds even when not
+    # idle, i dunno why, instead we are checking if the screen is locked,
+    # which is good enough.
+    #
+    # This is a separate ssh because the command can fail and thatis ok.
+    if ! $force; then
+      locked=false
+      if lock_info=$(timeout -s 9 6 ssh $h DISPLAY=:0 xscreensaver-command -time); then
+        if [[ $lock_info != *non-blanked* ]]; then
+          locked=true
+        fi
+      else
+        locked=true
+      fi
+      if ! $locked; then
         # Ignore this host. i sometimes use a non-main machine for
         # testing or web browsing, knowing that everything will be wiped
         # by the next backup, but I dont want it to happen as Im using
         # it from cronjob.
-        e "warning: $h: active X session in the last 15 minutes, skipping for now"
+        e "warning: $h: seems to be actively in use, skipping for now"
         continue
       fi
     fi
@@ -501,7 +567,7 @@ else
       die "error: dont confuse yourself with multiple time zones. $h has different timezone than localhost"
     fi
   done
-  if [[ ! ${sshable[*]} ]] || { ! $cron && [[ ${sshfail[*]} ]]; }; then
+  if [[ ! ${sshable[*]} ]] || { $force && [[ ${sshfail[*]} ]]; }; then
     die "failed to ssh to hosts: ${sshfail[*]}"
   else
     if [[ ${sshfail[*]} ]]; then
@@ -540,11 +606,11 @@ snapshot_create onchange
 # if one disk had less space.
 # for now, keeping them equal.
 snapshot_preserve $std_preserve
-snapshot_preserve_min 2h
+snapshot_preserve_min 6h
 snapshot_dir btrbk
 # so, total backups = ~58
 target_preserve $std_preserve
-target_preserve_min 2h
+target_preserve_min 6h
 
 # i tried this when investigating: clone no source subvolume found error
 #incremental_prefs sro:1 srn:1 sao san:1 aro:1 arn:1
@@ -679,9 +745,16 @@ fi
 
 if [[ $ret == 0 ]]; then
   for tg in ${targets[@]}; do
-    :
-    #ssh root@$tg /a/exe/mail-backup-clean
+    h=$(ssh $tg hostname)
+    if [[ $h == kd && $HOSTNAME == x3 && $HOSTNAME == "$MAIL_HOST" ]]; then
+      ssh root$tg systemctl --no-block start btrbk-spread
+    fi
+    rsync -a -f"- */" -f"+ *" /var/log/btrbk/ root@$tg:/var/log/btrbk/$tg
+    ssh root@$tg /usr/local/bin/mail-backup-clean
   done
+  if [[ $source ]]; then
+    rsync -a -f"- */" -f"+ *" $source:/var/log/btrbk/ /var/log/btrbk/$source
+  fi
 fi
 
 mexit $ret