mostly t11 fixes
[distro-setup] / btrbk-run
index 2e839eefe586f60166df27c0de2a37ef5c8f83a2..1b6cec5406802048fbeb1583ddf569867dd87e16 100644 (file)
--- a/btrbk-run
+++ b/btrbk-run
@@ -26,7 +26,7 @@ source /usr/local/lib/err
 
 usage() {
   cat <<'EOF'
-btrbk-run [OPTIONS]
+btrbk-run [OPTIONS] [run|resume|archive]
 usually -t TARGET_HOST or -s SOURCE_HOST
 
 Note, at source location, intentionally not executable, run and read
@@ -76,13 +76,17 @@ if [[ -s $default_args_file ]]; then
   sleep 5
 fi
 
-early=false # quit early, just btrbk, no extra remounting etc.
+early=false
 cron=false
 orig_args=("$@")
-temp=$(getopt -l cron,pull-reexec,help ceil:m:npqs:t:vh "$@") || usage 1
+temp=$(getopt -l cron,pull-reexec,help ceil:m:npqrs:t:vh "$@") || usage 1
 eval set -- "$temp"
 while true; do
   case $1 in
+    # some behaviors specific to running under cron:
+    # - skip hosts where xprintidle haven't been idle recently
+    # - if we can't ssh to 1 or more hosts, still do the rest
+    # - if we aren't MAIL_HOST and no -m or -s, just exit
     --cron)
       cron=true
       pre=
@@ -90,6 +94,7 @@ while true; do
       ;;
     # only creates the config file, does not run btrbk
     -c) conf_only=true; shift ;;
+    # quit early, just btrbk, no extra remounting etc.
     -e) early=true; shift ;;
     -i) incremental_strict=true; shift ;;
     # bytes per second, suffix k m g
@@ -97,8 +102,11 @@ while true; do
     # Comma separated mountpoints to backup. This has defaults set below.
     -m) IFS=, mountpoints=($2); unset IFS; shift 2 ;;
     -n) dry_run=true; dry_run_arg=-n; shift ;;
+    # show progress
     -p) progress_arg="--progress"; shift ;;
+    # internal option for rerunning under newer SOURCE_HOST version.
     --pull-reexec) pull_reexec=true; shift ;;
+    # quiet
     -q) verbose=false; verbose_arg=; progress_arg=; shift ;;
     # source host to receive a backup from
     -s)
@@ -112,6 +120,7 @@ while true; do
     # target hosts to send to. empty is valid for just doing local
     # snapshot. we have default hosts we will populate.
     -t) IFS=, targets=($2); unset IFS; shift 2 ;;
+    # verbose.
     -v) verbose=true; verbose_arg=-v; shift ;;
     -h|--help) usage ;;
     --) shift; break ;;
@@ -119,11 +128,28 @@ while true; do
   esac
 done
 
-# only tested commands are resume and archive
 cmd_arg=${1:-run}
 
+
+std_preserve="18h 14d 8w 24m"
+q_preserve="18h 14d"
+
 case $cmd_arg in
-  run|resume|archive) : ;;
+  run|resume) : ;;
+
+  # This works better than the normal archive command. We have to
+  # specify the mount points, but that is what we are used to doing and
+  # we prefer it. Another difference is that archive works recursively
+  # and we don't care about that. Sometimes we may still want to run
+  # btrbk archive, but it doesn't even use the config file, so just
+  # run it directly, eg:
+  # time s btrbk -v archive /mnt/r7/amy/boot/btrbk ssh://bo/mnt/boot2/btrbk
+  archive)
+    cmd=resume
+    std_preserve="999h 999d 999w 999m"
+    q_preserve="$std_preserve"
+    preserve_arg=-p
+    ;;
   *) die "untested command arg" ;;
 esac
 
@@ -172,7 +198,7 @@ if [[ ! -v targets && ! $source ]]; then
 
   targets=(frodo.b8.nz)
   case $HOSTNAME in
-    kw)
+    x2|kw)
       at_work=true
       ;;&
     x2|x3|sy|bo)
@@ -193,24 +219,23 @@ if [[ ! -v targets && ! $source ]]; then
       fi
       ;;&
     kw)
-      targets+=($home x3)
+      targets+=($home x2.office.fsf.org)
       ;;
     x2|x3|sy|bo)
       targets+=($home)
       if $at_work; then
-        targets+=(kw.office.fsf.org x2.b8.nz)
+        targets+=(x2.office.fsf.org x2.b8.nz)
       else
-        targets+=(kw.b8.nz)
+        targets+=(x2wg.b8.nz)
       fi
       ;;
     kd)
-      targets+=(x2.b8.nz kw.b8.nz)
-      # temporarily disabled while doing maint
-      # if ping -q -c1 -w1 bo.b8.nz &>/dev/null; then
-      #   targets+=(bo.b8.nz)
-      # else
-      #   targets+=(bow.b8.nz)
-      # fi
+      targets+=(x2wg.b8.nz x3.b8.nz)
+      if ping -q -c1 -w1 sy.b8.nz &>/dev/null; then
+        targets+=(sy.b8.nz)
+      else
+        targets+=(syw.b8.nz)
+      fi
       ;;
     frodo)
       # no targets
@@ -246,7 +271,7 @@ else
         prospective_mps=(/i)
         ;;
       *)
-        prospective_mps=(/a /q)
+        prospective_mps=()
         if [[ $source ]]; then
           source_state="$(ssh $source cat /a/bin/bash_unpublished/source-state)"
           eval "$source_state"
@@ -264,6 +289,9 @@ else
             fi
           fi
         fi
+        # note: put q last just in case its specific retention options were to
+        # affect other config sections. I havent tested if that is the case.
+        prospective_mps+=(/a /ar /qr /q)
         ;;
     esac
   fi
@@ -317,7 +345,7 @@ if ! $pull_reexec && [[ $source ]] && $pulla ; then
 fi
 
 
-if ! which btrbk &>/dev/null; then
+if ! command -v btrbk &>/dev/null; then
   die "error: no btrbk binary found"
 fi
 # if our mountpoints are from stale snapshots,
@@ -325,12 +353,16 @@ fi
 check-subvol-stale ${mountpoints[@]} || die "found stale mountpoints in ${mountpoints[*]}"
 
 # for an initial run, btrbk requires the dir to exist.
-mkdir -p /mnt/root/btrbk
+mkdir -p /mnt/{root,o}/btrbk
 local_zone=$(date +%z)
 
 if [[ $source ]]; then
   if ! zone=$(ssh root@$source date +%z); then
-    die failed to ssh to root@$source
+    if $conf_only; then
+      echo "$0: warning: failed to ssh to root@$source"
+    else
+      die failed to ssh to root@$source
+    fi
   fi
   if [[ $zone != "$local_zone" ]]; then
     die "error: dont confuse yourself with multiple time zones. $h has different timezone than localhost"
@@ -342,7 +374,7 @@ else
   sshfail=()
   min_idle_ms=$((1000 * 60 * 15))
   for h in ${targets[@]}; do
-    if remote_info=( $(timeout -s 9 6 ssh root@$h "mkdir -p /mnt/root/btrbk && date +%z && df --output=size,pcent / | tail -n1") ); then
+    if remote_info=( $(timeout -s 9 6 ssh root@$h "mkdir -p /mnt/root/btrbk /mnt/o/btrbk && date +%z && df --output=size,pcent / | tail -n1") ); then
       zone=${remote_info[0]}
       root_size=${remote_info[1]}
       percent_used=${remote_info[2]%%%}
@@ -350,36 +382,41 @@ else
       if (( ${#remote_info[@]} != 3 )); then
         die "error: didnt get 3 fields in test ssh to target $h. investigate"
       fi
+    elif $conf_only; then
+      # Use some typical values in this case
+      root_size=$(( 1024 * 1024 * 2000 )) #2tb
+      percent_used=10
+      zone=$(date +%z)
+    else
+      sshfail+=($h)
+      continue
+    fi
 
+    # we may be booted into a bootstrap fs or something
+    min_root_kb=$(( 1024 * 1024 * 200 )) # 200 gb
+    if (( root_size < min_root_kb )); then
+      continue
+    fi
 
-      # we may be booted into a bootstrap fs or something
-      min_root_kb=$(( 1024 * 1024 * 200 )) # 200 gb
-      if (( root_size < min_root_kb )); then
-        continue
-      fi
-
-      if (( percent_used >= 98 )); then
-        die "error: filesystem on target $h is $percent_used % full"
-      fi
+    if (( percent_used >= 98 )); then
+      die "error: filesystem on target $h is $percent_used % full"
+    fi
 
-      # This is a separate ssh because xprintidle can fail and thats ok.
-      if $cron && idle_ms=$(timeout -s 9 6 ssh $h DISPLAY=:0 xprintidle); then
-        if (( idle_ms < min_idle_ms )); then
+    # This is a separate ssh because xprintidle can fail and thats ok.
+    if $cron && idle_ms=$(timeout -s 9 6 ssh $h DISPLAY=:0 xprintidle); then
+      if (( idle_ms < min_idle_ms )); then
 
-          # Ignore this host. i sometimes use a non-main machine for
-          # testing or web browsing, knowing that everything will be wiped
-          # by the next backup, but I dont want it to happen as Im using
-          # it from cronjob.
-          e "warning: $h: active X session in the last 15 minutes, skipping for now"
-          continue
-        fi
-      fi
-      sshable+=($h)
-      if [[ $zone != "$local_zone" ]]; then
-        die "error: dont confuse yourself with multiple time zones. $h has different timezone than localhost"
+        # Ignore this host. i sometimes use a non-main machine for
+        # testing or web browsing, knowing that everything will be wiped
+        # by the next backup, but I dont want it to happen as Im using
+        # it from cronjob.
+        e "warning: $h: active X session in the last 15 minutes, skipping for now"
+        continue
       fi
-    else
-      sshfail+=($h)
+    fi
+    sshable+=($h)
+    if [[ $zone != "$local_zone" ]]; then
+      die "error: dont confuse yourself with multiple time zones. $h has different timezone than localhost"
     fi
   done
   if [[ ! ${sshable[*]} ]] || { ! $cron && [[ ${sshfail[*]} ]]; }; then
@@ -420,12 +457,11 @@ snapshot_create onchange
 # I could make this different from target_preserve,
 # if one disk had less space.
 # for now, keeping them equal.
-snapshot_preserve 18h 14d 8w 24m
+snapshot_preserve $std_preserve
 snapshot_preserve_min 2h
 snapshot_dir btrbk
-
 # so, total backups = ~58
-target_preserve 18h 14d 8w 24m
+target_preserve $std_preserve
 target_preserve_min 2h
 
 # if something fails and it's not obvious, try doing
@@ -440,8 +476,16 @@ incremental strict
 EOF
 fi
 
-vol=/mnt/root
 for m in ${mountpoints[@]}; do
+  case $m in
+    /o)
+      vol=/mnt/o
+      ;;
+    *)
+      vol=/mnt/root
+      ;;
+  esac
+
   sub=${m#/}
   if [[ $source ]]; then
     cat >>/etc/btrbk.conf <<EOF
@@ -455,6 +499,18 @@ EOF
 volume $vol
 subvolume $sub
 EOF
+    case $sub in
+      q)
+        # q has sensitive data i dont want to backup for so long
+        cat >>/etc/btrbk.conf <<EOF
+snapshot_preserve $std_preserve
+snapshot_preserve_min 2h
+snapshot_dir btrbk
+target_preserve $std_preserve
+target_preserve_min 2h
+EOF
+        ;;
+    esac
     for tg in ${targets[@]}; do
       # handle ipv6
       if [[ $tg == *:* ]]; then
@@ -490,19 +546,10 @@ fi
 if $dry_run; then
   m btrbk -v -n $cmd_arg
   mexit 0
-elif [[ $cmd_arg == archive ]]; then
-  if [[ $source ]]; then
-    m btrbk $verbose_arg $progress_arg $cmd_arg ssh://$source$vol $vol
-  else
-    for tg in ${targets[@]}; do
-      m btrbk $verbose_arg $progress_arg $cmd_arg $vol ssh://$tg$vol
-    done
-  fi
-  mexit 0
 fi
 # -q and just using the syslog option seemed nice,
 # but it doesn't show when a send has a parent and when it doesn't.
-m btrbk $verbose_arg $progress_arg $cmd_arg
+m btrbk $preserve_arg $verbose_arg $progress_arg $cmd_arg
 
 # todo: tp not valid anymore.
 # if we have it, sync to systems which don't