mostly mail and monitoring fixes
[distro-setup] / system-status
index 231e61083f0a03eb4f4168b01ec257896b2a4443..e137d06f3b4b15c44b884e6dc04e8eb17d0a3759 100755 (executable)
 # Copyright (C) 2019 Ian Kelling
 # SPDX-License-Identifier: AGPL-3.0-or-later
 
+# usage: runs 4 times every 15 seconds unless any args are passed, or we
+# are on battery power, then just runs once.
+
 if [ -z "$BASH_VERSION" ]; then echo "error: shell is not bash" >&2; exit 1; fi
 
-set -eE -o pipefail
-trap 'echo "$0:$LINENO:error: \"$BASH_COMMAND\" returned $?" >&2' ERR
+source /a/bin/errhandle/err
+status_file=/dev/shm/iank-status
+
+shopt -s nullglob
+shopt -s dotglob
 
-f=/dev/shm/iank-status
+lo() { /usr/local/bin/log-once "$@"; }
 
 write-status() {
-  chars=()
+  chars=("${first_chars[@]}")
 
-  if test -e /nocow/btrfs-stale/*; then
+  glob=(/nocow/btrfs-stale/*)
+  if [[ -e ${glob[0]} ]]; then
     chars+=("STALE!")
   fi
-  if test -e /m/md/bounces/new/*; then
+  glob=(/m/md/bounces/new/*)
+  if [[ -e ${glob[0]} ]]; then
     chars+=("BOUNCE!")
+    bouncemsg="message in /m/md/bounces/new"
+  fi
+  lo -1 bounce $bouncemsg
+  glob=(/m/md/alerts/new/* /m/md/alerts/cur/*)
+  if [[ -e ${glob[0]} ]]; then
+    chars+=("ALERT!")
   fi
   if [[ -e /nocow/user/mailtest-failure ]]; then
     chars+=("MAILPING!")
   fi
+
+  qlen=$(/usr/sbin/exiqgrep -o 60 -c -b | awk '{print $1}')
+  if ((qlen)); then
+    chars+=("q $qlen")
+  fi
+
+  cd /b/ds
+  if ! make -q ~/.local/distro-begin || [[ $(<~/.local/distro-begin) != 0 ]]; then
+    chars+=("DISTRO-BEGIN!")
+  fi
+
+  if ! make -q ~/.local/distro-end || [[ $(<~/.local/distro-end) != 0 ]]; then
+    chars+=("DISTRO-END!")
+  fi
+
+  f=~/.local/conflink
+  if [[ -e $f ]]; then
+    now=$(date +%s)
+    fsec=$(stat -c%Y $f)
+    fmin=$(( (fsec - now ) / 60 + 1 ))
+    fminplus=$(( fmin + 60*24 ))
+    # Filesystem files get copied, so find any newer than the last run.
+    # The rest are hueristics:
+    # Given the last time we added a file in git, is that newer than the last conflink run.
+    # Given new files not added to git, were they modified more recently than the last conflink? but,
+    # push their modification time back by a day so we can develop them before needing to add them to git.
+    if (( $(date -d "$(git log --diff-filter=ACR --format=%aD -1)" +%s) > fsec )) || \
+         [[ $(find {/a/bin/ds,/p/c}{/filesystem,/machine_specific/$HOSTNAME/filesystem} -mmin $fmin -type f -print -quit 2>/dev/null) ]] \
+         || [[ $(find $(git ls-files -o --exclude-standard) -mmin $fminplus -type f -print -quit) ]]; then
+      chars+=("CONFLINK!")
+    fi
+  fi
+
+  if [[ ! -e $f || $(<$f) != 0 ]]; then
+    chars+=("CONFLINK!")
+  fi
+
+
+  ## Clean the paniclog, but only up to 4 times per day, or else we
+  ## should investigate.
+  loglog=/tmp/panicloglog-$(date --rfc-3339=date)
+  if [[ -s $loglog ]]; then
+    spamcount=$(stat -c%s $loglog)
+  else
+    spamcount=0
+  fi
+  if (( spamcount <= 4 )); then
+    if grep -q 'spam acl condition' /var/log/exim4/paniclog &>/dev/null; then
+      printf . >>$loglog
+    fi
+    /a/bin/distro-setup/epanic-clean
+  fi
+
   if [[ -s /var/log/exim4/paniclog ]]; then
     chars+=("PANIC!")
+    tail -n 20 /var/log/exim4/paniclog | lo -1 paniclog
+  else
+    lo -1 paniclog
+  fi
+
+  source /a/bin/bash_unpublished/source-state
+  if [[ $MAIL_HOST == "$HOSTNAME" ]]; then
+    bbkmsg=
+    if [[ $(systemctl is-active btrbk.timer) != active ]]; then
+      chars+=("BTRBK.TIMER!")
+      bbkmsg="btrbk.timer not enabled"
+    fi
+    lo -60 btrbk.timer $bbkmsg
+
+    ## check if last snapshot was within an hour
+    vol=o
+    # this section generally copied from btrbk scripts, but
+    # this part modified to speed things up by about half a second.
+    # I'm not sure if its quite as reliable, but it looks pretty safe.
+    # Profiled it using time and also adding to the top of the file:
+    # set -x
+    # PS4='+ $(date "+%2N") '
+    snaps=($(ls -1avdr /mnt/root/btrbk/$vol.20*|head -n1))
+    now=$(date +%s)
+    maxtime=0
+    for s in ${snaps[@]}; do
+      file=${s##*/}
+      t=$(date -d $(sed -r  's/(.{4})(..)(.{5})(..)(.*)/\1-\2-\3:\4:\5/' <<<${file#$vol.}) +%s)
+      if (( t > maxtime )); then
+        maxtime=$t
+      fi
+    done
+    if (( maxtime < now - 60*60 )); then
+      chars+=("OLD-SNAPSHOT!")
+      snapshotmsg="/o snapshot older than 1 hour"
+    fi
+    lo -1 old-snapshot $snapshotmsg
   fi
 
-  cat /a/bin/bash_unpublished/source-state >$f
+  cat /a/bin/bash_unpublished/source-state >$status_file
 
-  if [[ $chars ]]; then
-    echo "ps_char=\"${chars[*]} \$ps_char\"" >>$f
+  if [[ ${chars[*]} ]]; then
+    echo "ps_char=\"${chars[*]} \$ps_char\"" >>$status_file
   fi
+
 }
+# use this if we want to do something just once per minute
+first_chars=()
+
+power=true
+if [[ -e /sys/class/power_supply/AC/online && $(</sys/class/power_supply/AC/online) == 0 ]]; then
+  power=false
+fi
+
 write-status
-if [[ $@ ]]; then
+if [[ $1 ]]; then
+  cat $status_file
+  exit 0
+fi
+
+if ! $power; then
   exit 0
 fi
 for ((i=1; i<=3; i++)); do