npm - @natlibfi/marc-record-validators-melinda - Versions diffs - 12.0.0-alpha.1 → 12.0.0-alpha.12 - Mend

@natlibfi/marc-record-validators-melinda 12.0.0-alpha.1 → 12.0.0-alpha.12

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (100) hide show

package/.github/workflows/{melinda-node-tests.yml → melinda-node-tests-and-publish.yml} +36 -11
package/dist/access-rights.test.js +1 -1
package/dist/access-rights.test.js.map +1 -1
package/dist/addMissingField337.test.js +1 -1
package/dist/addMissingField337.test.js.map +1 -1
package/dist/addMissingField338.test.js +1 -1
package/dist/addMissingField338.test.js.map +1 -1
package/dist/cyrillux-usemarcon-replacement.test.js +4 -7
package/dist/cyrillux-usemarcon-replacement.test.js.map +2 -2
package/dist/cyrillux.test.js +1 -1
package/dist/cyrillux.test.js.map +1 -1
package/dist/double-commas.test.js +1 -1
package/dist/double-commas.test.js.map +1 -1
package/dist/empty-fields.test.js +1 -1
package/dist/empty-fields.test.js.map +1 -1
package/dist/ending-punctuation-conf.js +6 -4
package/dist/ending-punctuation-conf.js.map +2 -2
package/dist/ending-punctuation.js +88 -18
package/dist/ending-punctuation.js.map +3 -3
package/dist/ending-punctuation.test.js +198 -103
package/dist/ending-punctuation.test.js.map +2 -2
package/dist/field-008-18-34-character-groups.test.js +1 -1
package/dist/field-008-18-34-character-groups.test.js.map +1 -1
package/dist/field-structure.test.js +1 -1
package/dist/field-structure.test.js.map +1 -1
package/dist/index.js +122 -59
package/dist/index.js.map +2 -2
package/dist/indicator-fixes.js +11 -1
package/dist/indicator-fixes.js.map +2 -2
package/dist/isbn-issn.js +8 -5
package/dist/isbn-issn.js.map +2 -2
package/dist/melindaCustomMergeFields.js +1 -1
package/dist/melindaCustomMergeFields.js.map +2 -2
package/dist/merge-fields/counterpartField.js +5 -0
package/dist/merge-fields/counterpartField.js.map +2 -2
package/dist/merge-fields/dataProvenance.js +29 -0
package/dist/merge-fields/dataProvenance.js.map +7 -0
package/dist/merge-fields/index.js +11 -2
package/dist/merge-fields/index.js.map +2 -2
package/dist/merge-fields/mergeField.js +1 -1
package/dist/merge-fields/mergeField.js.map +2 -2
package/dist/merge-fields.test.js +4 -2
package/dist/merge-fields.test.js.map +2 -2
package/dist/mergeField500Lisapainokset.js +1 -1
package/dist/mergeField500Lisapainokset.js.map +2 -2
package/dist/normalizeFieldForComparison.js +24 -0
package/dist/normalizeFieldForComparison.js.map +2 -2
package/dist/punctuation2.js +11 -5
package/dist/punctuation2.js.map +2 -2
package/dist/removeInferiorDataFields.js +2 -1
package/dist/removeInferiorDataFields.js.map +2 -2
package/dist/resolveOrphanedSubfield6s.js +1 -1
package/dist/resolveOrphanedSubfield6s.js.map +2 -2
package/dist/sortSubfields.js +5 -5
package/dist/sortSubfields.js.map +2 -2
package/dist/translate-terms.test.js +12 -2
package/dist/translate-terms.test.js.map +2 -2
package/dist/utils.js +9 -3
package/dist/utils.js.map +2 -2
package/package.json +22 -23
package/src/access-rights.test.js +1 -1
package/src/addMissingField337.test.js +1 -1
package/src/addMissingField338.test.js +1 -1
package/src/cyrillux-usemarcon-replacement.test.js +4 -9
package/src/cyrillux.test.js +1 -1
package/src/double-commas.test.js +1 -1
package/src/empty-fields.test.js +1 -1
package/src/ending-punctuation-conf.js +6 -5
package/src/ending-punctuation.js +115 -24
package/src/ending-punctuation.test.js +187 -104
package/src/field-008-18-34-character-groups.test.js +1 -1
package/src/field-structure.test.js +1 -1
package/src/index.js +132 -59
package/src/indicator-fixes.js +14 -1
package/src/isbn-issn.js +11 -6
package/src/melindaCustomMergeFields.js +1 -1
package/src/merge-fields/counterpartField.js +6 -0
package/src/merge-fields/dataProvenance.js +41 -0
package/src/merge-fields/index.js +11 -2
package/src/merge-fields/mergeField.js +2 -2
package/src/merge-fields.test.js +6 -2
package/src/mergeField500Lisapainokset.js +1 -1
package/src/normalizeFieldForComparison.js +26 -0
package/src/punctuation2.js +14 -5
package/src/removeInferiorDataFields.js +4 -1
package/src/resolveOrphanedSubfield6s.js +1 -1
package/src/sortSubfields.js +7 -5
package/src/translate-terms.test.js +25 -2
package/src/utils.js +19 -3
package/test-fixtures/indicator-fixes/10/expectedResult.json +11 -0
package/test-fixtures/indicator-fixes/10/metadata.json +4 -0
package/test-fixtures/indicator-fixes/10/record.json +11 -0
package/test-fixtures/merge-fields/f05/expectedResult.json +24 -0
package/test-fixtures/merge-fields/f05/metadata.json +6 -0
package/test-fixtures/merge-fields/f05/record.json +30 -0
package/test-fixtures/remove-inferior-datafields/f16/expectedResult.json +12 -0
package/test-fixtures/remove-inferior-datafields/f16/metadata.json +5 -0
package/test-fixtures/remove-inferior-datafields/f16/record.json +14 -0
package/test-fixtures/translate-terms-data.js +42 -0
package/src/melindaCustomMergeFields.json +0 -5120

package/src/ending-punctuation.js CHANGED Viewed

@@ -27,7 +27,7 @@
 */
 // Import {validPuncMarks, finnishTerms, confSpec} from './ending-punctuation-conf.js';
-import {validPuncMarks, finnishTerms, confSpec} from './ending-punctuation-conf.js';
+import {validPuncMarks, validQuoteChars, finnishTerms, confSpec} from './ending-punctuation-conf.js';
 import createDebugLogger from 'debug';
 const debug = createDebugLogger('@natlibfi/marc-record-validator-melinda/ending-punctuation');
@@ -65,40 +65,65 @@ export default function () {
 // Field validation with punctuation rules for normal and special cases in subfunction (to reduce complexity to please travisci)
 function validateField(field, linkedTag, fix, message) {
-  // This is used to find last subfield that should have punctuation
-  function findLastSubfield(field) {
-    const subfields = field.subfields.filter(sf => isNaN(sf.code) && 'value' in sf);
-    return subfields.slice(-1).shift();
+  function getDefaultPuncMarks(tag) {
+    if (tag.match(/^[1678](?:00|10|11|30)/u) || tag === '740') { // As defined in Loppupisteohje
+      return `${validPuncMarks})`;
+    }
+    // We don't want ').' here either. However, Loppupisteohje is a bit iffy here.
+    // BUG: Note that our generic rules will remove dot from Finnish terms such as https://finto.fi/yso-aika/fi/page/p1069910600
+    if (['647', '648', '650', '651', '654', '655', '656', '657', '658', '662'].includes(tag)) {
+       return `${validPuncMarks})`;
+    }
+    if(['260'].includes(tag)) {
+      return `${validPuncMarks})]`;
+    }
+    return validPuncMarks;
   }
   // Punctuation rule (Boolean), Check no ending dot strict (Boolean)
   function normalPuncRules(subfield, punc, tag, checkEnd, overrideValidPuncMarks) {
-    const puncMarks = overrideValidPuncMarks || validPuncMarks;
-    const lastPuncMark = puncMarks.includes(subfield.value.slice(-1)); // If string ends to punctuation char
-    const lastPuncDot = '.'.includes(subfield.value.slice(-1)); // If string ends to dot
+    const puncMarks = overrideValidPuncMarks || getDefaultPuncMarks(tag);
+    const lastChar = subfield.value.slice(-1);
+    const lastPuncMark = puncMarks.includes(lastChar); // If string ends to punctuation char
+    const lastPuncDot = '.'.includes(lastChar); // If string ends to dot
+    const penultimateCharacter = subfield.value.length >= 2 ? subfield.value.charAt(subfield.value.length - 2) : undefined;
+    const antePenultimateCharacter = subfield.value.length >= 3 ? subfield.value.charAt(subfield.value.length - 3) : undefined;
-    // Last char should be punc, but its not one of marks nor dot
+    // Last char should be punc, but it's not one of listed punctuation marks nor dot
     if (punc && !(lastPuncMark || lastPuncDot)) {
-      // Console.log("1. Invalid punctuation - missing")
-      message.message.push(`Field ${tag} has invalid ending punctuation`);
-      if (fix) {
-        subfield.value = subfield.value.concat('.');
-        message.fix.push(`Field ${tag} - Added punctuation to $${subfield.code}`);
+      //console.log(puncMarks)
+      if (penultimateCharacter && validQuoteChars.includes(lastChar) && puncMarks.includes(penultimateCharacter)) {
+        // Exception: do nothing! Ending in punc+quote combo is all right, and does not imply a missing punc
+      }
+      else {
+        // Console.log("1. Invalid punctuation - missing")
+        message.message.push(`Field ${tag} requires ending punctuation, ends in '${lastChar}'`);
+        if (fix) {
+          subfield.value = subfield.value.concat('.');
+          message.fix.push(`Field ${tag} - Added punctuation to $${subfield.code}`);
+        }
       }
       // Last char is dot, but previous char is one of punc marks, like 'Question?.'
-    } else if (lastPuncDot && subfield.value.length > 1 && puncMarks.includes(subfield.value.charAt(subfield.value.length - 2))) {
+    } else if (lastPuncDot && penultimateCharacter && puncMarks.includes(penultimateCharacter)) {
       // Console.log("2. Invalid punctuation - duplicate, like '?.'")
-      message.message.push(`Field ${tag} has invalid ending punctuation`);
+      message.message.push(`Field ${tag} has an extra dot after '${penultimateCharacter}'`);
       if (fix) {
         subfield.value = subfield.value.slice(0, -1);
-        message.fix.push(`Field ${tag} - Removed double punctuation from $${subfield.code}`);
+        message.fix.push(`Field ${tag} - Removed dot after punctuation from $${subfield.code}`);
+      }
+      // Last char is dot, but previous two cars are punc+quote, like 'Lorum "Ipsum.".'
+    } else if (lastPuncDot && antePenultimateCharacter && validQuoteChars.includes(penultimateCharacter) && puncMarks.includes(antePenultimateCharacter)) {
+      message.message.push(`Field ${tag} has an extra dot in '${antePenultimateCharacter}${penultimateCharacter}${lastChar}'`);
+      if (fix) {
+        subfield.value = subfield.value.slice(0, -1);
+        message.fix.push(`Field ${tag} - Removed '${lastChar}' after '${antePenultimateCharacter}${penultimateCharacter}'`);
       }
       // Last char shouldn't be dot !! This is behind checkEnd boolean, because of dots at end of abbreviations, so this is checked only in special cases !!//
     } else if (checkEnd && (!punc && lastPuncDot)) {
       // Console.log("3. Invalid punctuation - Shouldn't be dot, is")
-      message.message.push(`Field ${tag} has invalid ending punctuation`);
+      message.message.push(`Field ${tag} has unwanted ending punctuation '${lastChar}'`);
       if (fix) {
         subfield.value = subfield.value.slice(0, -1);
         message.fix.push(`Field ${tag} - Removed punctuation from $${subfield.code}`);
@@ -136,7 +161,7 @@ function validateField(field, linkedTag, fix, message) {
         if (res.special.ifInd2 && res.special.ifInd2.includes(field.ind2)) {
           normalPuncRules(lastSubField, res.special.ifBoth, tag, true, res.special.ifLastCharNot);
-          // Matches execption to special rule, noPuncIfInd2 (likely with value 4, that indicates copyright mark)
+          // Matches exception to special rule, noPuncIfInd2 (likely with value 4, that indicates copyright mark)
         } else if (res.special.noPuncIfInd2 && field.ind2 && res.special.noPuncIfInd2.includes(field.ind2)) {
           normalPuncRules(lastSubField, !res.special.ifBoth, tag, true, res.special.ifLastCharNot);
@@ -158,12 +183,17 @@ function validateField(field, linkedTag, fix, message) {
       normalPuncRules(lastSubField, res.punc, tag, false, false);
       // Search for Finnish terms
-    } else if (res.special.termField) {
+    } else if (res.special.termSubfieldCode) {
       lastSubField = findLastSubfield(field);
       if (lastSubField) {
-        const languageField = field.subfields.find(({code}) => code === res.special.termField);
-        if (languageField && languageField.value && finnishTerms.some(p => p.test(languageField.value))) {
+        const lexicon = getLexicon(field, res.special.termSubfieldCode);
+        const proceed = !finnishException(field, res.special.termSubfieldCode, false);
+        //const languageField = field.subfields.find(({code}) => code === res.special.termSubfieldCode);
+        //if (languageField && languageField.value && finnishTerms.some(p => p.test(languageField.value))) {
+        if (lexicon && finnishTerms.some(p => p.test(lexicon)) && proceed) {
           // If (languageField && languageField.value && finnishTerms.indexOf(languageField.value) > -1) {
           normalPuncRules(lastSubField, res.punc, tag, true, false);
         } else {
@@ -199,6 +229,15 @@ function validateField(field, linkedTag, fix, message) {
       validateField(field, linkedTag, fix, message);
     }
+    // fallback
+    else {
+      debug(`special is definedm but no rule applies`);
+      const lastSubField = findLastSubfield(field);
+      if (lastSubField) {
+        normalPuncRules(lastSubField, res.punc, field.tag, false, false, fix, message);
+      }
+    }
   }
   let res = null;
@@ -232,8 +271,12 @@ function validateField(field, linkedTag, fix, message) {
     return;
   }
+  const forceNormal = res.special ? finnishException(field, res.special.termSubfieldCode, true) : false;
   // Normal rules
-  if (typeof res.special === 'undefined' || res.special === null) {
+  if (typeof res.special === 'undefined' || res.special === null || forceNormal) {
+    if (forceNormal) {
+      console.info("EXCEPTION. SKIP FINNISH RULES");
+    }
     lastSubField = findLastSubfield(field);
     if (lastSubField) {
@@ -260,3 +303,51 @@ export function validateSingleField(field, linkedTag, fix) {
   return message;
 }
+function getLexicon(field, subfieldCode) {
+  const languageSubfield = field.subfields.find(({code}) => code === subfieldCode); // res.special.termSubfieldCode);
+  if (!languageSubfield || !languageSubfield.value) {
+    return undefined;
+  }
+  if (finnishTerms.find(p => p.test(languageSubfield.value))) {
+    return languageSubfield.value;
+  }
+  return undefined;
+}
+function finnishException(field, termSubfieldCode, hasDot = true) {
+  const lexicon = getLexicon(field, termSubfieldCode);
+  if (!lexicon) {
+    return false;
+  }
+  const lastSubfield = findLastSubfield(field);
+  if (!lastSubfield || !lastSubfield.value) {
+    return false;
+  }
+  // Some terms can end in '.' that we want to keep
+  if (field.tag === '648') { // Yso-aika checks
+    //console.log(`Finnish Exception? '${lastSubfield.value}', '${lexicon}', '${field.tag}'`);
+    if (lexicon === 'yso/fin') { // 'eaa.' appears in prefLAbels and 'eKr.' in altLabels
+      if (hasDot) {
+        return lastSubfield.value.match(/ (?:eaa|[ej]Kr|jaa)\.$/u); // Finnish term from which the dot is not to be removed
+      }
+      return lastSubfield.value.match(/ (?:eaa|[ej]Kr)|jaa$/u); // Finnish word that needs a dot
+    }
+    if (lexicon === 'yso/swe') {
+      if (hasDot) {
+        return lastSubfield.value.match(/ (?:[ef]\.Kr|f\.v\.t)\.$/u);
+      }
+      return lastSubfield.value.match(/ (?:[ef]\.Kr|f\.v\.t)$/u);
+    }
+  }
+  // yso has 'MODEL.LA.' and 'Corel R.A.V.E.' but these are so rare I'm not listing them
+  return false;
+}
+  // This is used to find last subfield that should have punctuation
+  function findLastSubfield(field) {
+    const subfields = field.subfields.filter(sf => isNaN(sf.code) && 'value' in sf);
+    return subfields.slice(-1).shift();
+  }