RubyGems - interscript - Versions diffs - 0.1.7 → 0.1.9 - Mend

interscript 0.1.7 → 0.1.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (82) hide show

checksums.yaml +4 -4
data/README.adoc +1 -3
data/aliases.json +1 -0
data/lib/interscript.rb +8 -3
data/lib/interscript/fs.rb +27 -0
data/lib/interscript/mapping.rb +3 -1
data/lib/interscript/opal.rb +142 -3
data/lib/interscript/opal/entrypoint.rb +8 -0
data/lib/interscript/opal/exports.rb +11 -0
data/lib/interscript/opal/maps.js.erb +2 -4
data/lib/interscript/version.rb +1 -1
data/maps/alalc-ara-Arab-Latn-1997.yaml +5 -5
data/maps/alalc-asm-Deva-Latn-1997.yaml +104 -10
data/maps/alalc-asm-Deva-Latn-2012.yaml +18 -3
data/maps/alalc-aze-Arab-Latn-1997.yaml +376 -0
data/maps/alalc-ben-Beng-Latn-1997.yaml +291 -0
data/maps/alalc-div-Thaa-Latn-1997.yaml +211 -0
data/maps/alalc-hin-Deva-Latn-1997.yaml +102 -10
data/maps/alalc-hin-Deva-Latn-2011.yaml +19 -1
data/maps/alalc-kan-Kana-Latn-1997.yaml +274 -0
data/maps/alalc-kan-Kana-Latn-2011.yaml +63 -0
data/maps/alalc-ori-Orya-Latn-1997.yaml +284 -0
data/maps/alalc-ori-Orya-Latn-2011.yaml +67 -0
data/maps/alalc-pra-Deva-Latn-2012.yaml +2 -2
data/maps/alalc-san-Deva-Latn-2012.yaml +78 -9
data/maps/alalc-tel-Telu-Latn-1997.yaml +284 -0
data/maps/alalc-tel-Telu-Latn-2011.yaml +64 -0
data/maps/az-aze-Cyrl-Latn-1939.yaml +105 -0
data/maps/az-aze-Cyrl-Latn-1958.yaml +45 -0
data/maps/bgnpcgn-ara-Arab-Latn-1956.yaml +3 -1
data/maps/bgnpcgn-aze-Cyrl-Latn-1993.yaml +111 -104
data/maps/bgnpcgn-bal-Arab-Latn-2008.yaml +329 -0
data/maps/bgnpcgn-bul-Cyrl-Latn-1952.yaml +1 -1
data/maps/bgnpcgn-div-Thaa-Latn-1988.yaml +75 -0
data/maps/bgnpcgn-far-Latn-Latn-1964.yaml +28 -0
data/maps/bgnpcgn-isl-Latn-Latn-1964.yaml +37 -0
data/maps/bgnpcgn-kaz-Cyrl-Latn-1979.yaml +247 -0
data/maps/bgnpcgn-kir-Cyrl-Latn-1979.yaml +218 -0
data/maps/bgnpcgn-kur-Arab-Latn-2007.yaml +249 -0
data/maps/bgnpcgn-per-Arab-Latn-1958.yaml +2 -0
data/maps/bgnpcgn-prs-Arab-Latn-2007.yaml +87 -53
data/maps/bgnpcgn-pus-Arab-Latn-1968.yaml +377 -0
data/maps/bgnpcgn-srp-Cyrl-Latn-1962.yaml +73 -0
data/maps/bgnpcgn-urd-Arab-Latn-2007.yaml +459 -0
data/maps/{bis-knd-Knda-Latn-13194-1991.yaml → bis-kan-Kana-Latn-13194-1991.yaml} +2 -2
data/maps/bis-ori-Orya-Latn-13194-1991.yaml +17 -2
data/maps/iso-ara-Arab-Latn-233-1984.yaml +1 -1
data/maps/{iso-kan-Knda-Latn-15919-2001.yaml → iso-kan-Kana-Latn-15919-2001.yaml} +1 -1
data/maps/{mns-mon-Cyrl-Latn-5217-2012.yaml → masm-mon-Cyrl-Latn-5217-2012.yaml} +2 -2
data/maps/{mns-mon-Latn-Cyrl-5217-2012.yaml → masm-mon-Latn-Cyrl-5217-2012.yaml} +1 -1
data/maps/mv-div-Thaa-Latn-1987.yaml +200 -0
data/maps/odni-ara-Arab-Latn-2004.yaml +137 -0
data/maps/odni-ara-Arab-Latn-2015.yaml +20 -130
data/maps/odni-bul-Cyrl-Latn-2005.yaml +90 -0
data/maps/odni-fas-Arab-Latn-2004.yaml +276 -0
data/maps/odni-hin-Deva-Latn-2004.yaml +182 -0
data/maps/odni-mkd-Cyrl-Latn-2005.yaml +21 -0
data/maps/odni-prs-Arab-Latn-2004.yaml +123 -0
data/maps/{odni-per-Arab-Latn-2015.yaml → odni-prs-Arab-Latn-2015.yaml} +0 -0
data/maps/odni-srp-Cyrl-Latn-2005.yaml +36 -0
data/maps/odni-tuk-Cyrl-Latn-2015.yaml +170 -0
data/maps/odni-ukr-Cyrl-Latn-2015.yaml +4 -0
data/maps/un-ara-Arab-Latn-2017.yaml +1 -1
data/maps/un-asm-Beng-Latn-1972.yaml +223 -0
data/maps/un-guj-Gujr-Latn-1972.yaml +229 -0
data/maps/un-hin-Deva-Latn-2016.yaml +104 -10
data/maps/un-kan-Kana-Latn-2016.yaml +254 -0
data/maps/un-mal-Mlym-Latn-1972.yaml +251 -0
data/maps/un-mar-Deva-Latn-2016.yaml +24 -13
data/maps/un-nep-Deva-Latn-1972.yaml +40 -121
data/maps/un-ori-Orya-Latn-1972.yaml +247 -0
data/maps/un-pan-Guru-Latn-1972.yaml +402 -0
data/maps/un-prs-Arab-Latn-1967.yaml +236 -0
data/maps/un-tam-Taml-Latn-1972.yaml +194 -0
data/maps/un-tel-Telu-Latn-1972.yaml +270 -0
data/maps/un-urd-Arab-Latn-1972.yaml +405 -0
data/maps/var-amh-Ethi-Latn-eae-2003.yaml +466 -0
data/maps/var-gez-Ethi-Latn-eae-2003.yaml +76 -0
data/spec/interscript/filenames_spec.rb +6 -369
data/spec/interscript_spec.rb +10 -2
metadata +50 -7
data/lib/interscript/opal/map_translate.rb +0 -7

data/maps/un-prs-Arab-Latn-1967.yaml ADDED

@@ -0,0 +1,236 @@
+---
+authority_id: ungen
+id: 2017
+language: iso-639-3:prs # prs stands for Dari (https://iso639-3.sil.org/code/prs&_ga=GA1.2.2054538372.1574092823)
+source_script: Arab
+destination_script: Latn
+name: Persian UN 1967
+url: http://www.eki.ee/wgrs/v2_2/rom1_fa.htm
+creation_date: 1967
+confirmation_date: 01-2003
+description: |
+  The United Nations recommended system was approved in 1967 (
+  I/13), based on the official system adopted by Iran and
+  published in its English version as Transliteration of
+  Farsi Geographic Names to Latin Alphabet (September 1966).
+  The romanization table was also published as an annex to
+  the Toponymic Guidelines for the Islamic Republic of Iran
+  in 2000 (Toponymic Guidelines for map and other editors –
+  Revised edition 1998. Submitted by the Islamic Republic of
+  Iran. UNGEGN, 20th session. New York, 17-28 January 2000,
+  Working Paper No. 41.).
+  The system is used in the Islamic Republic of Iran and in
+  international cartographic products.
+  Persian (Farsi) uses the Perso-Arabic script that is
+  written from right to left. The Persian script usually
+  omits vowel points and diacritical marks from writing which
+  makes it difficult to obtain uniform results in the
+  romanization of Persian. The romanization is generally
+  reversible though there are some ambiguous letter
+  sequences (kh, sh, th, zh) which also may represent the
+  romanized values of two Persian characters in addition to
+  the respective single ones.
+notes:
+  - A Word-initially.
+  - B Not romanized; marks absence of the vowel.
+  - C Doubling of the consonant letter.
+  - D After a consonant (excl. -ah).
+  - E After a vowel (see also note 2).
+  - 1-The adjectival ending of Arabic origin -يه in Persian is
+    romanized -īyeh. In romanizing the definite article the
+    same rules of assimilation of consonants are applied as in
+    Arabic, e.g. زين الدين Zeyn od Dīn.
+  - 2-The relational suffix (eẕāfeh) -e is usually not
+    expressed in Persian writing after a consonant. After final
+    ا or و it is written with ى, e.g. پاى آب Pā-ye Āb. After
+    final ى and ه it is expressed by writing hamzeh over the
+    character دهانۀ ممبر Dahāneh-ye Mambar.
+  - 3-To point Persian vowels two systems are in use that are
+    separated by a column in the table. The first system is a
+    Persian one while the other adheres to the Arabic
+    tradition. In normal spelling vowel points are not used.
+tests:
+  - source: اَنجِيرة
+    expected: Anjīrah
+  - source: اِيْوَانِي
+    expected: Eyvānī
+  - source: آبَادَان
+    expected: Ābādān
+  - source: قُرآن
+    expected: Qor’ān
+  - source: مَآب
+    expected: Ma’āb
+  - source: مُحَمَّد
+    expected: Moḩammad
+  - source: كُوهِ مَرغُوب
+    expected: Kūh-e Marghūb
+  - source: پَايِ آب
+    expected: Pā-ye Āb
+  - source: جُويِ آس
+    expected: Jū-ye Ās
+  - source: دَهَانِهٴ مَمبَر
+    expected: Dahāneh-ye Mambar
+  - source: سَلَسِيٴ بُذُرگ
+    expected: Salasī-ye Boz̄org
+  - source: ذُو الفَقَار
+    expected: Z̄ū ol Faqār
+map:
+  postrules:
+    - pattern: (?<=\b)(?<!\b[‘|’|'|-])[\u0061-\uFFFF]
+      result: "upcase"
+    - pattern: " Al"
+      result: " al"
+    - pattern: " Ol"
+      result: " ol"
+  characters:
+    '\u064e' : 'a' # َ fatha
+    '\u064e(?=\u0629)' : '' # َ fatha followed by ta' marboota
+    '\u064e(?=a[h|t])' : '' # َ fatha followed by ta' marboota, handling different order of conversion
+    '\u0650' : 'e' # ِ kasra
+    '\u064f' : 'o' # ُ damma
+    '\u0652' : ''  # ْ sokoon, see Note B
+    '\u064e\u0627' : 'ā'  # ـَا fatha followed by ا
+    '\u064e\u0649' : 'á'  # ـَى fatha followed by ى which is ا not ي
+    '\b\u0622' : 'ā'  # آ  NOTE A
+    '\u0622' : '’ā' # آ
+    '\u0650\u064a' : 'ī' # ـِي kasra followed by ي
+    '\u064f\u0648' : 'ū'  # ـُو damma followed by و
+    '[\u064e|\u0650]\u064a\u0652' : 'ey'  # ـَيْ
+    '[\u064e|\u064f]\u0648\u0652' : 'ow'  # ـَوْ
+    '\u0621' : '’' # ء
+    '\u2013' : '–'
+    '\u2013[\u0649|\u064a]\u0647' : '-īyeh'
+    '[\u0654|\u0674]' : '-e' # ٴ ezafeh
+    '(?<=[\u064a|\u0647])[\u0654|\u0674]' : '-ye' # ٴ ezafeh
+    '\u0650\b' : '-e' # ِ kasra
+    '[\u064a|\u06cc]\u0650\b' : '-ye' # ِ kasra
+    # NOTE C
+    '\u0628\u0651' : 'bb'  # ب
+    '\u062a\u0651' : 'tt'  # ت
+    '\u062b\u0651' : 's̄s̄'  # ث
+    '\u062c\u0651' : 'jj'  # ج
+    '\u062d\u0651' : 'ḩḩ' # ح
+    '\u062e\u0651' : 'kh'  # خ
+    '\u062f\u0651' : 'dd'  # د
+    '\u0630\u0651' : 'z̄z̄'  # ذ
+    '\u0631\u0651' : 'rr'  # ر
+    '\u0632\u0651' : 'zz'  # ز
+    '\u0633\u0651' : 'ss'  # س
+    '\u0634\u0651' : 'sh'  # ش
+    '\u0635\u0651' : 'şş'  # ص
+    '\u0636\u0651' : 'ẕẕ'  # ض
+    '\u0637\u0651' : 'ţţ'  # ط
+    '\u0638\u0651' : 'z̧z̧'  # ظ
+    '\u063a\u0651' : 'gh'  # غ
+    '\u0641\u0651' : 'ff'  # ف
+    '\u0642\u0651' : 'qq'  # ق
+    '\u0643\u0651' : 'kk'  # ك
+    '\u0644\u0651' : 'll'  # ل
+    '\u0645\u0651' : 'mm'  # م
+    '\u0646\u0651' : 'nn'  # ن
+    '\u0647\u0651' : 'hh'  # ه
+    '\u0648\u0651' : 'vv'  # و
+    '\u064a\u0651' : 'yy'  # ي
+    # NOTE 1
+    # Sun letters
+    '\b\u0627\u0644\u062a' : 'ot t'  # الت
+    '\b\u0627\u0644\u062b' : 'os̄ s̄'  # الث
+    '\b\u0627\u0644\u062f' : 'od d' # الد
+    '\b\u0627\u0644\u0630' : 'oz̄ z̄'  # الذ
+    '\b\u0627\u0644\u0631' : 'or r' # الر
+    '\b\u0627\u0644\u0632' : 'oz z'  # الز
+    '\b\u0627\u0644\u0633' : 'os s' # الس
+    '\b\u0627\u0644\u0634' : 'osh sh' # الش
+    '\b\u0627\u0644\u0635' : 'oş ş'  # الص
+    '\b\u0627\u0644\u0636' : 'oẕ ẕ'  # الض
+    '\b\u0627\u0644\u0637' : 'oţ ţ'  # الط
+    '\b\u0627\u0644\u0638' : 'oz̧ z̧' # الظ
+    '\b\u0627\u0644\u0644' : 'ol l'  # الل
+    '\b\u0627\u0644\u0646' : 'on n'  # الن
+    '\u0650\u064a\u0651' : 'īy' # ـِيَّ
+    '\u0650\u064a(?=\u064e|u064f)' : 'iy' # ـِي kasra followed by ي
+    # ta' marboota
+    '\u0629' : 'at' # ة in the middle of the sentence
+    '\u0629$' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{2})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{3})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{4})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{5})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{6})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{7})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{8})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{9})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{10})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{11})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{12})\u0629' : 'ah'
+    '(?<=\b\u0627\u0644[\u0600-\u06ff]{13})\u0629' : 'ah'
+    '\b\u0627\u0644' : 'al '  # ال
+    '\s\b\u0627\u0644' : ' ol '  # ال #special Rule 1
+    '\b\u0627' : ''  # ا initial
+    '\u0627' : 'ā'  # ا middial
+    '\u0627\b' : 'ā'  # ا final
+    '\u0628' : 'b' # ب
+    '\u067E' : 'p' # پ
+    '\u062A' : 't' # ت
+    '\u062B' : 's̄' # ث
+    '\u062C' : 'j' # ج
+    '\u0686' : 'ch' # ‫چ‬
+    '\u062D' : 'ḩ' # ح
+    '\u062E' : 'kh' # خ
+    '\u062F' : 'd' # د
+    '\u0630' : 'z̄' # ذ
+    '\u0631' : 'r' # ر
+    '\u0632' : 'z' # ز
+    '\u0698' : 'zh' # ‫ژ‬
+    '\u0633' : 's' # س
+    '\u0634' : 'sh' # ش
+    '\u0635' : 'ş' # ص
+    '\u0636' : 'ẕ' # ض
+    '\u0637' : 'ţ' # ط
+    '\u0638' : 'z̧' # ظ
+    '\u0639' : '’' # ع
+    '\u063A' : 'gh' # غ
+    '\u0641' : 'f' # ف
+    '\u0642' : 'q' # ق
+    '\u0643' : 'k'  # ك
+    '\u06A9' : 'k' # ک
+    '\u06AF' : 'g' # گ
+    '\u0644' : 'l' # ل‫‬
+    '\u0645' : 'm' # م
+    '\u0646' : 'n' # ن
+    '\u0648' : 'v' # و
+    '\u0647' : 'h' # ه
+    '\u0649' : 'y' # ي
+    '\u064a' : 'y'  # ي

data/maps/un-tam-Taml-Latn-1972.yaml ADDED

@@ -0,0 +1,194 @@
+---
+authority_id: un
+id: 1972
+language: iso-639-2:tam
+source_script: Gujr
+destination_script: Taml
+name: REPORT ON THE CURRENT STATUS OF UNITED NATIONS ROMANIZATION SYSTEMS FOR GEOGRAPHICAL NAMES --Tamil Romanization Version 4.0
+url: https://www.eki.ee/wgrs/rom1_ta.htm
+creation_date: 1972
+confirmation_date: 2016
+description: |
+  The United Nations recommended system was approved in 1972 (II/11) and amended in 1977 (III/12), based on a report prepared by
+  D. N. Sharma. The tables and their corrections were published in volume II of the conference reports.
+  There is no evidence of the use of the system either in India, Sri Lanka or in international cartographic products.
+  Tamil uses an alphasyllabic script whereby each character represents a syllable rather than one sound. Vowels and diphthongs
+  are marked in two ways: as independent characters (used syllable-initially) and in an abbreviated form, to denote vowels after
+  consonants. The romanization table is unambiguous. The system is on the whole reversible.
+notes:
+  - |
+    ஜி Variation: டி ṭi.
+  - |
+    ஜீ Variation: டீ ṭī.
+  - |
+    ஜு Variations: கு ku, ஙு ṅu, சு chu, ஞு ñu, டு ṭu, ணு ṇu, து tu, நு nu, பு pu, மு mu, யு yu, ரு ru, லு lu, etc.
+  - |
+    ஜூ Variations: கூ kū, ஙூ ṅū, சூ chū, ஞூ ñū, டூ ṭū, ணூ ṇū, தூ tū, நூ nū, பூ pū, மூ mū, etc.
+  - |
+    ஃ Absent in the original table.
+  - |
+    ் Pronunciation without a vowel: க் k.
+  - |
+    ஜ, ஶ, ஸ, ன Characters borrowed from the Grantha script.
+  - |
+    ஸ Special syllable character: ஸ்ரீ srī.
+tests:
+  - source: "அழிந்து போன நகரத்தில் , தொலைந்து போன நான்"
+    expected: "al̮intu poṉa nakarattil , tŏlaintu poṉa nāṉ"
+  - source: "முதன் முதலாக - மை ஃபர்ஸ்ட் சோலோ ட்ராவல்"
+    expected: "mutaṉ mutalāka - mai ḥparsṭ cholo ṭrāval"
+  - source: "வாழ்க்கையில் அவன் போன முதல் சோலோ டிரிப் அது தான்."
+    expected: "vāl̮kkaiyil avaṉ poṉa mutal cholo ṭirip atu tāṉ."
+  - source: "ஸ்கூல் ப்ரெண்ட் கார்த்திக் வீட்டுக்கு போய்ட்டு"
+    expected: "skūl prĕṇṭ kārttik vīṭṭukku poyṭṭu"
+  - source: "நாசா வெளியிட்ட வெடிக்கும் நட்சத்திரத்தின் வீடியோ"
+    expected: "nāchā vĕḷiyiṭṭa vĕṭikkum naṭchattirattiṉ vīṭiyo"
+  - source: "டார்பிடோவை ஏவ உதவும் சூப்பர்சானிக் ஏவுகணையான ஸ்மார்ட் சோதனை வெற்றி"
+    expected: "ṭārpiṭovai eva utavum chūpparchāṉik evukaṇaiyāṉa smārṭ chotaṉai vĕṟṟi"
+  - source: "இந்த ஆண்டு மருத்துவத்துக்கான நோபல் பரிசு பெறுபவர்களின் பெயர்கள் அறிவிப்பு"
+    expected: "inta āṇṭu maruttuvattukkāṉa nopal parichu pĕṟupavarkaḷiṉ pĕyarkaḷ aṟivippu"
+  - source: "மல்லையா விவகாரம்: பிரிட்டன் அரசின் நடவடிக்கைகள் தங்களுக்கு தெரியவில்லை - மத்திய அரசு தகவல்"
+    expected: "mallaiyā vivakāram: piriṭṭaṉ arachiṉ naṭavaṭikkaikaḷ taṅkaḷukku tĕriyavillai - mattiya arachu takaval"
+  - source: "ஆலோசனைக்குப் பிறகு தேனியில் இருந்து சென்னை புறப்பட்டார் துணை முதலமைச்சர் பன்னீர்செல்வம்"
+    expected: "ālochaṉaikkup piṟaku teṉiyil iruntu chĕṉṉai puṟappaṭṭār tuṇai mutalamaichchar paṉṉīrchĕlvam"
+  - source: "இன்று தான் பேரன் பிறந்தநாள் முடிந்து ஃப்ரீ ஆகி இருக்கிறேன்"
+    expected: "iṉṟu tāṉ peraṉ piṟantanāḷ muṭintu ḥprī āki irukkiṟeṉ"
+map:
+  rules:
+    - pattern: ([க]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'k'
+    - pattern: ([ங]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ṅ'
+    - pattern: ([ச]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ch'
+    - pattern: ([ஞ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ñ'
+    - pattern: ([ட]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ṭ'
+    - pattern: ([ண]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ṇ'
+    - pattern: ([த]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  't'
+    - pattern: ([ந]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'n'
+    - pattern: ([ப]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'p'
+    - pattern: ([ம]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'm'
+    - pattern: ([ய]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'y'
+    - pattern: ([ர]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'r'
+    - pattern: ([ல]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'l'
+    - pattern: ([வ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'v'
+    - pattern: ([ழ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'l̮'
+    - pattern: ([ள]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ḷ'
+    - pattern: ([ற]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ṟ'
+    - pattern: ([ன]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ṉ'
+    - pattern: ([ஜ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'j'
+    - pattern: ([ஶ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'sh'
+    - pattern: ([ஷ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'ṣh'
+    - pattern: ([ஸ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  's'
+    - pattern: ([ஹ]=?)(?=[\u0bbe\u0bbf\u0bc0\u0bc1\u0bc2\u0bc6\u0bc7\u0bc8\u0bca\u0bcb\u0bcc\u25cc\u0bcd])
+      result:  'h'
+  characters:
+    'அ': 'a'
+    'ஆ': 'ā'
+    'ா': 'ā'
+    'இ': 'i'
+    'ி': 'i'
+    'ஈ': 'ī'
+    'ீ': 'ī'
+    'உ': 'u'
+    'ு': 'u'
+    'ஊ': 'ū'
+    'ூ': 'ū'
+    'ெ': "ĕ"
+    'எ': 'ĕ'
+    'ே': "e"
+    'ஏ': 'e'
+    'ஐ': 'ai'
+    'ை': "ai"
+    'ஒ': 'ŏ'
+    'ொ': 'ŏ'
+    'ோ': 'o'
+    'ஓ': 'o'
+    'ஔ': 'au'
+    'ௌ': 'au'
+    'ஃ': 'ḥ'
+    '்': ''
+    'க': 'ka'
+    'ங': 'ṅa'
+    'ச': 'cha'
+    'ஞ': 'ña'
+    'ட': 'ṭa'
+    'ண': 'ṇa'
+    'த': 'ta'
+    'ந': 'na'
+    'ப': 'pa'
+    'ம': 'ma'
+    'ய': 'ya'
+    'ர': 'ra'
+    'ல': 'la'
+    'வ': 'va'
+    'ழ': 'l̮a'
+    'ள': 'ḷa'
+    'ற': 'ṟa'
+    'ன': 'ṉa'
+    'ஜ': 'ja'
+    'ஶ': 'sha'
+    'ஷ': 'ṣha'
+    'ஸ': 'sa'
+    'ஹ': 'ha'
+    'க்ஷ': 'kṣha'
+    'ற்ற': 'ṟṟa'
+    'ன்ற': 'ṉṟa'
+    # Digits
+    '௧': '1'
+    '௨': '2'
+    '௩': '3'
+    '௪': '4'
+    '௫': '5'
+    '௬': '6'
+    '௭': '7'
+    '௮': '8'
+    '௯': '9'
+    '௦': '0'
+    '௰': '10'
+    '௱': '100'
+    '௲': '1000'
+    "‍": '' # no need for zero with joiner
+    "‌": '' # no need for zero with non joiner

data/maps/un-tel-Telu-Latn-1972.yaml ADDED

@@ -0,0 +1,270 @@
+---
+authority_id: un
+id: 1972
+language: iso-639-2:tel
+source_script: Telu
+destination_script: Latn
+name: REPORT ON THE CURRENT STATUS OF UNITED NATIONS ROMANIZATION SYSTEMS FOR GEOGRAPHICAL NAMES -- Telugu Romanization, 1972
+url: https://www.eki.ee/wgrs/rom1_te.htm
+creation_date: 1972
+confirmation_date: 2016
+description: |
+  The United Nations recommended system was approved in 1972 (II/11) and amended in 1977 (III/12),
+  based on a report prepared by D. N. Sharma. The tables and their corrections were published in volume II
+  of the conference reports.
+  There is no evidence of the use of the system either in India or in international cartographic products.
+  Telugu uses an alphasyllabic script whereby each character represents a syllable rather than one sound.
+  Vowels and diphthongs are marked in two ways: as independent characters (used syllable-initially) and in
+  an abbreviated form, to denote vowels after consonants. The romanization table is unambiguous. The system is
+  mostly reversible but there may exist some ambiguities in the romanization of vowels (independent vs. abbreviated characters)
+  and consonants (combinations with subscript consonants vs. character sequences).
+notes:
+  - |
+    Only the vowel forms that appear at the beginning of a syllable are listed; the forms used for
+    vowels following a consonant can be found in grammars; no distinction between the two is
+    made in transliteration.
+  - |
+    The vowel a is implicit after all consonants and consonant clusters and is supplied in
+    transliteration, with the following exceptions:
+    a) when another vowel is indicated by its appropriate sign; and
+    b) when the absence of any vowel is indicated by the superscript sign ( ౬ ) called valapalagilaka.
+  - |
+    Exception: Sunna is transliterated by:
+    a) ṅ before gutturals,
+    b) ñ before palatals,
+    c) ṇ before cerebrals,
+    d) n before dentals, and
+    e) m before labials.
+  - |
+    Ardhasunna before gutturals and palatal, cerebral, and dental occlusives is transliterated n̐.
+    Before labials, sibilants, semivowels, the aspirate, vowels, and in final position it is
+    transliterated m
+tests:
+  - source: "తమిళనాడు"
+    expected: "tamiḷanāḍu"
+  - source: "తంటికొండ ఘటన: ఆగని మృత్యుఘోష"
+    expected: "taṃṭikŏṃḍa ghaṭana: āgani mṛtyughoṣha"
+  - source: "మళ్లీ వివాదం: అమితాబ్‌పై కేసు"
+    expected: "maḷlī vivādaṃ: amitābpai kesu"
+  - source: "వరద సాయం పేరుతో వైట్ కాలర్ దోపిడీ"
+    expected: "varada sāyaṃ peruto vaiṭ kālar dopiḍī"
+  - source: "రెండో విడత జీఎస్టీ పరిహారం"
+    expected: "rĕṃḍo viḍata jīĕsṭī parihāraṃ"
+  - source: "నితీష్‌ కుమార్‌ అధ్యాయం ముగిసినట్లేనా?!"
+    expected: "nitīṣh kumār adhyāyaṃ mugisinaṭlenā?!"
+  - source: "వారిపై జీవితాంతం నిషేధం విధించండి!"
+    expected: "vāripai jīvitāṃtaṃ niṣhedhaṃ vidhiṃchaṃḍi!"
+  - source: "మరో లాక్‌డౌన్‌ వల్ల అన్నీ అనర్థాలే!"
+    expected: "maro lākḍaun valla annī anarthāle!"
+  - source: "జెసిండా మరో సంచలనం"
+    expected: "jĕsiṃḍā maro saṃchalanaṃ"
+  - source: "స్వీయ నిర్బంధంలోకి డబ్ల్యూహెచ్‌ఓ డైరెక్టర్‌"
+    expected: "svīya nirbaṃdhaṃloki ḍablyūhĕcho ḍairĕkṭar"
+  - source: "కరోనాపై యుద్ధంలో సమిధలు"
+    expected: "karonāpai yuddhaṃlo samidhalu"
+  - source: "అమెరికా ఎన్నికలు: ‘పెద్దన్న’ ఎవరో?!"
+    expected: "amĕrikā ĕnnikalu: ‘pĕddanna’ ĕvaro?!"
+  - source: "౪౬౨౬౯"
+    expected: "46269"
+  - source: "రంగపూర్"
+    expected: "raṃgapūr"
+  # subscript consonant characters
+  - source: "ట్ట"
+    expected: "ṭṭa"
+  - source: "ప్ప"
+    expected: "ppa"
+  - source: "చ్చ"
+    expected: "chcha"
+map:
+  rules:
+    - pattern: ([క]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'k'
+    - pattern: ([ఖ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'kh'
+    - pattern: ([గ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'g'
+    - pattern: ([ఘ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'gh'
+    - pattern: ([ఙ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'ṅ'
+    - pattern: ([చ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'ch'
+    - pattern: ([ఛ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'chh'
+    - pattern: ([జ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'j'
+    - pattern: ([ఝ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'jh'
+    - pattern: ([ఞ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'ñ'
+    - pattern: ([ట]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:   'ṭ'
+    - pattern: ([ఠ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:   'ṭh'
+    - pattern: ([డ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:   'ḍ'
+    - pattern: ([ఢ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:   'ḍh'
+    - pattern: ([ణ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:   'ṇ'
+    - pattern: ([త]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  't'
+    - pattern: ([థ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'th'
+    - pattern: ([ద]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'd'
+    - pattern: ([ధ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'dh'
+    - pattern: ([న]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'n'
+    - pattern: ([ప]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'p'
+    - pattern: ([ఫ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'ph'
+    - pattern: ([బ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'b'
+    - pattern: ([భ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'bh'
+    - pattern: ([మ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'm'
+    - pattern: ([య]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'y'
+    - pattern: ([ర]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'r'
+    - pattern: ([ఱ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'r'
+    - pattern: ([ల]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'l'
+    - pattern: ([వ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'v'
+    - pattern: ([శ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'sh'
+    - pattern: ([ష]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'ṣh'
+    - pattern: ([స]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  's'
+    - pattern: ([హ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:  'h'
+    - pattern: ([ళ]=?)(?=[\u0c3e\u0c3f\u0c40\u0c41\u0c42\u0c43\u0c46\u0c47\u0c48\u0c4a\u0c4b\u0c4c\u0c6c\u0c4d])
+      result:   'ḷ'
+  characters:
+    # I. Independent vowel characters
+    'అ': 'a'
+    'ఆ': 'ā'
+    'ఇ': 'i'
+    'ఈ': 'ī'
+    'ఉ': 'u'
+    'ఊ': 'ū'
+    'ఋ': 'ṛ'
+    'ౠ': 'ṝ'
+    'ఎ': 'ĕ'
+    'ఏ': 'e'
+    'ఐ': 'ai'
+    'ఒ': 'ŏ'
+    'ఓ': 'o'
+    'ఔ': 'au'
+    # II. Abbreviated vowel characters and other symbols
+    'ా': 'ā'
+    'ి': 'i' # Variations: చి chi, ని ni, యి yi, లి li, etc.
+    'ీ': 'ī'
+    'ు': 'u' # Variations: జు ju, పు pu, వు vu, etc.
+    'ూ': 'ū'
+    'ృ': 'ṛ'
+    'ె': 'ĕ'
+    'ే': 'e'
+    'ై': 'ai'
+    'ొ': 'ŏ' # Variations: మొ mŏ, యొ yŏ.
+    'ో': 'o' # Variations: మో mo, యో yo.
+    'ౌ': 'au'
+    'ঁ': 'ṁ'
+    'ఁ': 'm̐' # Signified historic nasal sound, now obsolete.
+    'ః': 'ḥ'
+    'ం': 'ṃ'
+    '\u0c4d': '' # End-of-syllable mark (i.e., a consonant without a vowel): రంగపూర్ Raṁgapūr.
+    # III. Consonant characters
+    # Gutturals
+    'క': 'ka'
+    'ఖ': 'kha'
+    'గ': 'ga'
+    'ఘ': 'gha'
+    'ఙ': 'ṅa'
+    # Palatals
+    'చ': 'cha'
+    'ఛ': 'chha'
+    'జ': 'ja'
+    'ఝ': 'jha'
+    'ఞ': 'ña'
+    # Cerebrals
+    'ట':  'ṭa'
+    'ఠ':  'ṭha'
+    'డ':  'ḍa'
+    'ఢ':  'ḍha'
+    'ణ':  'ṇa'
+    # Dentals
+    'త': 'ta'
+    'థ': 'tha'
+    'ద': 'da'
+    'ధ': 'dha'
+    'న': 'na'
+    # Labials
+    'ప': 'pa'
+    'ఫ': 'pha'
+    'బ': 'ba'
+    'భ': 'bha'
+    'మ': 'ma'
+    # Semivowels
+    'య': 'ya'
+    'ర': 'ra' #Variant: ఱ.
+    'ఱ': 'ra'
+    'ల': 'la'
+    'వ': 'va'
+    # Sibilants
+    'శ': 'sha'
+    'ష': 'ṣha'
+    'స': 'sa'
+    # Aspirate
+    'హ': 'ha'
+    'ళ' : 'ḷa'
+    '\u09CD': '' # Used for joining
+    'ౕ	': ''
+    'ౖ	': ''
+    '्': ''
+    '़': ''
+    "‍": ''# Used for joining
+    "‌": ''# Used for non joining
+    # numbers
+    '౦': '0'
+    '౧': '1'
+    '౨': '2'
+    '౩': '3'
+    '౪': '4'
+    '౫': '5'
+    '౬': '6'
+    '౭': '7'
+    '౮': '8'
+    '౯': '9'