mirror of
https://github.com/paperless-ngx/paperless-ngx.git
synced 2025-04-02 13:45:10 -05:00
Added a manual language lookup based on ISO639
This commit is contained in:
parent
fbbaf9cce0
commit
bcdcfbaee0
194
src/documents/languages.py
Normal file
194
src/documents/languages.py
Normal file
@ -0,0 +1,194 @@
|
|||||||
|
# Thanks to the Library of Congress and some creative use of sed and awk:
|
||||||
|
# http://www.loc.gov/standards/iso639-2/php/English_list.php
|
||||||
|
|
||||||
|
ISO639 = {
|
||||||
|
|
||||||
|
"aa": "aar",
|
||||||
|
"ab": "abk",
|
||||||
|
"ae": "ave",
|
||||||
|
"af": "afr",
|
||||||
|
"ak": "aka",
|
||||||
|
"am": "amh",
|
||||||
|
"an": "arg",
|
||||||
|
"ar": "ara",
|
||||||
|
"as": "asm",
|
||||||
|
"av": "ava",
|
||||||
|
"ay": "aym",
|
||||||
|
"az": "aze",
|
||||||
|
"ba": "bak",
|
||||||
|
"be": "bel",
|
||||||
|
"bg": "bul",
|
||||||
|
"bh": "bih",
|
||||||
|
"bi": "bis",
|
||||||
|
"bm": "bam",
|
||||||
|
"bn": "ben",
|
||||||
|
"bo": "bod",
|
||||||
|
"br": "bre",
|
||||||
|
"bs": "bos",
|
||||||
|
"ca": "cat",
|
||||||
|
"ce": "che",
|
||||||
|
"ch": "cha",
|
||||||
|
"co": "cos",
|
||||||
|
"cr": "cre",
|
||||||
|
"cs": "ces",
|
||||||
|
"cu": "chu",
|
||||||
|
"cv": "chv",
|
||||||
|
"cy": "cym",
|
||||||
|
"da": "dan",
|
||||||
|
"de": "deu",
|
||||||
|
"dv": "div",
|
||||||
|
"dz": "dzo",
|
||||||
|
"ee": "ewe",
|
||||||
|
"el": "ell",
|
||||||
|
"en": "eng",
|
||||||
|
"eo": "epo",
|
||||||
|
"es": "spa",
|
||||||
|
"et": "est",
|
||||||
|
"eu": "eus",
|
||||||
|
"fa": "fas",
|
||||||
|
"ff": "ful",
|
||||||
|
"fi": "fin",
|
||||||
|
"fj": "fij",
|
||||||
|
"fo": "fao",
|
||||||
|
"fr": "fra",
|
||||||
|
"fy": "fry",
|
||||||
|
"ga": "gle",
|
||||||
|
"gd": "gla",
|
||||||
|
"gl": "glg",
|
||||||
|
"gn": "grn",
|
||||||
|
"gu": "guj",
|
||||||
|
"gv": "glv",
|
||||||
|
"ha": "hau",
|
||||||
|
"he": "heb",
|
||||||
|
"hi": "hin",
|
||||||
|
"ho": "hmo",
|
||||||
|
"hr": "hrv",
|
||||||
|
"ht": "hat",
|
||||||
|
"hu": "hun",
|
||||||
|
"hy": "hye",
|
||||||
|
"hz": "her",
|
||||||
|
"ia": "ina",
|
||||||
|
"id": "ind",
|
||||||
|
"ie": "ile",
|
||||||
|
"ig": "ibo",
|
||||||
|
"ii": "iii",
|
||||||
|
"ik": "ipk",
|
||||||
|
"io": "ido",
|
||||||
|
"is": "isl",
|
||||||
|
"it": "ita",
|
||||||
|
"iu": "iku",
|
||||||
|
"ja": "jpn",
|
||||||
|
"jv": "jav",
|
||||||
|
"ka": "kat",
|
||||||
|
"kg": "kon",
|
||||||
|
"ki": "kik",
|
||||||
|
"kj": "kua",
|
||||||
|
"kk": "kaz",
|
||||||
|
"kl": "kal",
|
||||||
|
"km": "khm",
|
||||||
|
"kn": "kan",
|
||||||
|
"ko": "kor",
|
||||||
|
"kr": "kau",
|
||||||
|
"ks": "kas",
|
||||||
|
"ku": "kur",
|
||||||
|
"kv": "kom",
|
||||||
|
"kw": "cor",
|
||||||
|
"ky": "kir",
|
||||||
|
"la": "lat",
|
||||||
|
"lb": "ltz",
|
||||||
|
"lg": "lug",
|
||||||
|
"li": "lim",
|
||||||
|
"ln": "lin",
|
||||||
|
"lo": "lao",
|
||||||
|
"lt": "lit",
|
||||||
|
"lu": "lub",
|
||||||
|
"lv": "lav",
|
||||||
|
"mg": "mlg",
|
||||||
|
"mh": "mah",
|
||||||
|
"mi": "mri",
|
||||||
|
"mk": "mkd",
|
||||||
|
"ml": "mal",
|
||||||
|
"mn": "mon",
|
||||||
|
"mr": "mar",
|
||||||
|
"ms": "msa",
|
||||||
|
"mt": "mlt",
|
||||||
|
"my": "mya",
|
||||||
|
"na": "nau",
|
||||||
|
"nb": "nob",
|
||||||
|
"nd": "nde",
|
||||||
|
"ne": "nep",
|
||||||
|
"ng": "ndo",
|
||||||
|
"nl": "nld",
|
||||||
|
"no": "nor",
|
||||||
|
"nr": "nbl",
|
||||||
|
"nv": "nav",
|
||||||
|
"ny": "nya",
|
||||||
|
"oc": "oci",
|
||||||
|
"oj": "oji",
|
||||||
|
"om": "orm",
|
||||||
|
"or": "ori",
|
||||||
|
"os": "oss",
|
||||||
|
"pa": "pan",
|
||||||
|
"pi": "pli",
|
||||||
|
"pl": "pol",
|
||||||
|
"ps": "pus",
|
||||||
|
"pt": "por",
|
||||||
|
"qu": "que",
|
||||||
|
"rm": "roh",
|
||||||
|
"rn": "run",
|
||||||
|
"ro": "ron",
|
||||||
|
"ru": "rus",
|
||||||
|
"rw": "kin",
|
||||||
|
"sa": "san",
|
||||||
|
"sc": "srd",
|
||||||
|
"sd": "snd",
|
||||||
|
"se": "sme",
|
||||||
|
"sg": "sag",
|
||||||
|
"si": "sin",
|
||||||
|
"sk": "slk",
|
||||||
|
"sl": "slv",
|
||||||
|
"sm": "smo",
|
||||||
|
"sn": "sna",
|
||||||
|
"so": "som",
|
||||||
|
"sq": "sqi",
|
||||||
|
"sr": "srp",
|
||||||
|
"ss": "ssw",
|
||||||
|
"st": "sot",
|
||||||
|
"su": "sun",
|
||||||
|
"sv": "swe",
|
||||||
|
"sw": "swa",
|
||||||
|
"ta": "tam",
|
||||||
|
"te": "tel",
|
||||||
|
"tg": "tgk",
|
||||||
|
"th": "tha",
|
||||||
|
"ti": "tir",
|
||||||
|
"tk": "tuk",
|
||||||
|
"tl": "tgl",
|
||||||
|
"tn": "tsn",
|
||||||
|
"to": "ton",
|
||||||
|
"tr": "tur",
|
||||||
|
"ts": "tso",
|
||||||
|
"tt": "tat",
|
||||||
|
"tw": "twi",
|
||||||
|
"ty": "tah",
|
||||||
|
"ug": "uig",
|
||||||
|
"uk": "ukr",
|
||||||
|
"ur": "urd",
|
||||||
|
"uz": "uzb",
|
||||||
|
"ve": "ven",
|
||||||
|
"vi": "vie",
|
||||||
|
"vo": "vol",
|
||||||
|
"wa": "wln",
|
||||||
|
"wo": "wol",
|
||||||
|
"xh": "xho",
|
||||||
|
"yi": "yid",
|
||||||
|
"yo": "yor",
|
||||||
|
"za": "zha",
|
||||||
|
|
||||||
|
# Tessdata contains two values for Chinese, "chi_sim" and "chi_tra". I have
|
||||||
|
# no idea which one is better, so I just picked the bigger file.
|
||||||
|
"zh": "chi_tra",
|
||||||
|
|
||||||
|
"zu": "zul"
|
||||||
|
|
||||||
|
}
|
Loading…
x
Reference in New Issue
Block a user