Quellcode durchsuchen

WIP Tibetan and test update.

scossu vor 2 Wochen
Ursprung
Commit
e4a21ee4d3

+ 1 - 1
ext/arabic_rom

@@ -1 +1 @@
-Subproject commit bfcedb0bf310ed767c074d0eec8c79964bad9910
+Subproject commit f8ef728d4ffc6c741340d42d96e436f20b1817dd

+ 2 - 2
scriptshifter/hooks/arabic/build_model.sh

@@ -38,6 +38,6 @@ python3 src/loc_transcribe.py predict mle dev --mle_model models/mle/size1.0.tsv
 
 # Seq2Seq
 echo "Preparing Seq2seq."
-make prep_seq2seq
+python3 src/data/make_seq2seq_dataset.py -l ${SS_LANG}
 echo "Training models."
-python3 src/loc_transcribe.py train seq2seq --train --size {1.0,0.5,0.25,0.125,0.0625,0.03125,0.015625}
+python3 src/data/make_seq2seq_dataset.py  --size {1.0,0.5,0.25,0.125,0.0625,0.03125,0.015625}

+ 1 - 0
scriptshifter/tables/data/tibetan.yml

@@ -87,6 +87,7 @@ roman_to_script:
     "%\u02BC": "\u0F60"
     "%\u02BE": "\u0F60"
     "%\u0027": "\u0F60"
+    "%\u02BE": "\u0F60"
     "%\u0027": "\u0F60"
 
     # OTHER TIBETAN MARKS

+ 94 - 94
test/data/script_samples/arabic2.csv

@@ -1,94 +1,94 @@
-"arabic","قضايا فكرية و سياسية باقلام كردية عراقية ","Qaḍāyā fikrīyah wa siyāsīyah bi-aqlām Kurdīyah ʻIrāqīyah","s2r"
-"arabic","الأستاذ الدكتور عماد الجواهري؛ مراجعة و تقديم الأستاذ الدكتور عبد الفتاح علي البوتاني","al-Ustādh al-Duktūr ʻImād al-Jawāhirī; murājaʻat wa taqdīm al-Ustādh al-Duktūr ʻAbd al-Fattāḥ ʻAlī al-Būtānī","s2r"
-"arabic","العلاقة الشيعية - الكوردية ومستقبلها","al-ʻAlāqah al-Shīʻīyah - al-Kūrdīyah wa-mustaqbaluhā","s2r"
-"arabic","مركز دراسات رووداو","Markaz Dirāsāt Rūwūdāw","s2r"
-"arabic","ماذا يخبئ الغربال في السياسة العراقية","Mādhā yukhabbiʼ al-ghurbāl fī al-siyāsah al-ʻIrāqīyah","s2r"
-"arabic","الحزب الشيوعي العراقي .. المكونات السياسية .. الحكومة","al-Ḥizb al-Shuyūʻī al-ʻIrāqī .. al-mukawwināt al-siyāsīyah .. al-ḥukūmah","s2r"
-"arabic","الدولة الأموية في الشام","al-Dawlah al-Umawīyah fī al-Shām","s2r"
-"arabic","تأليف أنيس زكريا النصولي","taʼlīf Anīs Zakarīyā al-Nuṣūlī.","s2r"
-"arabic","الدين وسياسة الدولة في بلاد الرافدين في ضوء النصوص المسمارية، (٢٨٠٠ ق.م-٥٣٩ ق.م)  ","al-Dīn wa-siyāsat al-dawlah fī bilād al-Rāfidayn fī ḍawʼ al-nuṣūṣ al-mismārīyah, (2800 Q.M-539 Q.M)","s2r"
-"arabic","المدن والموانيء التجارية في شرق الجزيرة العربية منذ بداية الالف الثالث ق.م حتى نهاية الالف الاول ق.م ","al-Mudun wa-al-mawānīʼ al-tijārīyah fī sharq al-jazīrah al-ʻArabīyah mundhu bidāyat al-alf al-thālith Q.M ḥattá nihāyat al-alf al-awwal Q.M","s2r"
-"arabic","أمير الإنسانية وقائد الدبلماسية  ","Amīr al-insānīyah wa-qāʼid al-diblumāsīyah","s2r"
-"arabic","النقد الادبي واللغوي المعاصر ","al-Naqd al-adabī wa-al-lughawī al-muʻāṣir","s2r"
-"arabic","جدلية الاصالة والتجديد : المؤتمر النقدي الرابع والعشرون","Jadalīyat al-aṣālah wa-al-tajdīd : al-muʼtamar al-naqdī al-rābiʻ wa-al-ʻishrūn","s2r"
-"arabic","أماني سراج عبدالوهاب أبوزيد","Amānī Sirāj ʻAbd al-Wahhāb Abū Zayd","s2r"
-"arabic","المدن والموانيء التجارية في شرق الجزيرة العربية منذ بداية الالف الثالث ق.م حتى نهاية الالف الاول ق.م","al-Mudun wa-al-mawānīʼ al-tijārīyah fī sharq al-Jazīrah al-ʻArabīyah mundhu bidāyat al-alf al-thālith Q.M ḥattá nihāyat al-alf al-awwal Q.M","s2r"
-"arabic","محمد صوضان","Muḥammad Ṣawḍān","s2r"
-"arabic","كتاب سفينة السعادة لاهل الضعف والنجادة في مديح النبي، المعروفة، بالعشرينيات"," Kitāb Safīnat al-saʻādah li-ahl al-ḍaʻf wa-al-najādah fī madīḥ al-Nabī, al-maʻrūfah, bi-al-ʻIshrīniyāt","s2r"
-"arabic","من الشريعة الموروثة إلى الإنسان الخليفة ","Min al-sharīʻah al-mawrūthah ilá al-insān al-khalīfah","s2r"
-"arabic","إعداد محمد هشام بوعتور"," iʻdād Muḥammad Hishām Bū ʻAttūr","s2r"
-"arabic","موسوعة الحكايات الخرافية الفلسطينية ","Mawsūʻat al-ḥikāyāt al-khurāfīyah al-Filasṭīnīyah","s2r"
-"arabic","مؤسسة تامر للتعليم المجتمعي","Muʼassasat Tāmir lil-Taʻlīm al-Mujtamaʻī","s2r"
-"arabic","نصوص ودراسة في الحكاية الشعبية الفلسطينية"," nuṣūṣ wa-dirāsah fi al-ḥikāyah al-shaʻbīyah al-Filasṭīnīyah","s2r"
-"arabic","تأليف إبراهيم مهوي و شريف كناعنه ","taʼlīf Ibrāhīm Muhawwī wa-Sharīf Kanāʻinah","s2r"
-"arabic","التراث الفلسطيني بين الطمس والاحياء"," al-Turāth al-Filasṭīnī bayna al-ṭams wa-al-iḥyāʼ","s2r"
-"arabic","أشرف على تحريرها منعم حداد","ashrafa ʻalá taḥrīrihā Munʻim Ḥaddād","s2r"
-"arabic","من تراثنا الشعبي في السهل الساحلي الفلسطيني ","Min turāthinā al-shaʻbī fī al-sahl al-sāḥilī al-Filastīnī","s2r"
-"arabic","بقلم حسن محمد عوض","bi-qalam Ḥasan Muḥammad ʻAwaḍ","s2r"
-"arabic","تاريخ ما لم يذكره التاريخ","Tārīkh mā lam yadhkurhu al-tārīkh","s2r"
-"arabic","دراسة ميدانية فى التراث الشعبى الفلسطينى","dirāsah maydānīyah fī al-turāth al-shaʻbī al-Filasṭīnī ","s2r"
-"arabic","بيت الفلاح الفلسطيني"," Bayt al-falāḥ al-Filasṭīnī","s2r"
-"arabic","معان ثقافية وعادات وتقاليد اجتماعية، اثاث وفراش وادوات","maʻānin thaqāfīyah wa-ʻādāt wa-taqālīd ijtimāʻīyah, athāth wa-firāsh wa-adawāt","s2r"
-"arabic","الحزازير والألعاب الشعبية الفلسطينية","al-Ḥazāzīr wa-al-alʻāb al-shaʻbīyah al-Filasṭīnīyah","s2r"
-"arabic","المرأة في المثل الشعبي في الأردن وفلسطين","al-Marʼah fī al-mathal al-shaʻbī fī al-Urdun wa-Filasṭīn","s2r"
-"arabic","الأحاجي والالغاز الادبية ","al-Aḥājī wa-al-alghāz al-adabīyah","s2r"
-"arabic","فصول الحياة في قريتي","fuṣūl al-ḥayāh fī qaryatī","s2r"
-"arabic","قرية الدمينة الشرقية بين الماضي والحاضر","Qaryat al-Dumaynah al-Sharqīyah bayna al-māḍī wa-al-ḥāḍir","s2r"
-"arabic","الألعاب الشعبية في الجزيرة السورية","al-Alʻāb al-shaʻbīyah fī al-Jazīrah al-Sūrīyah","s2r"
-"arabic","وزارة الثقافة، منشورات الهيئه العامة السورية للكتاب","Wizārat al-Thaqāfah, Manshūrāt al-Hayʼah al-ʻĀmmah al-Sūrīyah lil-Kitāb","s2r"
-"arabic","طرائف الأمس غرائب اليوم","Ṭarāʼif al-ams gharāʼib al-Yawm","s2r"
-"arabic","صور من حياة النبك وجبل القلمون في أواسط القرن التاسع عشر","ṣuwar min ḥayāt al-Nabk wa-Jabal al-Qalamūn fī awāsiṭ al-qarn al-tāsiʻ ʻashar","s2r"
-"arabic","ولدت مرتين","Wulidtu marratayn","s2r"
-"arabic","من حكايا الدمع في سوريا","min Ḥakāyā al-damʻ fī Sūriyā","s2r"
-"arabic","العين والماء والفخار في التراث الساحلي الريفي","al-ʻAyn wa-al-māʼ wa-al-fukhkhār fī al-turāth al-sāḥilī al-rīfī","s2r"
-"arabic","المواسم التقليدية بمنطقة الأبيض سيدي الشيخ، الوعدات","al-Mawāsim al-taqlīdīyah bi-minṭaqat al-Abyaḍ Sīdī al-Shaykh, al-Waʻdāt","s2r"
-"arabic","فضاءات تلقي الادب الشعبي","Faḍāʼāt talaqqī al-adab al-shaʻbī","s2r"
-"arabic","المجتمع الجزائري وفعالياته في العهد العثماني","al-Mujtamaʻ al-Jazāʼirī wa-faʻʻālīyātuhu fī al-ʻahd al-ʻUthmānī","s2r"
-"arabic","بدو الطوارق بين الثبات والتغير ","Badw al-Ṭawāriq bayna al-thabāt wa-al-taghayyur","s2r"
-"arabic","النظم الإجتماعية والتغيرات المرافقة للمد العربي","al-nuẓum al-ijtimāʻīyah wa-al-taghayyurāt al-murāfiqah lil-madd al-ʻArabī","s2r"
-"arabic","لماذا يصحو مارد الهضبة ويغفو مارد السهل","Li-mādhā yaṣʹḥū mārid al-haḍabah wa-yaghfū mārid al-sahl","s2r"
-"arabic","رؤى الحداثة وآفاق التحولات في الخطاب الأدبي الأردني الحداثي","ruʼá al-ḥadāthah wa-āfāq al-taḥawwulāt fī al-khiṭāb al-Adabī al-Urdunī al-ḥadāthī","s2r"
-"arabic","الحقيبة الملكية على الطائر الميمون","al-Ḥaqībah al-malakīyah ʻalá al-ṭāʼir al-maymūn","s2r"
-"arabic","عيسى الناعوري وجهوده في مجال الدراسات الادبية والنقدية","ʻĪsá al-Nāʻūrī wa-juhūduh fī majāl al-dirāsāt al-adabīyah wa-al-naqdīyah","s2r"
-"arabic","أقحوان على ضفاف النهر ","Uqḥuwān ʻalá ḍifāf al-nahr","s2r"
-"arabic","صورة المرأة في... السرد النسوي الأردني","Ṣūrat al-marʼah fī ... al-sard al-niswī al-Urdunī","s2r"
-"arabic","آراء ونصوص في تجربته الادبية","Ārāʼ wa-nuṣūṣ fī tajribatih al-adabīyah","s2r"
-"arabic","مدخل الى أدبنا المعاصر","Madkhal ilá adabinā al-muʻāṣir","s2r"
-"arabic","صاحب المئة كتاب والستين عاما في خدمة التربية والتعليم","ṣāḥib al-miʼat kitāb wa-al-sittīn ʻāman fī khidmat al-tarbiyah wa-al-taʻlīm","s2r"
-"arabic","خمسة رواد يحاورون العصر","khamsat rūwād yuḥāwirūn al-ʻaṣr","s2r"
-"arabic","حوار مع رواد النهضة العربية","Ḥiwār maʻa rūwād al-nahḍah al-ʻArabīyah","s2r"
-"arabic","أعلام الحركة الادبية في الرقة","Aʻlām al-ḥarakah al-adabīyah fī al-Raqqah","s2r"
-"arabic","دراسة تحليلية في أدب الأطفال لدى الكرد في سوريا وأبرز نماذجه المدونة","dirāsah taḥlīlīyah fī adab al-aṭfāl ladá al-Kurd fī Sūriyā wa-abraz namādhijihi al-mudawwanah","s2r"
-"arabic","دراسات ومقالات حول حياة الكتاب والكتاب"," dirāsāt wa-maqālāt ḥawla ḥayāt al-kuttāb wa-al-kitāb","s2r"
-"arabic","القصص القرآني :  إيحاؤه ونفحاته ","al-Qaṣaṣ al-Qurʼānī : īḥāʼuhu wa-nafaḥātuh ","s2r"
-"arabic","للسائلين عن، أخلاق وطبائع بني إسرائيل في قصة يوسف عليه السلام","Lil-sāʼilīn ʻan, Akhlāq wa-ṭabāʼiʻ Banī Isrāʼīl fī qiṣṣat Yūsuf ʻalayhi al-Salām","s2r"
-"arabic","إبراهيم الدسوقي عبد الرحمن","Ibrāhīm al-Dasūqī ʻAbd al-Raḥmān","s2r"
-"arabic","لا تكن كابني آدم","Lā takun ka-ibnay Ādam ","s2r"
-"arabic","لا قاتلا ولا مقتولا","lā qātilan wa-lā maqtūlan","s2r"
-"arabic","الجانب الفني في القصة القرآنية","al-jānib al-fannī fī al-qiṣṣah al-Qurʼānīyah","s2r"
-"arabic","منهجها، وأسس بنائها","manhajuhā, wa-usus bināʼihā ","s2r"
-"arabic","المبادىء التربوية والأسس النفسية في القصص القرآني","al-Mabādiʼ al-tarbawīyah wa-al-usus al-nafsīyah fī al-qaṣaṣ al-Qurʼānī ","s2r"
-"arabic","الابتلاءات الشديدة عند مخالفة الشريعة","al-Ibtilāʼāt al-shadīdah ʻinda mukhālafat al-Sharīʻah","s2r"
-"arabic","للداعية الإسلامي الشيخ محمد ياسين أبو يحيى","lil-Dāʻiyah al-Islāmī al-Shaykh Muḥammad Yāsīn Abū Yaḥyá","s2r"
-"arabic","روضة المشتاقين في فضائل الأنبياء والمرسلين وشيء من أخبارهم","Rawḍat al-mushtāqīn fī faḍāʼil al-anbiyāʼ wa-al-mursalīn wa-shayʼ min akhbārihim","s2r"
-"arabic","يحيى خذ الكتاب بقوة","Yaḥyá khudh al-kitāb bi-qūwah","s2r"
-"arabic","خصائص التراكيب ودلالاتها في القصص القرآني","Khaṣāʼiṣ al-tarākīb wa-dalālātuhā fī al-qaṣaṣ al-Qurʼānī","s2r"
-"arabic","الخطيئة والصراع","al-khaṭīʼah wa-al-ṣirāʻ","s2r"
-"arabic","اللاموضوعية عند المفسرين :","al-Lāmawḍūʻīyah ʻinda al-mufassirīn ","s2r"
-"arabic","القصص القرآني بين الآباء والابناء :","al-Qaṣaṣ al-Qurʼānī bayna al-ābāʼ wa-al-abnāʼ ","s2r"
-"arabic","الاتساع النصي في القصص القرآني بين الاستباق والاسترجاع","al-Ittisāʻ al-naṣṣī fī al-qaṣaṣ al-Qurʼānī bayna al-istibāq wa-al-istirjāʻ","s2r"
-"arabic","فأزلهما الشيطان عنها فأخرجهما مما كانا فيه","fa-azallahumā al-Shayṭān ʻanhā fa-akhrajahumā mimmā kānā fīhi","s2r"
-"arabic","آثار المشتق البليغ من قصة يوسف الصديق ","Āthār al-mushtaqq al-balīgh min qiṣṣat Yūsuf al-Ṣiddīq","s2r"
-"arabic","الجامع الصحيح في القصص النبوي","al-Jāmiʻ al-ṣaḥīḥ fī al-qaṣaṣ al-Nabawī","s2r"
-"arabic","يطبع لاول مرة محققا عا نسخة الحافظ الذهبي التي كتبها بخطة","Yuṭbaʻu li-awwal marrah muḥaqqiqan ʻan nuskhah al-Ḥāfiẓ al-Dhahabī allatī katabahā bi-khuṭṭat.","s2r"
-"arabic",,"Yuṭbaʻu li-awwal marrah ʻan nuskhah Nafīsah manqūlah bi-khaṭṭ al-muʼallif bi-khaṭṭ al-muʼallif","s2r"
-"arabic","العربية ولهجاتها ","al-ʻArabīyah wa-lahajātuhā","s2r"
-"arabic","اللغة المهرية المعاصرة بين عربيتين","al-Lughah al-Mahrīyah al-muʻāṣirah bayna ʻArabīyatayn","s2r"
-"arabic","نحو عربية ميسرة"," Naḥwa ʻArabīyah muyassarah","s2r"
-"arabic","لغات القبائل في كتب إعراب القرآن ومعانيه","Lughāt al-qabāʼil fī kutub iʻrāb al-Qurʼān wa-maʻānīh","s2r"
-"arabic","الأدب الجاهلي بين لهجات القبائل وللغة الموحدة","al-adab al-Jāhilī bayna Lahajāt al-qabāʼil wa-al-lughah al-muwaḥḥadah","s2r"
-"arabic","التحليل العام للغة العوام","al-Tahḷīl al-ʻāmm li-lughat al-ʻawāmm","s2r"
-"arabic","تاريخ الدعوة إلى العامية وآثارها في مصر","Tārīkh al-Daʻwah ilá al-ʻāmmīyah wa-āthāruhā fī Miṣr","s2r"
-"arabic","الفصيح الذي حفظته العامية العراقية بين الدراسة والتطبيق","al-faṣīḥ alladhī ḥafiẓatʹhu al-ʻāmmīyah al-ʻIrāqīyah bayna al-dirāsah wa-al-taṭbīq","s2r"
-"arabic","ويلي ذلك معجم بألفاظ اللهجة الشائعة في العراق","wa-yalī dhālika Muʻjam bi-alfāẓ al-lahjah al-shāʼiʻah fī al-ʻIrāq","s2r"
-"arabic","كلمات فارسية مستعملة في عامية الموصل وفي انحاء العراق","Kalimāt Fārisīyah mustaʻmalah fī ʻāmmīyat al-Mūṣil wa-fī anḥāʼ al-ʻIrāq","s2r"
+"arabic","قضايا فكرية و سياسية باقلام كردية عراقية ","Qaḍāyā fikrīyah wa siyāsīyah bi-aqlām Kurdīyah ʻIrāqīyah"
+"arabic","الأستاذ الدكتور عماد الجواهري؛ مراجعة و تقديم الأستاذ الدكتور عبد الفتاح علي البوتاني","al-Ustādh al-Duktūr ʻImād al-Jawāhirī; murājaʻat wa taqdīm al-Ustādh al-Duktūr ʻAbd al-Fattāḥ ʻAlī al-Būtānī"
+"arabic","العلاقة الشيعية - الكوردية ومستقبلها","al-ʻAlāqah al-Shīʻīyah - al-Kūrdīyah wa-mustaqbaluhā"
+"arabic","مركز دراسات رووداو","Markaz Dirāsāt Rūwūdāw"
+"arabic","ماذا يخبئ الغربال في السياسة العراقية","Mādhā yukhabbiʼ al-ghurbāl fī al-siyāsah al-ʻIrāqīyah"
+"arabic","الحزب الشيوعي العراقي .. المكونات السياسية .. الحكومة","al-Ḥizb al-Shuyūʻī al-ʻIrāqī .. al-mukawwināt al-siyāsīyah .. al-ḥukūmah"
+"arabic","الدولة الأموية في الشام","al-Dawlah al-Umawīyah fī al-Shām"
+"arabic","تأليف أنيس زكريا النصولي","taʼlīf Anīs Zakarīyā al-Nuṣūlī."
+"arabic","الدين وسياسة الدولة في بلاد الرافدين في ضوء النصوص المسمارية، (٢٨٠٠ ق.م-٥٣٩ ق.م)  ","al-Dīn wa-siyāsat al-dawlah fī bilād al-Rāfidayn fī ḍawʼ al-nuṣūṣ al-mismārīyah, (2800 Q.M-539 Q.M)"
+"arabic","المدن والموانيء التجارية في شرق الجزيرة العربية منذ بداية الالف الثالث ق.م حتى نهاية الالف الاول ق.م ","al-Mudun wa-al-mawānīʼ al-tijārīyah fī sharq al-jazīrah al-ʻArabīyah mundhu bidāyat al-alf al-thālith Q.M ḥattá nihāyat al-alf al-awwal Q.M"
+"arabic","أمير الإنسانية وقائد الدبلماسية  ","Amīr al-insānīyah wa-qāʼid al-diblumāsīyah"
+"arabic","النقد الادبي واللغوي المعاصر ","al-Naqd al-adabī wa-al-lughawī al-muʻāṣir"
+"arabic","جدلية الاصالة والتجديد : المؤتمر النقدي الرابع والعشرون","Jadalīyat al-aṣālah wa-al-tajdīd : al-muʼtamar al-naqdī al-rābiʻ wa-al-ʻishrūn"
+"arabic","أماني سراج عبدالوهاب أبوزيد","Amānī Sirāj ʻAbd al-Wahhāb Abū Zayd"
+"arabic","المدن والموانيء التجارية في شرق الجزيرة العربية منذ بداية الالف الثالث ق.م حتى نهاية الالف الاول ق.م","al-Mudun wa-al-mawānīʼ al-tijārīyah fī sharq al-Jazīrah al-ʻArabīyah mundhu bidāyat al-alf al-thālith Q.M ḥattá nihāyat al-alf al-awwal Q.M"
+"arabic","محمد صوضان","Muḥammad Ṣawḍān"
+"arabic","كتاب سفينة السعادة لاهل الضعف والنجادة في مديح النبي، المعروفة، بالعشرينيات"," Kitāb Safīnat al-saʻādah li-ahl al-ḍaʻf wa-al-najādah fī madīḥ al-Nabī, al-maʻrūfah, bi-al-ʻIshrīniyāt"
+"arabic","من الشريعة الموروثة إلى الإنسان الخليفة ","Min al-sharīʻah al-mawrūthah ilá al-insān al-khalīfah"
+"arabic","إعداد محمد هشام بوعتور"," iʻdād Muḥammad Hishām Bū ʻAttūr"
+"arabic","موسوعة الحكايات الخرافية الفلسطينية ","Mawsūʻat al-ḥikāyāt al-khurāfīyah al-Filasṭīnīyah"
+"arabic","مؤسسة تامر للتعليم المجتمعي","Muʼassasat Tāmir lil-Taʻlīm al-Mujtamaʻī"
+"arabic","نصوص ودراسة في الحكاية الشعبية الفلسطينية"," nuṣūṣ wa-dirāsah fi al-ḥikāyah al-shaʻbīyah al-Filasṭīnīyah"
+"arabic","تأليف إبراهيم مهوي و شريف كناعنه ","taʼlīf Ibrāhīm Muhawwī wa-Sharīf Kanāʻinah"
+"arabic","التراث الفلسطيني بين الطمس والاحياء"," al-Turāth al-Filasṭīnī bayna al-ṭams wa-al-iḥyāʼ"
+"arabic","أشرف على تحريرها منعم حداد","ashrafa ʻalá taḥrīrihā Munʻim Ḥaddād"
+"arabic","من تراثنا الشعبي في السهل الساحلي الفلسطيني ","Min turāthinā al-shaʻbī fī al-sahl al-sāḥilī al-Filastīnī"
+"arabic","بقلم حسن محمد عوض","bi-qalam Ḥasan Muḥammad ʻAwaḍ"
+"arabic","تاريخ ما لم يذكره التاريخ","Tārīkh mā lam yadhkurhu al-tārīkh"
+"arabic","دراسة ميدانية فى التراث الشعبى الفلسطينى","dirāsah maydānīyah fī al-turāth al-shaʻbī al-Filasṭīnī "
+"arabic","بيت الفلاح الفلسطيني"," Bayt al-falāḥ al-Filasṭīnī"
+"arabic","معان ثقافية وعادات وتقاليد اجتماعية، اثاث وفراش وادوات","maʻānin thaqāfīyah wa-ʻādāt wa-taqālīd ijtimāʻīyah, athāth wa-firāsh wa-adawāt"
+"arabic","الحزازير والألعاب الشعبية الفلسطينية","al-Ḥazāzīr wa-al-alʻāb al-shaʻbīyah al-Filasṭīnīyah"
+"arabic","المرأة في المثل الشعبي في الأردن وفلسطين","al-Marʼah fī al-mathal al-shaʻbī fī al-Urdun wa-Filasṭīn"
+"arabic","الأحاجي والالغاز الادبية ","al-Aḥājī wa-al-alghāz al-adabīyah"
+"arabic","فصول الحياة في قريتي","fuṣūl al-ḥayāh fī qaryatī"
+"arabic","قرية الدمينة الشرقية بين الماضي والحاضر","Qaryat al-Dumaynah al-Sharqīyah bayna al-māḍī wa-al-ḥāḍir"
+"arabic","الألعاب الشعبية في الجزيرة السورية","al-Alʻāb al-shaʻbīyah fī al-Jazīrah al-Sūrīyah"
+"arabic","وزارة الثقافة، منشورات الهيئه العامة السورية للكتاب","Wizārat al-Thaqāfah, Manshūrāt al-Hayʼah al-ʻĀmmah al-Sūrīyah lil-Kitāb"
+"arabic","طرائف الأمس غرائب اليوم","Ṭarāʼif al-ams gharāʼib al-Yawm"
+"arabic","صور من حياة النبك وجبل القلمون في أواسط القرن التاسع عشر","ṣuwar min ḥayāt al-Nabk wa-Jabal al-Qalamūn fī awāsiṭ al-qarn al-tāsiʻ ʻashar"
+"arabic","ولدت مرتين","Wulidtu marratayn"
+"arabic","من حكايا الدمع في سوريا","min Ḥakāyā al-damʻ fī Sūriyā"
+"arabic","العين والماء والفخار في التراث الساحلي الريفي","al-ʻAyn wa-al-māʼ wa-al-fukhkhār fī al-turāth al-sāḥilī al-rīfī"
+"arabic","المواسم التقليدية بمنطقة الأبيض سيدي الشيخ، الوعدات","al-Mawāsim al-taqlīdīyah bi-minṭaqat al-Abyaḍ Sīdī al-Shaykh, al-Waʻdāt"
+"arabic","فضاءات تلقي الادب الشعبي","Faḍāʼāt talaqqī al-adab al-shaʻbī"
+"arabic","المجتمع الجزائري وفعالياته في العهد العثماني","al-Mujtamaʻ al-Jazāʼirī wa-faʻʻālīyātuhu fī al-ʻahd al-ʻUthmānī"
+"arabic","بدو الطوارق بين الثبات والتغير ","Badw al-Ṭawāriq bayna al-thabāt wa-al-taghayyur"
+"arabic","النظم الإجتماعية والتغيرات المرافقة للمد العربي","al-nuẓum al-ijtimāʻīyah wa-al-taghayyurāt al-murāfiqah lil-madd al-ʻArabī"
+"arabic","لماذا يصحو مارد الهضبة ويغفو مارد السهل","Li-mādhā yaṣʹḥū mārid al-haḍabah wa-yaghfū mārid al-sahl"
+"arabic","رؤى الحداثة وآفاق التحولات في الخطاب الأدبي الأردني الحداثي","ruʼá al-ḥadāthah wa-āfāq al-taḥawwulāt fī al-khiṭāb al-Adabī al-Urdunī al-ḥadāthī"
+"arabic","الحقيبة الملكية على الطائر الميمون","al-Ḥaqībah al-malakīyah ʻalá al-ṭāʼir al-maymūn"
+"arabic","عيسى الناعوري وجهوده في مجال الدراسات الادبية والنقدية","ʻĪsá al-Nāʻūrī wa-juhūduh fī majāl al-dirāsāt al-adabīyah wa-al-naqdīyah"
+"arabic","أقحوان على ضفاف النهر ","Uqḥuwān ʻalá ḍifāf al-nahr"
+"arabic","صورة المرأة في... السرد النسوي الأردني","Ṣūrat al-marʼah fī ... al-sard al-niswī al-Urdunī"
+"arabic","آراء ونصوص في تجربته الادبية","Ārāʼ wa-nuṣūṣ fī tajribatih al-adabīyah"
+"arabic","مدخل الى أدبنا المعاصر","Madkhal ilá adabinā al-muʻāṣir"
+"arabic","صاحب المئة كتاب والستين عاما في خدمة التربية والتعليم","ṣāḥib al-miʼat kitāb wa-al-sittīn ʻāman fī khidmat al-tarbiyah wa-al-taʻlīm"
+"arabic","خمسة رواد يحاورون العصر","khamsat rūwād yuḥāwirūn al-ʻaṣr"
+"arabic","حوار مع رواد النهضة العربية","Ḥiwār maʻa rūwād al-nahḍah al-ʻArabīyah"
+"arabic","أعلام الحركة الادبية في الرقة","Aʻlām al-ḥarakah al-adabīyah fī al-Raqqah"
+"arabic","دراسة تحليلية في أدب الأطفال لدى الكرد في سوريا وأبرز نماذجه المدونة","dirāsah taḥlīlīyah fī adab al-aṭfāl ladá al-Kurd fī Sūriyā wa-abraz namādhijihi al-mudawwanah"
+"arabic","دراسات ومقالات حول حياة الكتاب والكتاب"," dirāsāt wa-maqālāt ḥawla ḥayāt al-kuttāb wa-al-kitāb"
+"arabic","القصص القرآني :  إيحاؤه ونفحاته ","al-Qaṣaṣ al-Qurʼānī : īḥāʼuhu wa-nafaḥātuh "
+"arabic","للسائلين عن، أخلاق وطبائع بني إسرائيل في قصة يوسف عليه السلام","Lil-sāʼilīn ʻan, Akhlāq wa-ṭabāʼiʻ Banī Isrāʼīl fī qiṣṣat Yūsuf ʻalayhi al-Salām"
+"arabic","إبراهيم الدسوقي عبد الرحمن","Ibrāhīm al-Dasūqī ʻAbd al-Raḥmān"
+"arabic","لا تكن كابني آدم","Lā takun ka-ibnay Ādam "
+"arabic","لا قاتلا ولا مقتولا","lā qātilan wa-lā maqtūlan"
+"arabic","الجانب الفني في القصة القرآنية","al-jānib al-fannī fī al-qiṣṣah al-Qurʼānīyah"
+"arabic","منهجها، وأسس بنائها","manhajuhā, wa-usus bināʼihā "
+"arabic","المبادىء التربوية والأسس النفسية في القصص القرآني","al-Mabādiʼ al-tarbawīyah wa-al-usus al-nafsīyah fī al-qaṣaṣ al-Qurʼānī "
+"arabic","الابتلاءات الشديدة عند مخالفة الشريعة","al-Ibtilāʼāt al-shadīdah ʻinda mukhālafat al-Sharīʻah"
+"arabic","للداعية الإسلامي الشيخ محمد ياسين أبو يحيى","lil-Dāʻiyah al-Islāmī al-Shaykh Muḥammad Yāsīn Abū Yaḥyá"
+"arabic","روضة المشتاقين في فضائل الأنبياء والمرسلين وشيء من أخبارهم","Rawḍat al-mushtāqīn fī faḍāʼil al-anbiyāʼ wa-al-mursalīn wa-shayʼ min akhbārihim"
+"arabic","يحيى خذ الكتاب بقوة","Yaḥyá khudh al-kitāb bi-qūwah"
+"arabic","خصائص التراكيب ودلالاتها في القصص القرآني","Khaṣāʼiṣ al-tarākīb wa-dalālātuhā fī al-qaṣaṣ al-Qurʼānī"
+"arabic","الخطيئة والصراع","al-khaṭīʼah wa-al-ṣirāʻ"
+"arabic","اللاموضوعية عند المفسرين :","al-Lāmawḍūʻīyah ʻinda al-mufassirīn "
+"arabic","القصص القرآني بين الآباء والابناء :","al-Qaṣaṣ al-Qurʼānī bayna al-ābāʼ wa-al-abnāʼ "
+"arabic","الاتساع النصي في القصص القرآني بين الاستباق والاسترجاع","al-Ittisāʻ al-naṣṣī fī al-qaṣaṣ al-Qurʼānī bayna al-istibāq wa-al-istirjāʻ"
+"arabic","فأزلهما الشيطان عنها فأخرجهما مما كانا فيه","fa-azallahumā al-Shayṭān ʻanhā fa-akhrajahumā mimmā kānā fīhi"
+"arabic","آثار المشتق البليغ من قصة يوسف الصديق ","Āthār al-mushtaqq al-balīgh min qiṣṣat Yūsuf al-Ṣiddīq"
+"arabic","الجامع الصحيح في القصص النبوي","al-Jāmiʻ al-ṣaḥīḥ fī al-qaṣaṣ al-Nabawī"
+"arabic","يطبع لاول مرة محققا عا نسخة الحافظ الذهبي التي كتبها بخطة","Yuṭbaʻu li-awwal marrah muḥaqqiqan ʻan nuskhah al-Ḥāfiẓ al-Dhahabī allatī katabahā bi-khuṭṭat."
+"arabic",,"Yuṭbaʻu li-awwal marrah ʻan nuskhah Nafīsah manqūlah bi-khaṭṭ al-muʼallif bi-khaṭṭ al-muʼallif"
+"arabic","العربية ولهجاتها ","al-ʻArabīyah wa-lahajātuhā"
+"arabic","اللغة المهرية المعاصرة بين عربيتين","al-Lughah al-Mahrīyah al-muʻāṣirah bayna ʻArabīyatayn"
+"arabic","نحو عربية ميسرة"," Naḥwa ʻArabīyah muyassarah"
+"arabic","لغات القبائل في كتب إعراب القرآن ومعانيه","Lughāt al-qabāʼil fī kutub iʻrāb al-Qurʼān wa-maʻānīh"
+"arabic","الأدب الجاهلي بين لهجات القبائل وللغة الموحدة","al-adab al-Jāhilī bayna Lahajāt al-qabāʼil wa-al-lughah al-muwaḥḥadah"
+"arabic","التحليل العام للغة العوام","al-Tahḷīl al-ʻāmm li-lughat al-ʻawāmm"
+"arabic","تاريخ الدعوة إلى العامية وآثارها في مصر","Tārīkh al-Daʻwah ilá al-ʻāmmīyah wa-āthāruhā fī Miṣr"
+"arabic","الفصيح الذي حفظته العامية العراقية بين الدراسة والتطبيق","al-faṣīḥ alladhī ḥafiẓatʹhu al-ʻāmmīyah al-ʻIrāqīyah bayna al-dirāsah wa-al-taṭbīq"
+"arabic","ويلي ذلك معجم بألفاظ اللهجة الشائعة في العراق","wa-yalī dhālika Muʻjam bi-alfāẓ al-lahjah al-shāʼiʻah fī al-ʻIrāq"
+"arabic","كلمات فارسية مستعملة في عامية الموصل وفي انحاء العراق","Kalimāt Fārisīyah mustaʻmalah fī ʻāmmīyat al-Mūṣil wa-fī anḥāʼ al-ʻIrāq"

+ 31 - 0
test/data/script_samples/decompose_samples.py

@@ -0,0 +1,31 @@
+#!/usr/bin/env python
+
+__doc__ = """
+Usage: decompose_samples.py
+
+Use this script to normalize Roman map keys to use combining characters
+(decomposed glyphs) vs. pre-composed glyphs.
+
+The script will create a new CSV file named according to the source.
+E.g. `myscript.csv` → `myscript_norm.csv`.
+
+NOTE: the script does not parse the CSV, it scans it as a plain text file. It
+is unlikely but possible that some normalization may lead to an invalid CSV.
+"""
+
+from os import path
+from unicodedata import normalize
+from glob import glob
+
+for fname in glob("*.csv"):
+    dest_fname = path.splitext(fname)[0] + "_norm.csv"
+    with open(fname) as fh:
+        data = fh.read()
+
+    norm_data = normalize("NFD", data)
+
+    with open(dest_fname, "w") as fh:
+        fh.write(norm_data)
+    print(f"Normalized {fname} to {dest_fname}.")
+
+print("Done.")

+ 56 - 56
test/data/script_samples/greek.csv

@@ -1,57 +1,57 @@
-greek_classical,Ἡσιόδου τοῦ Ἀσκραίου Ἔργα καὶ ἡμέραι,Hēsiodou tou Askraiou Erga kai hēmerai,,
-greek_classical,Ἡ τοῦ Ὁμήρου Ἰλιάς,Hē tou Homērou Ilias,,
-greek_classical,Φίληβος ἢ Περὶ ἡδονῆς,Philēbos ē Peri hēdonēs,,
-greek_classical,Ἀγνώστῳ θεῷ,Agnōstō theō,,
-greek_classical,κεῖται παρ’ Ἅιδῃ,keitai par’ Hadē,,
-greek_classical,Αἴτια Ῥωμαϊκά,Aitia Rhōmaika,,
-greek_classical,Ὅτι οὐδ’ ἡδέως ζῆν ἔστι κατ’ Ἐπίκουρον,Hoti oud’ hēdeōs zēn esti kat’ Epikouron,,
-greek_classical,Περὶ τοῦ μὴ ῥᾳδίως πιστεύειν διαβολῇ,Peri tou mē rhadiōs pisteuein diabolē,,
-greek_classical,ἀΰπνους νύκτας ἴαυον,aypnous nyktas iauon,,
-greek_classical,Λητοῦς καὶ Διὸς υἱός,Lētous kai Dios huios,,
-greek_classical,ὑϊκὸν πάσχειν,hyikon paschein,,
-greek_classical,εἶπε πρὸς τὸν ἄνδρα τὸν ἑωυτῆς,eipe pros ton andra ton heōutēs,,
-greek_classical,τί τοῦδ’ ἂν εὕρημ’ ηὗρον εὐτυχέστερον;,ti toud’ an heurēm’ hēuron eutychesteron?,,
-greek_classical,Τοῦ Κατὰ πασῶν αἱρέσεων ἐλέγχου βιβλίον αʹ,Tou Kata pasōn haireseōn elenchou biblion 1,,
-greek_classical,καλὸν κἀγαθόν,kalon kagathon,,
-greek_classical,ᾤχοντο θοἰμάτιον λαβόντες μου,ōchonto thoimation labontes mou,,
-greek_classical,Περὶ ἰλίγγων,Peri ilingōn,,
-greek_classical,ὅτε τ’ ἴαχε σάλπιγξ,hote t’ iache salpinx,,
-greek_classical,Ἐγχειρίδιον ἁρμονικῆς,Encheiridion harmonikēs,,
-greek_classical,ἄλαϲτα δὲ ϝέργα πάθον κακὰ μηϲαμένοι,alasta de werga pathon kaka mēsamenoi,,
-greek_classical,Δαμαρέτα τ’ ἐρατά τε Ϝιανθεμίϲ,Damareta t’ erata te Wianthemis,,
-greek_classical,ξένϝος,xenwos,,
-greek_classical,Πάτροϙλος,Patroḳlos,,
-greek_classical,"λβʹ. Ἐπεὶ δὲ ἡ τύχη κράτιστον ἐπὶ πάντα τὰ ἀνθρώπεια, μηδὲ Ἡλιόδωρος ἀπαξιούσθω σοφιστῶν κύκλου παράδοξον ἀγώνισμα τύχης γενόμενος·","32. Epei de ē tychi kratiston epi panta ta anthrōpeia, mide Hēliodōros apaxiousthō sophistōn kyklou paradoxon agōnisma tychis genomenos",,
-greek_classical,"κζʹ. Μὴ δεύτερα τῶν προειρημένων σοφιστῶν μηδὲ Ἱππόδρομόν τις ἡγείσθω τὸν Θετταλόν, τῶν μὲν γὰρ βελτίων φαίνεται, τῶν δὲ οὐκ οἶδα ὅ τι λείπεται","27. Mē deutera tōn proeirēmenōn sophistōn mide Ippodromon tis ēgeisthō ton Thettalon, tōn men gar beltiōn phainetai, tōn de ouk oida o ti leipetai",,
-greek_classical,"ιγʹ. Πῶλον δὲ τὸν Ἀκραγαντῖνον Γοργίας σοφιστὴν ἐξεμελέτησε πολλῶν, ὥς φασι, χρημάτων, καὶ γὰρ δὴ καὶ τῶν πλουτούντων ὁ Πῶλος.","13. Pōlon de ton Akragantinon Gorgias sophistēn exemeletēse pollōn, ōs phasi, chrēmatōn, kai gar dē kai tōn ploutountōn o Pōlos",,
-greek_modern,"Ἐτήσια ἔκθεσις / Κυπριακὴ Δημοκρατία, Ὑπουργεῖον Ἐργασίας καὶ Κοινωνικῶν Ἀσφαλίσεων","Etēsia ekthesis / Kypriakē Dēmokratia, Hypourgeion Ergasias kai Koinōnikōn Asphaliseōn",,
-greek_modern,"Ετήσια έκθεση / Κυπριακή Δημοκρατία, Υπουργείο Εργασίας και Κοινωνικών Ασφαλίσεων","Etēsia ekthesē / Kypriakē Dēmokratia, Hypourgeio Ergasias kai Koinōnikōn Asphaliseōn",,
-greek_modern,Ελληνικό Ίδρυμα Ευρωπαϊκής και Εξωτερικής Πολιτικής,Hellēniko Hidryma Eurōpaikēs kai Exōterikēs Politikēs,,
-greek_modern,Ελευθέριος Δ. Παυλίδης,Eleutherios D. Paulidēs,,
-greek_modern,Ορθόδοξος Αυτοκέφαλος Εκκλησία της Αλβανίας,Orthodoxos Autokephalos Ekklēsia tēs Alvanias,,
-greek_modern,Βίος και πολιτεία του Αλέξη Ζορμπά,Vios kai politeia tou Alexē Zormpa,,
-greek_modern,Βίος καὶ πολιτεία τοῦ Ἀλέξη Ζορμπᾶ,Vios kai politeia tou Alexē Zormpa,,
-greek_modern,Λασκαρίνα Μπουμπουλίνα,Laskarina Boumpoulina,,
-greek_modern,Νταίηβιντ Μίτσελ,Ḏaiēvint Mitsel,,
-greek_modern,Τζαίημς Τζόυς,Tzaiēms Tzoys,,
-greek_modern,Ἡ κοινωνιολογία τοῦ ρεμπέτικου,Hē koinōniologia tou rempetikou,,
-greek_modern,Βίλλυ Μπραντ,Villy Brant,,
+greek_classical,Ἡσιόδου τοῦ Ἀσκραίου Ἔργα καὶ ἡμέραι,Hēsiodou tou Askraiou Erga kai hēmerai,,
+greek_classical,Ἡ τοῦ Ὁμήρου Ἰλιάς,Hē tou Homērou Ilias,,
+greek_classical,Φίληβος ἢ Περὶ ἡδονῆς,Philēbos ē Peri hēdonēs,,
+greek_classical,Ἀγνώστῳ θεῷ,Agnōstō theō,,
+greek_classical,κεῖται παρ’ Ἅιδῃ,keitai par’ Hadē,,
+greek_classical,Αἴτια Ῥωμαϊκά,Aitia Rhōmaika,,
+greek_classical,Ὅτι οὐδ’ ἡδέως ζῆν ἔστι κατ’ Ἐπίκουρον,Hoti oud’ hēdeōs zēn esti kat’ Epikouron,,
+greek_classical,Περὶ τοῦ μὴ ῥᾳδίως πιστεύειν διαβολῇ,Peri tou mē rhadiōs pisteuein diabolē,,
+greek_classical,ἀΰπνους νύκτας ἴαυον,aypnous nyktas iauon,,
+greek_classical,Λητοῦς καὶ Διὸς υἱός,Lētous kai Dios huios,,
+greek_classical,ὑϊκὸν πάσχειν,hyikon paschein,,
+greek_classical,εἶπε πρὸς τὸν ἄνδρα τὸν ἑωυτῆς,eipe pros ton andra ton heōutēs,,
+greek_classical,τί τοῦδ’ ἂν εὕρημ’ ηὗρον εὐτυχέστερον;,ti toud’ an heurēm’ hēuron eutychesteron?,,
+greek_classical,Τοῦ Κατὰ πασῶν αἱρέσεων ἐλέγχου βιβλίον αʹ,Tou Kata pasōn haireseōn elenchou biblion 1,,
+greek_classical,καλὸν κἀγαθόν,kalon kagathon,,
+greek_classical,ᾤχοντο θοἰμάτιον λαβόντες μου,ōchonto thoimation labontes mou,,
+greek_classical,Περὶ ἰλίγγων,Peri ilingōn,,
+greek_classical,ὅτε τ’ ἴαχε σάλπιγξ,hote t’ iache salpinx,,
+greek_classical,Ἐγχειρίδιον ἁρμονικῆς,Encheiridion harmonikēs,,
+greek_classical,ἄλαϲτα δὲ ϝέργα πάθον κακὰ μηϲαμένοι,alasta de werga pathon kaka mēsamenoi,,
+greek_classical,Δαμαρέτα τ’ ἐρατά τε Ϝιανθεμίϲ,Damareta t’ erata te Wianthemis,,
+greek_classical,ξένϝος,xenwos,,
+greek_classical,Πάτροϙλος,Patroḳlos,,
+greek_classical,"λβʹ. Ἐπεὶ δὲ ἡ τύχη κράτιστον ἐπὶ πάντα τὰ ἀνθρώπεια, μηδὲ Ἡλιόδωρος ἀπαξιούσθω σοφιστῶν κύκλου παράδοξον ἀγώνισμα τύχης γενόμενος·","32. Epei de ē tychi kratiston epi panta ta anthrōpeia, mide Hēliodōros apaxiousthō sophistōn kyklou paradoxon agōnisma tychis genomenos",,
+greek_classical,"κζʹ. Μὴ δεύτερα τῶν προειρημένων σοφιστῶν μηδὲ Ἱππόδρομόν τις ἡγείσθω τὸν Θετταλόν, τῶν μὲν γὰρ βελτίων φαίνεται, τῶν δὲ οὐκ οἶδα ὅ τι λείπεται","27. Mē deutera tōn proeirēmenōn sophistōn mide Ippodromon tis ēgeisthō ton Thettalon, tōn men gar beltiōn phainetai, tōn de ouk oida o ti leipetai",,
+greek_classical,"ιγʹ. Πῶλον δὲ τὸν Ἀκραγαντῖνον Γοργίας σοφιστὴν ἐξεμελέτησε πολλῶν, ὥς φασι, χρημάτων, καὶ γὰρ δὴ καὶ τῶν πλουτούντων ὁ Πῶλος.","13. Pōlon de ton Akragantinon Gorgias sophistēn exemeletēse pollōn, ōs phasi, chrēmatōn, kai gar dē kai tōn ploutountōn o Pōlos",,
+greek_modern,"Ἐτήσια ἔκθεσις / Κυπριακὴ Δημοκρατία, Ὑπουργεῖον Ἐργασίας καὶ Κοινωνικῶν Ἀσφαλίσεων","Etēsia ekthesis / Kypriakē Dēmokratia, Hypourgeion Ergasias kai Koinōnikōn Asphaliseōn",,
+greek_modern,"Ετήσια έκθεση / Κυπριακή Δημοκρατία, Υπουργείο Εργασίας και Κοινωνικών Ασφαλίσεων","Etēsia ekthesē / Kypriakē Dēmokratia, Hypourgeio Ergasias kai Koinōnikōn Asphaliseōn",,
+greek_modern,Ελληνικό Ίδρυμα Ευρωπαϊκής και Εξωτερικής Πολιτικής,Hellēniko Hidryma Eurōpaikēs kai Exōterikēs Politikēs,,
+greek_modern,Ελευθέριος Δ. Παυλίδης,Eleutherios D. Paulidēs,,
+greek_modern,Ορθόδοξος Αυτοκέφαλος Εκκλησία της Αλβανίας,Orthodoxos Autokephalos Ekklēsia tēs Alvanias,,
+greek_modern,Βίος και πολιτεία του Αλέξη Ζορμπά,Vios kai politeia tou Alexē Zormpa,,
+greek_modern,Βίος καὶ πολιτεία τοῦ Ἀλέξη Ζορμπᾶ,Vios kai politeia tou Alexē Zormpa,,
+greek_modern,Λασκαρίνα Μπουμπουλίνα,Laskarina Boumpoulina,,
+greek_modern,Νταίηβιντ Μίτσελ,Ḏaiēvint Mitsel,,
+greek_modern,Τζαίημς Τζόυς,Tzaiēms Tzoys,,
+greek_modern,Ἡ κοινωνιολογία τοῦ ρεμπέτικου,Hē koinōniologia tou rempetikou,,
+greek_modern,Βίλλυ Μπραντ,Villy Brant,,
 greek_modern,Μπραντ Πιτ,Brant Pit,,
-greek_modern,Γιάκομπ Φίλιπ Φαλμεράυερ,Giakomp Philip Phalmerayer,,
-greek_modern,Σαρλ Ογκουστίν ντε Κουλόμπ,Sarl Onkoustin de Koulomp,,
-greek_modern,Λαμπέρτο Ντίνι,Lamperto Ḏini,,
-greek_modern,Τζωρτζ Χέρμπερτ Ουώκερ Μπους,Tzōrtz Chermpert Ouōker Bous,,
-greek_modern,Ουίνστων Τσώρτσιλ,Ouinstōn Tsōrtsil,,
-greek_modern,Παγκόσμιο Κέντρο Εμπορίου,Pankosmio Kentro Emporiou,,
-greek_modern,Φαίδων Γκιζίκης,Phaidōn Gkizikēs,,
-greek_modern,Γκέτεμποργκ,Gketemporgk,,
-greek_modern,Ουάσιγκτον,Ouasinkton,,
-greek_modern,Ουάσινγκτον,Ouasinnkton,,
-greek_modern,Αεροδρόμιο Ρόναλντ Ρέιγκαν της Ουάσινγκτον,Aerodromio Ronalnt Reinkan tēs Ouasinnkton,,
-greek_modern,Ντμίτρι Ιβάνοβιτς Μεντελέγιεφ,Ḏmitri Ivanovits Mentelegieph,,
-greek_modern,Άγγελος Σταύρου Βλάχος,Angelos Staurou Vlachos,,
-greek_modern,ΟΔΗΓΟΣ ΜΑΡΚΕΤΙΝΓΚ ΕΛΛΑΔΟΣ / Ἑλληνικό Ἰνστιτοῦτο Μάρκετινγκ τῆς Ἑλληνικῆς Ἑταιρίας Διοικήσεως Ἐπιχειρήσεων,Hodēgos marketingk Hellados / Hellēniko Institouto Marketingk tēs Hellēnikēs Hetairias Dioikēseōs Epicheirēseōn,,
-greek_modern,Σάλπιγξ Ἑλληνική,Salpinx Hellēnikē,,
-greek_modern,Μπιντπάϋ,Bintpay,,
-greek_modern,Η υιοθεσία ενηλίκων,Hē huiothesia enēlikōn,,
-greek_modern,οι Άρπυιες,hoi Harpuies,,
+greek_modern,Γιάκομπ Φίλιπ Φαλμεράυερ,Giakomp Philip Phalmerayer,,
+greek_modern,Σαρλ Ογκουστίν ντε Κουλόμπ,Sarl Onkoustin de Koulomp,,
+greek_modern,Λαμπέρτο Ντίνι,Lamperto Ḏini,,
+greek_modern,Τζωρτζ Χέρμπερτ Ουώκερ Μπους,Tzōrtz Chermpert Ouōker Bous,,
+greek_modern,Ουίνστων Τσώρτσιλ,Ouinstōn Tsōrtsil,,
+greek_modern,Παγκόσμιο Κέντρο Εμπορίου,Pankosmio Kentro Emporiou,,
+greek_modern,Φαίδων Γκιζίκης,Phaidōn Gkizikēs,,
+greek_modern,Γκέτεμποργκ,Gketemporgk,,
+greek_modern,Ουάσιγκτον,Ouasinkton,,
+greek_modern,Ουάσινγκτον,Ouasinnkton,,
+greek_modern,Αεροδρόμιο Ρόναλντ Ρέιγκαν της Ουάσινγκτον,Aerodromio Ronalnt Reinkan tēs Ouasinnkton,,
+greek_modern,Ντμίτρι Ιβάνοβιτς Μεντελέγιεφ,Ḏmitri Ivanovits Mentelegieph,,
+greek_modern,Άγγελος Σταύρου Βλάχος,Angelos Staurou Vlachos,,
+greek_modern,ΟΔΗΓΟΣ ΜΑΡΚΕΤΙΝΓΚ ΕΛΛΑΔΟΣ / Ἑλληνικό Ἰνστιτοῦτο Μάρκετινγκ τῆς Ἑλληνικῆς Ἑταιρίας Διοικήσεως Ἐπιχειρήσεων,Hodēgos marketingk Hellados / Hellēniko Institouto Marketingk tēs Hellēnikēs Hetairias Dioikēseōs Epicheirēseōn,,
+greek_modern,Σάλπιγξ Ἑλληνική,Salpinx Hellēnikē,,
+greek_modern,Μπιντπάϋ,Bintpay,,
+greek_modern,Η υιοθεσία ενηλίκων,Hē huiothesia enēlikōn,,
+greek_modern,οι Άρπυιες,hoi Harpuies,,

+ 3 - 2
test/data/script_samples/unittest.csv

@@ -6,5 +6,6 @@
 "rot3","st uv","Vw Xy","r2s","{""capitalize"": ""all""}"
 "regex","Hello abc","Hello 678","r2s",
 "regex","Hullo abc","5u22o 678","r2s",
-"word_boundaries","bab aa b.abc c, dae abada:ddd vb","<212> <11> 020.<123> 030, <41e <12141>:<444> v2>","r2s"
-"word_boundaries","43 23432 455 4:3 51, 11","<dc> <bcdcb> <d55 0d0:0c0 5a>, <aa>","s2r"
+"word_boundaries","bab aa\u0F0Bb.abc c, dan\u0F0Cabada:ddd vb","<27> <11>\u0F0B020.080 030, <41n\u0F0C<7141>:<444> v2>","r2s"
+"word_boundaries","43\u0F0D2123432 455 4:3 51, 11","<dc>\u0F0D<bfdcb> <d55 0d0:0c0 5a>, <aa>","s2r"
+"word_boundaries","

+ 0 - 0
test/unittest/__init__.py → test/unit_tests/__init__.py


+ 0 - 0
test/unittest/tables/data/_base1.yml → test/unit_tests/tables/data/_base1.yml


+ 0 - 0
test/unittest/tables/data/_base2.yml → test/unit_tests/tables/data/_base2.yml


+ 0 - 0
test/unittest/tables/data/_base3.yml → test/unit_tests/tables/data/_base3.yml


+ 0 - 0
test/unittest/tables/data/cap_base1.yml → test/unit_tests/tables/data/cap_base1.yml


+ 0 - 0
test/unittest/tables/data/cap_base2.yml → test/unit_tests/tables/data/cap_base2.yml


+ 0 - 0
test/unittest/tables/data/cap_inherited.yml → test/unit_tests/tables/data/cap_inherited.yml


+ 0 - 0
test/unittest/tables/data/inherited.yml → test/unit_tests/tables/data/inherited.yml


+ 0 - 0
test/unittest/tables/data/ordering.yml → test/unit_tests/tables/data/ordering.yml


+ 0 - 0
test/unittest/tables/data/regex.yml → test/unit_tests/tables/data/regex.yml


+ 0 - 0
test/unittest/tables/data/rot3.yml → test/unit_tests/tables/data/rot3.yml


+ 16 - 0
test/unittest/tables/data/word_boundaries.yml → test/unit_tests/tables/data/word_boundaries.yml

@@ -9,6 +9,8 @@ roman_to_script:
     "b": "2"
     "c": "3"
     "d": "4"
+    "ab": "5"
+    "abc": "6"
 
     "%a": "<1"
     "a%": "1>"
@@ -22,6 +24,12 @@ roman_to_script:
     "%d": "<4"
     "d%": "4>"
     "%d%": "040"
+    "%ab": "<7"
+    "ab%": "7>"
+    "%ab%": "070"
+    "%abc": "<8"
+    "abc%": "8>"
+    "%abc%": "080"
 
 script_to_roman:
   map:
@@ -29,6 +37,8 @@ script_to_roman:
     "2": "b"
     "3": "c"
     "4": "d"
+    "12": "e"
+    "123": "f"
 
     "%1": "<a"
     "1%": "a>"
@@ -42,3 +52,9 @@ script_to_roman:
     "%4": "<d"
     "4%": "d>"
     "%4%": "0d0"
+    "%12": "<g"
+    "12%": "g>"
+    "%12%": "0g0"
+    "%123": "<h"
+    "123%": "h>"
+    "%123%": "0h0"

+ 0 - 0
test/unittest/tables/index.yml → test/unit_tests/tables/index.yml


+ 0 - 0
test/unittest/test01_cfg.py → test/unit_tests/test01_cfg.py


+ 0 - 0
test/unittest/test02_transliteration.py → test/unit_tests/test02_transliteration.py


+ 0 - 0
test/unittest/test03_capitalization.py → test/unit_tests/test03_capitalization.py


+ 0 - 0
test/unittest/test04_normalization.py → test/unit_tests/test04_normalization.py


+ 0 - 0
test/unittest/test05_rest_api.py → test/unit_tests/test05_rest_api.py