浏览代码

Properly remove space before punctuation.

scossu 1 年之前
父节点
当前提交
5a5a54275b
共有 3 个文件被更改,包括 11 次插入8 次删除
  1. 6 6
      scriptshifter/hooks/korean/data.yml
  2. 4 1
      scriptshifter/hooks/korean/romanizer.py
  3. 1 1
      tests/data/sample_strings.csv

+ 6 - 6
scriptshifter/hooks/korean/data.yml

@@ -3379,17 +3379,17 @@ fkr066:
     " SB09KQ ": " ) "
     " SB10KQ ": " * "
     " SB11KQ ": " + "
-    " SB12KQ ": ", "
+    " SB12KQ ": " , "
     " SB13KQ ": " - "
-    " SB14KQ ": ". "
+    " SB14KQ ": " . "
     " SB15KQ ": " / "
-    " SB16KQ ": ": "
-    " SB17KQ ": "; "
+    " SB16KQ ": " : "
+    " SB17KQ ": " ; "
     " SB18KQ ": " < "
     " SB19KQ ": " = "
     " SB20KQ ": " > "
     " SB21KQ ": " ? "
-    " SB22KQ ": ", "
+    " SB22KQ ": " , "
     " SB23KQ ": " ǂ "
     " SB24KQ ": " 「 "
     " SB25KQ ": " 」 "
@@ -3416,7 +3416,7 @@ fkr066:
     " SB46KQ ": " — "
     " SB47KQ ": " ˜ "
     " SB48KQ ": " © "
-    " SB49KQ ": ", "
+    " SB49KQ ": " , "
 
   rule2:
     " SB01CQ ": " !"

+ 4 - 1
scriptshifter/hooks/korean/romanizer.py

@@ -261,9 +261,12 @@ def _romanize_oclc_auto(kor):
     # FKR066: Starts restore symbols
     for rname, rule in KCONF["fkr066"].items():
         logger.debug(f"Applying FKR066[{rname}]")
+        logger.debug(f"rom in FKR066: {rom}")
         rom = _replace_map(rom, rule)
 
-    rom = re.sub(r"\s{2,}", " ", rom.strip())
+    # Remove spaces from before punctuation signs.
+    rom = re.sub(r" (?=[,.;:?!])", "", rom.strip())
+    rom = re.sub(r"\s{2,}", " ", rom)
 
     return rom
 

+ 1 - 1
tests/data/sample_strings.csv

@@ -251,7 +251,7 @@ Korean ,Hangul +Hancha,korean_nonames,민법 의 세계 : 이론 과 판례 제
 Korean ,Hangul +Hancha,korean_nonames,민사 소송법 개론 (제 5판),Minsa sosongpŏp kaeron (che 5-p'an),L-R ,,,From K-Romanizer
 Korean ,Hangul +Hancha,korean_nonames,민주주의 의 지구화 와 한국 의 현실 진단,Minjujuŭi ŭi chiguhwa wa Han'guk ŭi hyŏnsil chindan,L-R ,,,From K-Romanizer
 Korean ,Hangul +Hancha,korean_nonames,민주주의 지구화 의 구상 과 현실,Minjujuŭi chiguhwa ŭi kusang kwa hyŏnsil,L-R ,,,From K-Romanizer
-Korean ,Hangul +Hancha,korean_nonames,민주화 의 민주화 : 노 무현 과 이 명박 을 넘어서,Minjuhwa ŭi minjuhwa : No Mu-hyŏn kwa Yi Myŏng-bak ŭl nŏmŏsŏ,L-R ,,,From K-Romanizer
+Korean ,Hangul +Hancha,korean_nonames,민주화 의 민주화 : 노 무현 과 이 명박 을 넘어서,Minjuhwa ŭi minjuhwa: No Mu-hyŏn kwa Yi Myŏng-bak ŭl nŏmŏsŏ,L-R ,,,From K-Romanizer
 Korean ,Hangul +Hancha,korean_nonames,바람 꽃 : 은혜 미디어 시선 61,Param kkot: ŭnhye midiŏ sisŏn 61,L-R ,,,From K-Romanizer
 Korean ,Hangul +Hancha,korean_nonames,바람 부는 날 의 산조,Param punŭn nal ŭi sanjo,L-R ,,,From K-Romanizer
 Korean ,Hangul +Hancha,korean_nonames,바람 은 길 을 안다,Param ŭn kil ŭl anda,L-R ,,,From K-Romanizer