python - 如何组合在平假名和片假名之间转换的两个相似功能？

Question

我有两个在片假名和平假名之间转换的函数，它们看起来一样：

katakana_minus_hiragana = 0x30a1 - 0x3041 # KATAKANA LETTER A - HIRAGANA A

def is_hirgana(char):
    return 0x3040 < ord(char[0]) and ord(char[0]) < 0x3097

def is_katakana(char):
    return 0x30a0 < ord(char[0]) and ord(char[0]) < 0x30f7

def hiragana_to_katakana(hiragana_text):
    katakana_text = ""
    max_len = 0
    for i, char in enumerate(hiragana_text):
        if is_hirgana(char):
            katakana_text += chr(ord(char) + katakana_minus_hiragana)
            max_len += 1
        else:
            break
    return katakana_text, max_len

def katakana_to_hiragana(katakana_text):
    hiragana_text = ""
    max_len = 0
    for i, char in enumerate(katakana_text):
        if is_katakana(char):
            hiragana_text += chr(ord(char) - katakana_minus_hiragana)
            max_len += 1
        else:
            break
    return hiragana_text, max_len

有没有办法简化hiragana_to_katakana()并katakana_to_hiragana()变成鸭式函数或超/元函数？

例如像

def convert_hk_kh(text, charset_range, offset):
    charset_start, charset_end = charset_range
    output_text = ""
    max_len = 0
    for i, char in enumerate(text):
        if charset_start < ord(char[0]) and ord(char[0]) < charset_end:
            output_text += chr(ord(char) + offset)
            max_len +=1 
        else:
            break
    return output_text, max_len


def katakana_to_hiragana(katakana_text):
    return convert_hk_kh(katakana_text, (0x30a0, 0x30f7), -katakana_minus_hiragana)


def hiragana_to_katakana(hiragana_text):
    return convert_hk_kh(hiragana_text, (0x3040, 0x3097), katakana_minus_hiragana)

还有其他pythonic方法来简化非常相似的两个函数吗？

已编辑

还有https://github.com/olsgaard/Japanese_nlp_scripts似乎与str.translate. 这样更有效率吗？更蟒蛇？

score 1 · Accepted Answer

这是一个可以将每种假名切换到另一种的功能。与给定的函数不同，它在遇到非假名时不会停止，而是简单地通过这些字符而不更改它们。

注意假名类型之间的转换不是这么简单的；例如，在平假名中，长“e”的声音由ええ或えい表示（例如，おねえ姐姐，せんせい老师），而在片假名中则使用chōonpu（オネー，せんせー）。在您使用的范围之外还有假名字符。

def switch_kana_type(kana_text):
    """Replace each kind of kana with the other kind. Other characters are
    passed through unchanged."""

    output_text = ''
    for c in kana_text:
        if is_hiragana(c):   # Note typo fix of "is_hirgana"
            output_text += chr(ord(c) + katakana_minus_hiragana)
        elif is_katakana(char):
            output_text += chr(ord(c) - katakana_minus_hiragana)
        else:
            output_text += c;
    return output_text, len(output_text)

score 1 · Accepted Answer

我会做这样的事情：

KATAKANA_HIRGANA_SHIFT = 0x30a1 - 0x3041  # KATAKANA LETTER A - HIRAGANA A

def shift_chars_prefix(text, amount, condition):
    output = ''

    for last_index, char in enumerate(text):
        if not condition(char):
            break

        output += chr(ord(char) + amount)

    return output, last_index

def katakana_to_hiragana(text):
    return shift_chars_prefix(text, -KATAKANA_HIRGANA_SHIFT, lambda c: '\u30a0' < c < '\u30f7')

def hiragana_to_katakana(text):
    return shift_chars_prefix(text, KATAKANA_HIRGANA_SHIFT, lambda c: '\u3040' < c < '\u3097')

如果您不返回替换前缀的长度，您也可以使用正则表达式：

import re

KATAKANA_HIRGANA_SHIFT = 0x30a1 - 0x3041  # KATAKANA LETTER A - HIRAGANA A

def shift_by(n):
    def replacer(match):
        return ''.join(chr(ord(c) + n) for c in match.group(0))

    return replacer

def katakana_to_hiragana(text):
    return re.sub(r'^[\u30a1-\u30f6]+', shift_by(KATAKANA_HIRGANA_SHIFT), text)

def hiragana_to_katakana(text):
    return re.sub(r'^[\u3041-\u3096]+', shift_by(-KATAKANA_HIRGANA_SHIFT), text)

python - 如何组合在平假名和片假名之间转换的两个相似功能？

已编辑

2 回答 2

Related

Reference