]> git.xn--bdkaa.com Git - where-are-you.py.git/commitdiff
stemmer fix
authorzharkovstas <zharkovstas@skbkontur.ru>
Sun, 19 May 2019 00:27:52 +0000 (05:27 +0500)
committerzharkovstas <zharkovstas@skbkontur.ru>
Sun, 19 May 2019 00:27:52 +0000 (05:27 +0500)
stemmer.py

index b7e5b7994a04a12a7b10e66c9e0523a928f5c424..9396de717af55bc1cc20bd45e7a14f1218ed2a4e 100644 (file)
@@ -8,6 +8,7 @@ many_spaces_regex = re.compile(r' +')
 def normalize(line):
     result = line.lower()
     result = result.replace('ё', 'е')
+    result = result.replace('́', '')
     result = re.sub(punctuation_regex, ' \g<0> ', result)
     result = re.sub(bad_characters_regex, ' ', result)
     result = re.sub(many_spaces_regex, ' ', result)
@@ -20,4 +21,4 @@ def stemming(text):
     return ' '.join(stemmer.stemWords(normilized_text.split()))
 
 if __name__ == "__main__":
-    print(stemming('Спланой Ð¼Ð¾Ñ\81Ñ\82'))
+    print(stemming('Ð\94екабÑ\80иÌ\81Ñ\81Ñ\82Ñ\8b'))