Skip to content

libraria nu reuseste sa adauge peste tot diacritice #3

@me-suzy

Description

@me-suzy

salut, e bine ca ai facut libraria, dar trebuie putin imbunatatita.

Mai intai, se pare ca a pus diacritice la aceste doua cuvinte: "transformand experientele". Dar restul, cele in chenar negru, nu le-a adaugat diacritice, sau nu le-a corectat. De exemplu, in loc de cuvantul "interconexiuneat" trebuia corectat "interconexiunea". Deci n-ar strica sa adaugi si un corector de cuvinte. Vezi imaginea:

image

Codul Pyton merge ! Codul scaneaza si corecteaza implicit urmatoarele taguri html:

<h1 class="den_articol" itemprop="name">(.*?)</h1>
<p class="text_obisnuit">(.*?)</p>
<p class="text_obisnuit2">(.*?)</p>

Uite codul:

import os
import re
from ro_diacritics import restore_diacritics

def process_text(text):
    # Restaurează diacriticele folosind ro-diacritics
    text_with_diacritics = restore_diacritics(text)
    return text_with_diacritics

def process_html_file(file_path, output_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()

    # Procesează conținutul din h1
    h1_pattern = r'(<h1 class="den_articol" itemprop="name">)(.*?)(</h1>)'
    content = re.sub(h1_pattern, lambda m: m.group(1) + process_text(m.group(2)) + m.group(3), content)

    # Procesează conținutul din p cu clasa text_obisnuit2
    p_pattern = r'(<p class="text_obisnuit2">)(.*?)(</p>)'
    content = re.sub(p_pattern, lambda m: m.group(1) + process_text(m.group(2)) + m.group(3), content)

    with open(output_path, 'w', encoding='utf-8') as file:
        file.write(content)

    print(f"Fișier procesat și salvat: {output_path}")

# Directorul sursă și destinație
source_dir = r"g:\De pus pe FTP 2\66"
output_dir = os.path.join(source_dir, "Output")
os.makedirs(output_dir, exist_ok=True)

# Procesează toate fișierele HTML din director
for filename in os.listdir(source_dir):
    if filename.endswith('.html'):
        file_path = os.path.join(source_dir, filename)
        output_path = os.path.join(output_dir, filename)
        print(f"Procesare fișier: {filename}")
        process_html_file(file_path, output_path)

print("Procesarea tuturor fișierelor a fost finalizată.")

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions