salut, e bine ca ai facut libraria, dar trebuie putin imbunatatita.
Mai intai, se pare ca a pus diacritice la aceste doua cuvinte: "transformand experientele". Dar restul, cele in chenar negru, nu le-a adaugat diacritice, sau nu le-a corectat. De exemplu, in loc de cuvantul "interconexiuneat" trebuia corectat "interconexiunea". Deci n-ar strica sa adaugi si un corector de cuvinte. Vezi imaginea:

Codul Pyton merge ! Codul scaneaza si corecteaza implicit urmatoarele taguri html:
<h1 class="den_articol" itemprop="name">(.*?)</h1>
<p class="text_obisnuit">(.*?)</p>
<p class="text_obisnuit2">(.*?)</p>
Uite codul:
import os
import re
from ro_diacritics import restore_diacritics
def process_text(text):
# Restaurează diacriticele folosind ro-diacritics
text_with_diacritics = restore_diacritics(text)
return text_with_diacritics
def process_html_file(file_path, output_path):
with open(file_path, 'r', encoding='utf-8') as file:
content = file.read()
# Procesează conținutul din h1
h1_pattern = r'(<h1 class="den_articol" itemprop="name">)(.*?)(</h1>)'
content = re.sub(h1_pattern, lambda m: m.group(1) + process_text(m.group(2)) + m.group(3), content)
# Procesează conținutul din p cu clasa text_obisnuit2
p_pattern = r'(<p class="text_obisnuit2">)(.*?)(</p>)'
content = re.sub(p_pattern, lambda m: m.group(1) + process_text(m.group(2)) + m.group(3), content)
with open(output_path, 'w', encoding='utf-8') as file:
file.write(content)
print(f"Fișier procesat și salvat: {output_path}")
# Directorul sursă și destinație
source_dir = r"g:\De pus pe FTP 2\66"
output_dir = os.path.join(source_dir, "Output")
os.makedirs(output_dir, exist_ok=True)
# Procesează toate fișierele HTML din director
for filename in os.listdir(source_dir):
if filename.endswith('.html'):
file_path = os.path.join(source_dir, filename)
output_path = os.path.join(output_dir, filename)
print(f"Procesare fișier: {filename}")
process_html_file(file_path, output_path)
print("Procesarea tuturor fișierelor a fost finalizată.")
salut, e bine ca ai facut libraria, dar trebuie putin imbunatatita.
Mai intai, se pare ca a pus diacritice la aceste doua cuvinte: "transformand experientele". Dar restul, cele in chenar negru, nu le-a adaugat diacritice, sau nu le-a corectat. De exemplu, in loc de cuvantul "interconexiuneat" trebuia corectat "interconexiunea". Deci n-ar strica sa adaugi si un corector de cuvinte. Vezi imaginea:
Codul Pyton merge ! Codul scaneaza si corecteaza implicit urmatoarele taguri html:
Uite codul: