25.07.2017 Views

Intro-CSharp-Book-v2015

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

992 Въведение в програмирането със C#<br />

Задача 1: Извличане на текста от HTML<br />

документ<br />

Даден е HTML файл с име Problem1.html. Да се напише програма, която<br />

отстранява от него всички HTML тагове и запазва само текста вътре в тях.<br />

Изходът да се изведе във файла Рroblem1.txt.<br />

Примерен входен файл Рroblem1.html:<br />

<br />

Welcome to our site!<br />

<br />

<br />

<br />

<br />

Home<br />

Contacts<br />

About<br />

<br />

<br />

<br />

Примерен изходен файл Problem1.txt:<br />

Welcome to our site!<br />

Home<br />

Contacts<br />

About<br />

Измисляне на идея за решение<br />

Първото, което ни хрумва като идея за решение на тази задача, е да четем<br />

последователно (например ред по ред) входния файл и да махаме всички<br />

тагове. Лесно се вижда, че всички тагове започват със символа "". Това се отнася и за отварящите и за<br />

затварящите тагове. Това означава, че от всеки ред във файла трябва да<br />

се премахнат всички поднизове, започващи с "".<br />

Проверка на идеята<br />

Имаме идея за решаване на задачата. Дали идеята е вярна? Първо трябва<br />

да я проверим. Можем да я проверим дали е вярна за примерния входен<br />

файл, а след това да помислим дали няма някакви специални случаи, за<br />

които идеята би могла да е некоректна.<br />

Взимаме лист и химикал и проверяваме на ръка идеята дали е вярна.<br />

Задраскваме всички поднизове от текста, които започват със символа "

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!