Повечето от информацията в Интернет, се публикува в .html-файлове. Тези html-файлове се четат и разглеждат много удобно с програмите-браузъри, като "Интернет експлорър", "Нетскейп" и някои по-малко популярни, като да речем "Линкс".
Когато Вие разполагате със стар компютър, (например 286), тези огромни приложения не могат да се използват. Тогава Ви остава да четете html-файловете с какъв да е текстов редактор, защото html-файловете всъщност са текстови файлове. Но, това не е решение, защото когато html-файл се отвори с обикновен текстов редактор или вюър, Вие ще виждате и всички така наречени тагове, които програмите-браузъри не изобразяват, защото тези тагове служат за форматиране на текста, за хипер-връзки към други файлове, ресурси на интернет или на вашия компютър.
Тогава Ви идва на помощ програма-конвертор като htmstrip. Htmstrip изважда само текста от html-файловете, който би се изобразил на екрана на един браузър.
И така, да допуснем, че някой Ви е дал важна информация, която се съдържа в html-файлове. Например файла page1.htm. Въвеждате от командния ред на ДОС:
htmstrip page1.htm
натискате "ентър" и htmstrip ще създаде в текущата директория файл с име page1.out, тоест, файл със същото име, като файла източник, но с разширение .out.
Това, разбира се, ще стане, ако преди въвеждането на горната команда, сте си записали в директорията с програмите които най-често използвате, (директория, към която има път), файловете htmstrip.exe и htmstrip.ini. В създадения от htmstrip .out-файл се съдържа само "чистият" текст от файла-източник. Ако това е била, да речем, интернетска страница, съдържаща текст на кирилица, то кодовата таблица на тая кирилица ще е Windows-1251. За да конвертирате до кирилица за ДОС, използвайте WIN2MIK.EXE, описана на друга страница на сайта.
Можете да разгледате и файла htmstrip.ini, защото в него могат да се настройват различни параметри по подразбиране за html to text конвертора. По мое мнение, най-важния за нас е "/width=". След знака "равно" се задава число, което число уведомява htmstrip.exe с каква дължина да са редовете в изходния .out-файл. Автора на програмата е задал 74, тоест, дължината на редовете на изходния файл, ще бъде не по-голяма от 74 знака на ред.
Този, както и други параметри могат да се задават и на командния ред на ДОС, както и да се използват в .bat-файл. Ето, например, .bat-файла, който аз често използвам:
htmstrip *.htm
win2mik *.out
tj *.out *.txt
del *.out
Виждате и някаква програма с име "TJ". Това е една доста мощна програма за обработка на текст, създадена по поръчка на Националното читалище на слепите "Луи Брайл". Ако читалището има желание, ще поставя тук и тая програма, но, и без нея, се получават прилични текстови файлове, извлечени от html-страниците в Интернет.
Това е накратко за htmstrip.exe. Програмата има и по-нови версии от предложената тук, но мисля, че тази, от 1998 г., като че е най-подходящата за нашите кирилски кодови таблици.
Остава да спомена и автора, който също се е съобразявал със незрящите потребители на Интернет, и техните нужди. Да е жив и здрав.
(c)1998 Bruce Guthrie, Wayne Software Revised 08/16/98
Назад към предишната страница. Back to previous page.
Обратно на заглавната страница. Back to home page.
http://bezmonitor.com (123.dir.bg)