![]() |
Цитата:
|
Цитата:
Вася! А какой пост ты хакнул? Свой? |
Цитата:
|
Отдельный вопрос о выборе форума. Миссис Аксман хочет остаться на VBulletin, потому что за 160 долларов получаешь вечную лицензию и саппорт. Но с другой стороны, если эта phpBB обладает такими же возможностями, что и VB, и при этом является бесплатной, так зачем же платить 160 долларов? Тем более, что за апгрейд еще придется платить 135? По мне, так лучше потратить эти деньги на приличный хостинг.
|
Цитата:
|
Я тут подумал-подумал. Ведь даже если мы получим данные о пользователях (только те, которые видны всем). Как потом польователи смогут получить доступ к своим профайлам? Все равно придется регистрироваться. А как мы узнаем, что Пластун, скачанный Васей Гондорским со старого Имладриса и Пластун, пришедший на новый форум суть одно лицо? Новый Пластун введет пароль. А с чем мы его сравним?
|
Цитата:
|
Цитата:
|
Цитата:
чем вам не нравится первый? И сколько места вам нужно? можно пошарить российских провайдеров - зона .ru стоит дешевле чем .com и при этом, имхо, гораздо больше соответствует содержанию сайта При этом оформить фсе это и подключить можно буквально за несколько дней (помниться, когда я регистрировался в .spb.ru на все про все ушла неделя, это при оплате наличными) Цитата:
Цитата:
Что касается количества постов и всевозможных статусов (Джуниор, Сениор и пр.), то все это будет выставлено автоматом, если скрипт, импортирующий сообщения в новую БД будет написан так, чтобы месаги импортились от соответствующего юзера Цитата:
Цитата:
для этого нужен доступ к базе для подсчета размера можно взять усредненный размер одного мессаджа и помножить его на 100000 Ж-)) |
Цитата:
Цитата:
Цитата:
|
Цитата:
всегда считал первым уровнем домен, который находится в какой-то зоне.... Цитата:
Цитата:
|
Цитата:
Кстати, а какое имя планируется для домена? С чёрточкой или без: henneth-annun.com или hennethannun.com? Цитата:
|
Цитата:
henneth-annun.com уже занят. <img src="images/smilies/frown.gif" border="0" alt=""> и .net тоже. |
Цитата:
Домен henneth-annun.ru вроде бы пока свободен - надо брать быстрее, пока не захватили. Если, конечно, не будет выбрано другое имя для домена. |
Цитата:
НАТАЛИ - одобрям или не одобрям? |
Почему мы хотим американский хостинг? Объясняю. Во-первых, мы обе сейчас в Америке. Значит, с оплатой нет проблем, да и не платить за международные звонки в Россию случись чего. Во-вторых, я посмотрела кучу провайдеров, как в России, так в Америке - у меня все-таки сложилось впечатление, что американские дешевле. Вы же понимаете, места с таким форумом нам понадобится не так мало, да и сайт хотим развивать. И главное, чтобы траффик был неограниченный. Про скрипты и MySQL даже не говорю, и так понятно <img src="images/smilies/smile.gif" border="0" alt=""> Я вот нашла хостинг за 17 долларов в месяцев 5 гигов и все вышеперечисленные условия. Вы видели такой русский хостинг? Ну и наконец, не верю я в российский сервис. Не доросли пока. На Западе гораздо бережнее относятся к клиентам. Как я вижу, опыт наших форумчан это подтверждает <img src="images/smilies/smile.gif" border="0" alt="">
Насчет домена - нам все равно в какой зоне его регистрировать, хотя наверное ru было бы предпочтительней, сайт-то для русскоязычных предназначен. Но для регистрации надо находиться в России, значит, придется кого-то просить это сделать. Жаль, что net уже занят, еще месяц назад он был свободен <img src="images/smilies/frown.gif" border="0" alt=""> Ну ладно, в случае чего можно вообще без черточки обойтись, так даже лучше <img src="images/smilies/smile.gif" border="0" alt=""> Насчет форума - я думаю, обойтись без пиэмов и аватаров вполне можно, и информацию добавить о себе тоже <img src="images/smilies/smile.gif" border="0" alt="">Главное, чтобы треды можно было забрать. |
Цитата:
|
Natalie, 5 гигов может не хватить.
Я не знаю, сколько точно в нашем форуме, но простой подсчет показывает, что 100000 постов по 10000 символов (максимальная длина) - это гигабайт. Скидываем порядок на то, что средняя длина поста гораздо меньше, но сколько еще аттачментов! И это всего за полгода. |
Цитата:
А насчет domain'а для сайта, народ, только не надо сейчас всем ломиться и проверять свободны они или нет. Это самый лучший способ потерять свободное имя (сам сталкивался с этим, как только повышается интерес к какому-нибудь имени, его тот час же регистрируют, потому как существуют инструменты отслеживания запросов к общей базе данных). Имена нужно регистрировать и проверять уже после того, как куплено место на сервере со своим IP адресом. Henneth-annun.net было свободно еще месяц назад. Видимо кто то уже прибрал его к рукам. |
Так, ну я нашел способ забирать vB-код прямо из поста, делается через edit постов, работает, естественно, только с моими. Я думаю, что если модератор даст мне пароль, будет работать со всеми.
Что там у нас с парсером? Собирать о постах нужно: автор id в базе данных id треда дата создания дата редактирования есть ли аттач, если да - его id вроде все. |
Цитата:
то место где открывается новая колонка таблицы (т.е. <td bgcolor="#31639c" width="100%" valign="top">) Как только мы это место находим, идем на следующую строчку, которая начинается вот так <font face="verdana,arial,helvetica" size="1" > все что висит между этим тагом и закрывающим </font> тагом, это заголовок сообщения + если есть иконка. идем на следующую строчку. Все что находится между тагами <p> и </p> это текст сообщения (включая цитаты из других сообщений, цитаты засунуты в таги <blockquote>). Присваиваем все это дело очередной переменной. Идем к вот такой строчке "<td bgcolor="#31639c" width="175" height="16" nowrap>" и вырезаем от туда дату и время сообщения. В это время проверяем, есть ли у нас уже ID пользователя который послал это сообщение, если есть, то скидываем все значения переменных в базу и переходим к следующему сообщению, а если пользователь не существует, то переходим вот на эту страницу (http://www.imladris.net/forums/member.php?s=&action=getinfo&userid=5043) и забираем от туда следующую информацию: Date Registered, Status, Homepage, и т.д. а можно ее и не забирать, сами после переезда заполнят:-)) Создаем нового пользователя в базе данных, с именем, которое мы подобрали и случайным паролем, запоминаем ID пользователя и теперь закидываем сообщение которое мы разобрали в базу данных. Переходим к следующему сообщению, и т.д. пока не дойдем до конца страницы. Вроде бы все.... |
Извините, что вмешиваюсь в разговор профессионалов, просто маленькое замечание.
Hobbbbit, ты ОЧЕНЬ не прав, утверждая что на форуме лучше обойтись без аттачментов. Это же форум по фильму, а значит - скриншоты, фотки актеров и т.д. Да без аттачей половина тредов усохнут. Я уж молчу про наше творчество - тред Рисунки состоит восновном из аттачей. |
Цитата:
|
Цитата:
|
Цитата:
Пластун, тебя такое описание алгоритма устроит? Сможешь начать что то делать с ним? Потому как, боюсь, что в языках мы с тобой не состыкуемся, я в основном занимаюсь веб-скриптами, т.е. ASP и VB, когда то писал на Perle, Jave и C, но это было так давно, что боюсь, что сейчас у меня уйдет больше времени на вспоминания, чем на писанину:-)) Но если надо будет, то вспомню. |
По поводу аттачментов: существующие аттачи надо забирать ВСЕ. А в будущем мы будем более строго отслеживать аттачи: приучать народ давать ссылки на файлы, а не аттачить сами файлы, если это возможно. А для коллекций фоток и рисунков завести специальную базу, куда аттачи могли бы перекочевывать со временем.
Аттач выкачать несложно - по ID. Аттачи привязываются к ID постера и имеют свой ID, и в тексте сообщения распознать ссылку на аттач очень легко. Можно вообще аттачи не перекачивать в нашу базу, а заменять на ссылку на имладрисовскую базу, т.е. картинки по-прежнему держать на Имладрисе. Нагло, конечно, но ничего, они вряд ли почувствуют неудобство и наш форум вряд ли будут удалять даже после переезда. Насчет своего хостинга и места на нем и дороговизны - именно поэтому я и хотела пойти на 18-ГБ диск Арды, чтоб не ломать голову над местом и деньгами. И путь нам туда открыт по-прежнему. Далее, Vasya - идея с программой, заходящей по ссылке на Edit каждого поста и выкачивающая VB-код, очень хорошая. Однако из соображений безопасности и чтобы не ставить Лэймара в неловкое положение я бы сделала так: пароль в программе сделать входным параметром и программу передать Лэймару, чтоб он сам ее запустил со своим паролем, и не выдавал пароль кому-то еще. А оттестировать на своем пароле либо на форуме Атамана. |
Цитата:
Итак. Считаем, что я беру на себя обработку страниц, создание и заполнение БД. Но. Мне нужен готовый модуль для выкачивания страницы по ссылке. У меня в принципе такой модуль есть, но он не корректно работает с параметрами именно имладрисовского форума. Давайте, ребята, вы возьметесь найти или написать. Я пока предполагаю, что у меня есть поле в БД, откуда я беру готовую страницу. А вход мы потом поменяем. |
Цитата:
Я бы выкачал. Лучше сразу, чем откладывать на потом. Потом может и не быть, а зачем нам пустые ссылки. Цитата:
|
Hobbbbit, ты не забираешь время редактирования и не проверяешь аттачи - я же написал, что нужно.
Текст сообщения таким образом забирать не стоит, ведь есть способ доступа к vB-коду. В базе нужны только id постов (местные), сам текст не нужен. |
Вася, Хоббббит! Ну что там с модулем для выкачивания?
Я в принципе придумал, как мне обойтись без него. Пишу прогу для создания урлов. Потом с помощью того же FlashGet-a выкачиваю все страницы и обрабатываю их локально. Это запускается отдельно для профайлов и отдельно для аттачей. Можно сделать все в одном флаконе, но пока не могу. Кстати, я собираюсь писать не серверный скрипт, а клиентскую прогу. Чтобы было удобно мониторить, что происходит. Но мне в конце все равно нужен будет пароль модератора. |
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
Баг этот я знаю как обойти, собственно, именно это и послано Пластуну. |
Цитата:
|
Да, пожалуй, ты прав.
Выходит, придется писать парсер HTML->vB. Ладно, думаю, это не так уж сложно. Кстати, та же проблема возникает при разборке треда. Как нетрудно посчитать, при просмотре всего форума по тредам придется сделать 105000/30=3500 заходов. Частично проблему можно решить, выставив perpage в querystring побольше. |
Цитата:
Сейчас сделал парсер главной страницы форума. Генерится список урлов, чтобы заходить в треды и скачивать их по 100 штук на странице. У меня получилось на сегодня 648 заходов только чтоб скачать сами треды. Сделал парсер страниц с тредами. Вытянул id треда, автора, первую дату, последнюю дату, урл аттача. Ничего не забыл? Теперь делаю парсер страницы профайла. Вы, ребята, говорите, много заходов получается? Что, не писать пока? |
Да, я забыл, что дальше. Дальше будем скачивать страницы профайлов, парсить их. Это нетрудно.
А вот насчет заходов в EDIT, не знаю. Во-первых паролей всёрно нет, а во-вторых, много заходов будет. И дело даже не в аттачах, а в общем количестве постов. Ладно HTML -> vB я завтра напишу. |
Ну, если за 648 не забанили - пока нормально. Профайлы погоды не сделают. <img src="images/smilies/smile.gif" border="0" alt="">
Скинешь мне парсер - проверю, сравнив с реальными vB-кодами своих постов, да и просто погляжу, ок? |
Цитата:
Насчет разбития на страницы, то это можно убрать поставив perpage равный где-то 20000... Кстати, Пластун, я бы сделал немного по другому. По моему, лучше написать программку, которая будет у тебя запрашивать URL ветви, во-первых, возможно не все ветви нужно будет качать (я бы лично не все качал бы, но дай мне волю и из всего этого форума только 10-15 ветвей переедет:-))))) А во-вторых, тогда каждую ветвь можно будет качать отдельно, т.е. для выдирания ветви нужно будет сделать всего 1+(кол-во новых пользователей)+кол-во аттачментов заходов, а это уже не так много... Могут даже и не заметить... Ну а URL ветвей можно и ручками скачать... |
Качать надо все, включая аттачи - такова воля Mrs.Underhill.
URLы тредов ручками качать облом, их у нас 573, к тому же, как я понял, Пластун уже записал их все в базу. |
Цитата:
Вася, а обход бага веселый. Сам придумал, или вычитал где? А кроме того, я пару раз сталкивался с такой проблемой... XMLHTTP, похоже, не работает по стандартному HTTP протоколу, потому что у меня было несколько раз такое, что он страницу не до конца закачивал... |
Нашел в Нете, на одном немецком сайте. У них тоже со всякими умляутами проблемы.
А недокачивает он до конца именно в этом случае. А именно, в responseText пишутся вопросы вместо кириллицы, при этом еще поблизости отъедаются куски с нормальной латиницей. С обходным манёвром, тьфу-тьфу, вроде все докачивается до конца. |
Цитата:
|
Я качаю FlashGet-ом. Ссылки в базу закачал, но их все равно надо будет заново закачивать.
Парсеры вышлю завтра. Или сегодня поздно ночью. |
Что-то я не найду, как приаттачить файл к ПМ. Может пришлете мне мыло на <a href="mailto:[email protected]">[email protected]</a>. Хочу дать вам черновой вариант двух парсеров.
|
Цитата:
|
Цитата:
<HR> О! Заработало, только, почему то только с файлами меньше 50Кб. Работает отлично! Только хорошо бы еще вытаскивать сам текст сообщения, хотя бы в HTMLе пока. Честно признаюсь, я такие парсеры, такими темпами писать не умею!:-)) Не люблю я в VB работать со строками, мало там функций для меня, да и неудобные они. |
Цитата:
ЗЫ. Спасибо за бета-тестирование. Очень помогаешь. Кстати, это не скрипт. Это Delphi. |
Текущее время: 07:11. Часовой пояс GMT +4. |
Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot